Rの考え方

Rの個人研究・考察を行うブログ。最近は因果推論とアナリティクス(機械学習、統計はお休み中)、認知論にお熱。

ブログ

データ分析の品質をどう定義するか

投稿日:2022年2月20日 更新日:

はじめに

「データ分析って、それ自体にばらつきがあるよね。」という言葉

その通りです。
データ分析は個人の意図が入り込みやすく、担当者によって思考法や手法に再現性が取れないことがままあります。

それを的確に示すことわざは、ハンマーしか持っていなければすべてが釘のように見えるでしょう。*元は英語のことわざの「If all you have is a hammer, Everything looks like a nail.」です。

勉強したからコレを使いたい、専門だからコレでなきゃ嫌だ、と。

今の手法が必ず優れているわけではない

製造業にある(旧来型)品質管理方法であっても課題解決できるのであれば問題ないです。そこで無理に(現代型)データ分析する必要がないのではないかと思われます。

さて、その中でデータ分析の品質をどう定義するのでしょうか?

まずは、温故知新ということで、QC7つ道具新QC7つ道具を確認します。

ざっくりと内容を確認すると、QC7つ道具は数値データ、新QC7つ道具は自然言語データを取り扱います。(新QC7つ道具は数値データ処理も含まれます)

意思決定を支援するというデータ分析の要諦は変わりません。
では、各々の手法の内容を確認しましょう。
※詳しい使い方は今回の内容で触れません。悪しからず。

QC7つ道具

1・パレート図

故障原因などを多いものから表示し、対策すべき点を意思決定する。

2・特性要因図

故障原因などを複数の視点から観察し、原因を追究する。

3・グラフ(管理図)

数値の変動などを可視化する。

4・チェックシート

正常・異常を定義し、機器などに問題がないか現状把握を行う。

5・ヒストグラム

データの分布を見て、何が起こっているのか推察する。

6・散布図

2つの数値の関係性を把握する。

7・層別化

層で分けた際に、データがどのような動きをするのか確認する。

新QC7つ道具

1・親和図法

課題などをグループ化し、対策を考える。

2・連関図法

故障などに関して、複数の原因がどのように連関しているのか把握する。

3・系統図法

原因を系統だてて分解する。ロジックツリーにも使われる。

4・マトリクス図法

現状把握のために、表形式ですべての状態の検査を行う。

5・アローダイヤグラム

プロジェクトの各工程の所要時間から、総所要時間を求める。

6・PDPC法

複数の故障原因などをフロー化し、どこに課題があるのか、何に対処すべきか確認する。

7・マトリクスデータ解析(主成分分析)

複数の数値データが、どのように関連しあっているのかを確認する。
かつ、そのデータを集約すると、何を意味しているのか把握する。

QC7つ道具(旧・新)まとめ

数値データ・自然言語データを用いて、課題の現状把握をするために、数値化・整理・位置づけを行う。

ここからさらに大雑把に言うと(抽象化すると)、ある程度のパターン化を行うために、この道具を使うと理解しやすいということでしょうか。

疑問

7つ道具というからには、他に候補があり、選ばれなかったモノがあったということでしょうか・・・。何があるんだろうか。

提案

ここでデータ分析の品質を定義するための提案です。
課題の種類を系統的に網羅した図を作り、それぞれの最終ノードに対し、処理フローとチェック項目を定義すればよいのではないでしょうか。

つまり、KPIツリーのように分類して、一番孫のノードに処理フローを紐づける。

参考: https://kaizen-penguin.com/how-to-make-kpi-tree-5394/

品質は、下記2点で定義するとしましょう。
①その処理フローの選択が正しいか
②チェック項目をもれなく確認できているか

データ分析の品質管理は、その分析が問題ないか出荷前に確認することを行い、品質保証は、現在の処理フローが、理論的に正しいことを文書で証明することを行います。

品質管理は、分析部門のメンバーまたはリードするメンバー(アドバイザー)に必要になってくるでしょう。
品質保証は、チームを新設する必要があるのではないでしょうか。データ分析の納品には直接関係なく、多数のチーム・案件の知見をまとめたモノを作る必要があります。

ただ、処理フローから外れるような内容が出てくると、その分更新が必要になります。加えて、内容を網羅できると思えない&更新の工数が重いからこそ、処理フローが整備されないという背景もありそうですね。

さいごに

データ分析では品質の定義がない状態にあります。

よく話題に上がる売上貢献と品質は異なります。
企業としては、売上貢献がなければそもそも使わないという話ですが。

品質管理は売上貢献というよりも、そもそも誤った内容を提供しないというマイナスを止める効果があると考えています。
※誤った内容が先に来れば効果検証すら適当でないので、出てきたデータは意味がない・・・というのはありえそうですね。

どうすれば適切な品質管理ができるのでしょうか?今回は、対案を含めた妥当性の検証ができていません。
また考えたいと思います。

-ブログ

執筆者:


comment

メールアドレスが公開されることはありません。

関連記事

身体髪膚これを父母に受くあえて毀傷せざるは孝の始めなり

身体髪膚これを父母に受くあえて毀傷せざるは孝の始めなり 意味:《「孝経」から》人の身体はすべて父母から恵まれたものであるから、傷つけないようにするのが孝行の始めである。 どう考えるかも自分次第ですが、 …

理系(バイオ系)院生就職活動まとめ

就職活動が終了しました。まとめとしてこの記事を書きましたので、後進の方の道しるべとなればありがたいです。 三行まとめ 1・結局運よく外資系企業に就職した。 2・差別化の生存戦略を使うと割とうまくいく。 …

ヒトは情報量に不均一性があるとカンタンに仲違いする

あなたには部下が育たない、なぜか人に嫌われるという悩みはありませんか? その原因には、一つ普遍的な事柄があります。 それは、情報量の不均一性です。 簡単に言うと、相手から貰う情報量と、与える情報量が極 …

奪われ得るもの。その認識が明日を決めるかもしれない。

奪われるものが多いほど失うことに恐怖心が無くなる。 私は多く奪われてきたし、自ら投げ捨てて来たこともある。 ただ、他人にだけは正直で居よう。 その人の希望を叶えよう。叶えられないのならNoと言おう。 …

no image

Surface pro 2の電源ケーブルを物理的に直す

電源ケーブル(上部)が内部で切れたので、物理的に直しました。 ・やりかた 1. 切れた部位を切除する はさみやニッパーなどで簡単に切れます。 バッサリ切り取ってください。これでコードが2分されます。 …