Rの考え方

Rの個人研究・考察を行うブログ。最近は因果推論とアナリティクス(機械学習、統計はお休み中)、認知論にお熱。

ブログ

データ分析の品質をどう定義するか

投稿日:2022年2月20日 更新日:

はじめに

「データ分析って、それ自体にばらつきがあるよね。」という言葉

その通りです。
データ分析は個人の意図が入り込みやすく、担当者によって思考法や手法に再現性が取れないことがままあります。

それを的確に示すことわざは、ハンマーしか持っていなければすべてが釘のように見えるでしょう。*元は英語のことわざの「If all you have is a hammer, Everything looks like a nail.」です。

勉強したからコレを使いたい、専門だからコレでなきゃ嫌だ、と。

今の手法が必ず優れているわけではない

製造業にある(旧来型)品質管理方法であっても課題解決できるのであれば問題ないです。そこで無理に(現代型)データ分析する必要がないのではないかと思われます。

さて、その中でデータ分析の品質をどう定義するのでしょうか?

まずは、温故知新ということで、QC7つ道具新QC7つ道具を確認します。

ざっくりと内容を確認すると、QC7つ道具は数値データ、新QC7つ道具は自然言語データを取り扱います。(新QC7つ道具は数値データ処理も含まれます)

意思決定を支援するというデータ分析の要諦は変わりません。
では、各々の手法の内容を確認しましょう。
※詳しい使い方は今回の内容で触れません。悪しからず。

QC7つ道具

1・パレート図

故障原因などを多いものから表示し、対策すべき点を意思決定する。

2・特性要因図

故障原因などを複数の視点から観察し、原因を追究する。

3・グラフ(管理図)

数値の変動などを可視化する。

4・チェックシート

正常・異常を定義し、機器などに問題がないか現状把握を行う。

5・ヒストグラム

データの分布を見て、何が起こっているのか推察する。

6・散布図

2つの数値の関係性を把握する。

7・層別化

層で分けた際に、データがどのような動きをするのか確認する。

新QC7つ道具

1・親和図法

課題などをグループ化し、対策を考える。

2・連関図法

故障などに関して、複数の原因がどのように連関しているのか把握する。

3・系統図法

原因を系統だてて分解する。ロジックツリーにも使われる。

4・マトリクス図法

現状把握のために、表形式ですべての状態の検査を行う。

5・アローダイヤグラム

プロジェクトの各工程の所要時間から、総所要時間を求める。

6・PDPC法

複数の故障原因などをフロー化し、どこに課題があるのか、何に対処すべきか確認する。

7・マトリクスデータ解析(主成分分析)

複数の数値データが、どのように関連しあっているのかを確認する。
かつ、そのデータを集約すると、何を意味しているのか把握する。

QC7つ道具(旧・新)まとめ

数値データ・自然言語データを用いて、課題の現状把握をするために、数値化・整理・位置づけを行う。

ここからさらに大雑把に言うと(抽象化すると)、ある程度のパターン化を行うために、この道具を使うと理解しやすいということでしょうか。

疑問

7つ道具というからには、他に候補があり、選ばれなかったモノがあったということでしょうか・・・。何があるんだろうか。

提案

ここでデータ分析の品質を定義するための提案です。
課題の種類を系統的に網羅した図を作り、それぞれの最終ノードに対し、処理フローとチェック項目を定義すればよいのではないでしょうか。

つまり、KPIツリーのように分類して、一番孫のノードに処理フローを紐づける。

参考: https://kaizen-penguin.com/how-to-make-kpi-tree-5394/

品質は、下記2点で定義するとしましょう。
①その処理フローの選択が正しいか
②チェック項目をもれなく確認できているか

データ分析の品質管理は、その分析が問題ないか出荷前に確認することを行い、品質保証は、現在の処理フローが、理論的に正しいことを文書で証明することを行います。

品質管理は、分析部門のメンバーまたはリードするメンバー(アドバイザー)に必要になってくるでしょう。
品質保証は、チームを新設する必要があるのではないでしょうか。データ分析の納品には直接関係なく、多数のチーム・案件の知見をまとめたモノを作る必要があります。

ただ、処理フローから外れるような内容が出てくると、その分更新が必要になります。加えて、内容を網羅できると思えない&更新の工数が重いからこそ、処理フローが整備されないという背景もありそうですね。

さいごに

データ分析では品質の定義がない状態にあります。

よく話題に上がる売上貢献と品質は異なります。
企業としては、売上貢献がなければそもそも使わないという話ですが。

品質管理は売上貢献というよりも、そもそも誤った内容を提供しないというマイナスを止める効果があると考えています。
※誤った内容が先に来れば効果検証すら適当でないので、出てきたデータは意味がない・・・というのはありえそうですね。

どうすれば適切な品質管理ができるのでしょうか?今回は、対案を含めた妥当性の検証ができていません。
また考えたいと思います。

-ブログ

執筆者:


comment

メールアドレスが公開されることはありません。

関連記事

就職活動 面接官、あなたと私は違うんです

就職活動開始の時期ですね。 今日は気になった記事「志望動機「IT業界に入れば成長させてくれると思った」がNGなワケ」について。 会社とは、何のために存在するのでしょうか? 「社会貢献」? 「自己実現」 …

若者”疲れ”の原因

人は誰でも、自分自身への誇りを、自分に課された仕事を果していくことで確実にしていく。だから、職を奪うということは、その人から、自尊心を育む可能性さえも奪うことになるのです ー日本人へ リーダー篇(塩野 …

Google検索があるから勉強しなくていいとは「言えない」理由

検索技術が進歩し、知らないことはググって解決が多くなってきました。 日常生活は便利になりましたが、技術や学問を学ぶ際にはそれは正しいのでしょうか。 結論から言うと、間違っています。 理由としては、未知 …

感情が多くを占める国、ニッポン

「頑張ればどうにかなる。」 この言葉に違和感しかありません。 世の中には多くの仕事が溢れています。 今や機械が介在しない仕事も少なくなってきました。 毎回しないで済むように、システム(仕事の仕方)を作 …

チーズはどこへ消えた?飽きは最大の武器だよ。

飽き性で困ったな・・・というあなた。 想像してみてください。 誰もがずっと同じレストランの料理で満足している世界を! 飽きもせず、毎日毎日同じ場所に行ってご飯を食べます。 違和感を感じませんか? つま …