Rの考え方

Rの個人研究・考察を行うブログ。最近は因果推論とアナリティクス(機械学習、統計はお休み中)、認知論にお熱。

ブログ

データ分析の品質をどう定義するか

投稿日:2022年2月20日 更新日:

はじめに

「データ分析って、それ自体にばらつきがあるよね。」という言葉

その通りです。
データ分析は個人の意図が入り込みやすく、担当者によって思考法や手法に再現性が取れないことがままあります。

それを的確に示すことわざは、ハンマーしか持っていなければすべてが釘のように見えるでしょう。*元は英語のことわざの「If all you have is a hammer, Everything looks like a nail.」です。

勉強したからコレを使いたい、専門だからコレでなきゃ嫌だ、と。

今の手法が必ず優れているわけではない

製造業にある(旧来型)品質管理方法であっても課題解決できるのであれば問題ないです。そこで無理に(現代型)データ分析する必要がないのではないかと思われます。

さて、その中でデータ分析の品質をどう定義するのでしょうか?

まずは、温故知新ということで、QC7つ道具新QC7つ道具を確認します。

ざっくりと内容を確認すると、QC7つ道具は数値データ、新QC7つ道具は自然言語データを取り扱います。(新QC7つ道具は数値データ処理も含まれます)

意思決定を支援するというデータ分析の要諦は変わりません。
では、各々の手法の内容を確認しましょう。
※詳しい使い方は今回の内容で触れません。悪しからず。

QC7つ道具

1・パレート図

故障原因などを多いものから表示し、対策すべき点を意思決定する。

2・特性要因図

故障原因などを複数の視点から観察し、原因を追究する。

3・グラフ(管理図)

数値の変動などを可視化する。

4・チェックシート

正常・異常を定義し、機器などに問題がないか現状把握を行う。

5・ヒストグラム

データの分布を見て、何が起こっているのか推察する。

6・散布図

2つの数値の関係性を把握する。

7・層別化

層で分けた際に、データがどのような動きをするのか確認する。

新QC7つ道具

1・親和図法

課題などをグループ化し、対策を考える。

2・連関図法

故障などに関して、複数の原因がどのように連関しているのか把握する。

3・系統図法

原因を系統だてて分解する。ロジックツリーにも使われる。

4・マトリクス図法

現状把握のために、表形式ですべての状態の検査を行う。

5・アローダイヤグラム

プロジェクトの各工程の所要時間から、総所要時間を求める。

6・PDPC法

複数の故障原因などをフロー化し、どこに課題があるのか、何に対処すべきか確認する。

7・マトリクスデータ解析(主成分分析)

複数の数値データが、どのように関連しあっているのかを確認する。
かつ、そのデータを集約すると、何を意味しているのか把握する。

QC7つ道具(旧・新)まとめ

数値データ・自然言語データを用いて、課題の現状把握をするために、数値化・整理・位置づけを行う。

ここからさらに大雑把に言うと(抽象化すると)、ある程度のパターン化を行うために、この道具を使うと理解しやすいということでしょうか。

疑問

7つ道具というからには、他に候補があり、選ばれなかったモノがあったということでしょうか・・・。何があるんだろうか。

提案

ここでデータ分析の品質を定義するための提案です。
課題の種類を系統的に網羅した図を作り、それぞれの最終ノードに対し、処理フローとチェック項目を定義すればよいのではないでしょうか。

つまり、KPIツリーのように分類して、一番孫のノードに処理フローを紐づける。

参考: https://kaizen-penguin.com/how-to-make-kpi-tree-5394/

品質は、下記2点で定義するとしましょう。
①その処理フローの選択が正しいか
②チェック項目をもれなく確認できているか

データ分析の品質管理は、その分析が問題ないか出荷前に確認することを行い、品質保証は、現在の処理フローが、理論的に正しいことを文書で証明することを行います。

品質管理は、分析部門のメンバーまたはリードするメンバー(アドバイザー)に必要になってくるでしょう。
品質保証は、チームを新設する必要があるのではないでしょうか。データ分析の納品には直接関係なく、多数のチーム・案件の知見をまとめたモノを作る必要があります。

ただ、処理フローから外れるような内容が出てくると、その分更新が必要になります。加えて、内容を網羅できると思えない&更新の工数が重いからこそ、処理フローが整備されないという背景もありそうですね。

さいごに

データ分析では品質の定義がない状態にあります。

よく話題に上がる売上貢献と品質は異なります。
企業としては、売上貢献がなければそもそも使わないという話ですが。

品質管理は売上貢献というよりも、そもそも誤った内容を提供しないというマイナスを止める効果があると考えています。
※誤った内容が先に来れば効果検証すら適当でないので、出てきたデータは意味がない・・・というのはありえそうですね。

どうすれば適切な品質管理ができるのでしょうか?今回は、対案を含めた妥当性の検証ができていません。
また考えたいと思います。

-ブログ

執筆者:


comment

メールアドレスが公開されることはありません。

関連記事

【特許実務ツール】Autodetectの紹介

データ分析(統計学、人工知能関連)業界に居る以上、知財および特許と業務は切っても切れない関係にあります。 今回は、特許実務を楽にするためのツールを作成しましたので紹介します。 技術の内容として下記を採 …

「クールジャパン」に疑問あり

クールジャパンって何? もう知っておられる方も多いと思います。 地方にある日本の「よいもの」を発掘し、日本文化としてセットで世界に売り込む。 最終目標は「日本に関心を持ち、日本のファンが増え、日本を訪 …

就職活動 自己否定に陥る考え方にならないために

「面接に落ちた」 「エントリーシートでもお祈り*1続きだ」 それも結構だと思います。 就活サイトの利用者数が多すぎて、人気企業であるとエントリー数が5000を超えていることがざらにあります。 記念出願 …

「考える」を考える

私は「もっとよく考えろ!」「考えが足りていないね」と言われることがありました。 私はよくわかりませんでした。 ただ、最近になってやっとわかってきた気がします。 「考える」は実はよく分からずに使われてい …

豆腐の角から逃げるゲーム(Escape From the Tofu’s Corner)

「( ^o^)を操作して20秒生き残るゲーム」を作っていました。 Meisyo用に作ったのですが、意外と楽しかったので上げておきます。 Escape From the Tofu’s Cor …