Rの考え方

Rの個人研究・考察を行うブログ。最近は因果推論とアナリティクス(機械学習、統計はお休み中)、認知論にお熱。

ブログ

データ分析の品質をどう定義するか

投稿日:2022年2月20日 更新日:

はじめに

「データ分析って、それ自体にばらつきがあるよね。」という言葉

その通りです。
データ分析は個人の意図が入り込みやすく、担当者によって思考法や手法に再現性が取れないことがままあります。

それを的確に示すことわざは、ハンマーしか持っていなければすべてが釘のように見えるでしょう。*元は英語のことわざの「If all you have is a hammer, Everything looks like a nail.」です。

勉強したからコレを使いたい、専門だからコレでなきゃ嫌だ、と。

今の手法が必ず優れているわけではない

製造業にある(旧来型)品質管理方法であっても課題解決できるのであれば問題ないです。そこで無理に(現代型)データ分析する必要がないのではないかと思われます。

さて、その中でデータ分析の品質をどう定義するのでしょうか?

まずは、温故知新ということで、QC7つ道具新QC7つ道具を確認します。

ざっくりと内容を確認すると、QC7つ道具は数値データ、新QC7つ道具は自然言語データを取り扱います。(新QC7つ道具は数値データ処理も含まれます)

意思決定を支援するというデータ分析の要諦は変わりません。
では、各々の手法の内容を確認しましょう。
※詳しい使い方は今回の内容で触れません。悪しからず。

QC7つ道具

1・パレート図

故障原因などを多いものから表示し、対策すべき点を意思決定する。

2・特性要因図

故障原因などを複数の視点から観察し、原因を追究する。

3・グラフ(管理図)

数値の変動などを可視化する。

4・チェックシート

正常・異常を定義し、機器などに問題がないか現状把握を行う。

5・ヒストグラム

データの分布を見て、何が起こっているのか推察する。

6・散布図

2つの数値の関係性を把握する。

7・層別化

層で分けた際に、データがどのような動きをするのか確認する。

新QC7つ道具

1・親和図法

課題などをグループ化し、対策を考える。

2・連関図法

故障などに関して、複数の原因がどのように連関しているのか把握する。

3・系統図法

原因を系統だてて分解する。ロジックツリーにも使われる。

4・マトリクス図法

現状把握のために、表形式ですべての状態の検査を行う。

5・アローダイヤグラム

プロジェクトの各工程の所要時間から、総所要時間を求める。

6・PDPC法

複数の故障原因などをフロー化し、どこに課題があるのか、何に対処すべきか確認する。

7・マトリクスデータ解析(主成分分析)

複数の数値データが、どのように関連しあっているのかを確認する。
かつ、そのデータを集約すると、何を意味しているのか把握する。

QC7つ道具(旧・新)まとめ

数値データ・自然言語データを用いて、課題の現状把握をするために、数値化・整理・位置づけを行う。

ここからさらに大雑把に言うと(抽象化すると)、ある程度のパターン化を行うために、この道具を使うと理解しやすいということでしょうか。

疑問

7つ道具というからには、他に候補があり、選ばれなかったモノがあったということでしょうか・・・。何があるんだろうか。

提案

ここでデータ分析の品質を定義するための提案です。
課題の種類を系統的に網羅した図を作り、それぞれの最終ノードに対し、処理フローとチェック項目を定義すればよいのではないでしょうか。

つまり、KPIツリーのように分類して、一番孫のノードに処理フローを紐づける。

参考: https://kaizen-penguin.com/how-to-make-kpi-tree-5394/

品質は、下記2点で定義するとしましょう。
①その処理フローの選択が正しいか
②チェック項目をもれなく確認できているか

データ分析の品質管理は、その分析が問題ないか出荷前に確認することを行い、品質保証は、現在の処理フローが、理論的に正しいことを文書で証明することを行います。

品質管理は、分析部門のメンバーまたはリードするメンバー(アドバイザー)に必要になってくるでしょう。
品質保証は、チームを新設する必要があるのではないでしょうか。データ分析の納品には直接関係なく、多数のチーム・案件の知見をまとめたモノを作る必要があります。

ただ、処理フローから外れるような内容が出てくると、その分更新が必要になります。加えて、内容を網羅できると思えない&更新の工数が重いからこそ、処理フローが整備されないという背景もありそうですね。

さいごに

データ分析では品質の定義がない状態にあります。

よく話題に上がる売上貢献と品質は異なります。
企業としては、売上貢献がなければそもそも使わないという話ですが。

品質管理は売上貢献というよりも、そもそも誤った内容を提供しないというマイナスを止める効果があると考えています。
※誤った内容が先に来れば効果検証すら適当でないので、出てきたデータは意味がない・・・というのはありえそうですね。

どうすれば適切な品質管理ができるのでしょうか?今回は、対案を含めた妥当性の検証ができていません。
また考えたいと思います。

-ブログ

執筆者:


comment

メールアドレスが公開されることはありません。

関連記事

今後の開発方針について

CoVision:動物見守りアプリをアップデートしました。 個体認識機能がついて、行動ログを確認できるようになりました。 ここから、広告を出しつつ、ユーザーテストを繰り返していく予定です。 やりたいこ …

褒める方法(心理学者と経営者の比較)

心理学者の場合 若手社員を「褒めて育てる」のが逆効果になる3パターン Aさん「いつまで経っても従業員、特に若手たちのたくましさが感じられないんです。褒められると本当に自信になるんですか?」 回答: 褒 …

no image

就職活動 選考通過率まとめ

とりあえずこれくらいでしたというののまとめでございます。 ES・書類通過率 20/30 = 66% 筆記試験通過率 8/8 = 100% 適性検査通過率 1/5 = 20% 一次面接通過率 5/18 …

バイオ系地方国立大院卒のその後6年の軌跡と考察

バイオ系院卒の辛い就活の後、なぜ辛かったのか、何をすれば楽だったのか、その後をよく考えてみた。 三行まとめ ・振り返りをしよう ・使えるカードで戦うしかない ・周りを見てみると当たり前に見えることこそ …

チーズはどこへ消えた?飽きは最大の武器だよ。

飽き性で困ったな・・・というあなた。 想像してみてください。 誰もがずっと同じレストランの料理で満足している世界を! 飽きもせず、毎日毎日同じ場所に行ってご飯を食べます。 違和感を感じませんか? つま …