Rの考え方

Rの個人研究・考察を行うブログ。最近は因果推論とアナリティクス(機械学習、統計はお休み中)、認知論にお熱。

ブログ

データ分析の品質をどう定義するか

投稿日:2022年2月20日 更新日:

はじめに

「データ分析って、それ自体にばらつきがあるよね。」という言葉

その通りです。
データ分析は個人の意図が入り込みやすく、担当者によって思考法や手法に再現性が取れないことがままあります。

それを的確に示すことわざは、ハンマーしか持っていなければすべてが釘のように見えるでしょう。*元は英語のことわざの「If all you have is a hammer, Everything looks like a nail.」です。

勉強したからコレを使いたい、専門だからコレでなきゃ嫌だ、と。

今の手法が必ず優れているわけではない

製造業にある(旧来型)品質管理方法であっても課題解決できるのであれば問題ないです。そこで無理に(現代型)データ分析する必要がないのではないかと思われます。

さて、その中でデータ分析の品質をどう定義するのでしょうか?

まずは、温故知新ということで、QC7つ道具新QC7つ道具を確認します。

ざっくりと内容を確認すると、QC7つ道具は数値データ、新QC7つ道具は自然言語データを取り扱います。(新QC7つ道具は数値データ処理も含まれます)

意思決定を支援するというデータ分析の要諦は変わりません。
では、各々の手法の内容を確認しましょう。
※詳しい使い方は今回の内容で触れません。悪しからず。

QC7つ道具

1・パレート図

故障原因などを多いものから表示し、対策すべき点を意思決定する。

2・特性要因図

故障原因などを複数の視点から観察し、原因を追究する。

3・グラフ(管理図)

数値の変動などを可視化する。

4・チェックシート

正常・異常を定義し、機器などに問題がないか現状把握を行う。

5・ヒストグラム

データの分布を見て、何が起こっているのか推察する。

6・散布図

2つの数値の関係性を把握する。

7・層別化

層で分けた際に、データがどのような動きをするのか確認する。

新QC7つ道具

1・親和図法

課題などをグループ化し、対策を考える。

2・連関図法

故障などに関して、複数の原因がどのように連関しているのか把握する。

3・系統図法

原因を系統だてて分解する。ロジックツリーにも使われる。

4・マトリクス図法

現状把握のために、表形式ですべての状態の検査を行う。

5・アローダイヤグラム

プロジェクトの各工程の所要時間から、総所要時間を求める。

6・PDPC法

複数の故障原因などをフロー化し、どこに課題があるのか、何に対処すべきか確認する。

7・マトリクスデータ解析(主成分分析)

複数の数値データが、どのように関連しあっているのかを確認する。
かつ、そのデータを集約すると、何を意味しているのか把握する。

QC7つ道具(旧・新)まとめ

数値データ・自然言語データを用いて、課題の現状把握をするために、数値化・整理・位置づけを行う。

ここからさらに大雑把に言うと(抽象化すると)、ある程度のパターン化を行うために、この道具を使うと理解しやすいということでしょうか。

疑問

7つ道具というからには、他に候補があり、選ばれなかったモノがあったということでしょうか・・・。何があるんだろうか。

提案

ここでデータ分析の品質を定義するための提案です。
課題の種類を系統的に網羅した図を作り、それぞれの最終ノードに対し、処理フローとチェック項目を定義すればよいのではないでしょうか。

つまり、KPIツリーのように分類して、一番孫のノードに処理フローを紐づける。

参考: https://kaizen-penguin.com/how-to-make-kpi-tree-5394/

品質は、下記2点で定義するとしましょう。
①その処理フローの選択が正しいか
②チェック項目をもれなく確認できているか

データ分析の品質管理は、その分析が問題ないか出荷前に確認することを行い、品質保証は、現在の処理フローが、理論的に正しいことを文書で証明することを行います。

品質管理は、分析部門のメンバーまたはリードするメンバー(アドバイザー)に必要になってくるでしょう。
品質保証は、チームを新設する必要があるのではないでしょうか。データ分析の納品には直接関係なく、多数のチーム・案件の知見をまとめたモノを作る必要があります。

ただ、処理フローから外れるような内容が出てくると、その分更新が必要になります。加えて、内容を網羅できると思えない&更新の工数が重いからこそ、処理フローが整備されないという背景もありそうですね。

さいごに

データ分析では品質の定義がない状態にあります。

よく話題に上がる売上貢献と品質は異なります。
企業としては、売上貢献がなければそもそも使わないという話ですが。

品質管理は売上貢献というよりも、そもそも誤った内容を提供しないというマイナスを止める効果があると考えています。
※誤った内容が先に来れば効果検証すら適当でないので、出てきたデータは意味がない・・・というのはありえそうですね。

どうすれば適切な品質管理ができるのでしょうか?今回は、対案を含めた妥当性の検証ができていません。
また考えたいと思います。

-ブログ

執筆者:


comment

メールアドレスが公開されることはありません。

関連記事

「考える」を考える

私は「もっとよく考えろ!」「考えが足りていないね」と言われることがありました。 私はよくわかりませんでした。 ただ、最近になってやっとわかってきた気がします。 「考える」は実はよく分からずに使われてい …

新職場で1ヶ月目な件について

れいです。 外資系製薬企業から分析コンサルティング会社に移って1ヶ月が経ちました。 社内で開発も行っているし、AIベンチャーとも言う・・・のか? Deep Learningとか当たり前に使われてるし、 …

新卒1社目(外資系製薬企業)を退職しました

唐突ですが、転職します。 理由は、「データ分析で企業を強くする業務をメインにしたいから」です。 元々それが希望ではあったのですが、下記3つの理由から転職することにしました。 1・現状できそうもない(設 …

[音楽] TalesWeaver: Second Run, Reminiscence

過去に投稿した耳コピ動画。 今聞いてみましたが、ある程度間違っています。 その点ご了承ください。 動画 TalesWeaver SecondRun 楽譜 TalesWeaver Reminiscenc …

バイオ系地方国立大院卒のその後6年の軌跡と考察

バイオ系院卒の辛い就活の後、なぜ辛かったのか、何をすれば楽だったのか、その後をよく考えてみた。 三行まとめ ・振り返りをしよう ・使えるカードで戦うしかない ・周りを見てみると当たり前に見えることこそ …