世論調査も政府統計もビッグ・データも信用できない!?『ダークデータ』

数理

 統計処理や計量経済のようなデータ分析を扱った本は数多あるが、ありそうでなかったのが本書『ダークデータ』のような、処理や分析の対象となるデータそのものを扱った本だ。ダークデータとは、正しい判断を下すのに必要だが欠けている情報やデータである。真実を客観的に照らし出すはずのデータの多くが実は歪んでいるというのだから、事は深刻だ。

どこにでもあるダークデータ

 本書は、欠けていることが分かっているデータ、欠けていることがわかっていないデータ、など15に及ぶダークデータのタイプを手掛かりに、ダークデータが生じる原因、その帰結、事例をこれでもか、これでもかと書き連ねる。データ収集から分析・評価に至るデータ分析の一連のプロセスの中で、最も安定していると思われた土台の部分が音を立てて崩れていくようだ。ビッグ・データをAIに食わせれば何でも出てくる、などといった単純思考は吹っ飛んでしまう。
 例えば、図らずも多くの人の関心事となった薬の治験。「飲んだ、治った、効いた」の「3た論法」ではまったくだめで、ランダム化二重盲検でなければならないとか、サンプル数とか、サンプルの代表性とかは、メディアでも報じられた。けれども、治験に参加しながら完走しなかった患者の存在など、まったく問題にされることはなかった。しかし、効かなかったがゆえにドロップ・アウトする患者が多いとすれば、完走した患者のデータは歪んでいることになる。

ダーク・データは野放し?

 一部の専門家を除けば、「相関関係は因果関係にあらず」といった聞き飽きた問題ですら、多くのデータ分析では十分に意識されていないだろう。メディア報道などでは、そもそもどちらの話をしているのかが読み取れることすら稀である。ましてや、ダークデータの存在によるデータの歪みなど、ほとんど考慮に入っていないのではないか。世論調査で、調査したメディアの傾向と調査結果の傾向が不思議なほどに相関するのはなぜなのか。
 メディアどころか、分析対象の専門家ではあるがデータ分析の専門家でない人(つまりほとんどの「専門家」)が行うデータ分析で、ダーク・データの存在など果たして考慮に入っているのか。公の機関が公表している基本統計データなども、実はダーク・データの影響を受けているシロモノなのだろう。企業が収集しているデータは、確実にダーク・データの影響を受けているはずだが、それをどうしているのだろうか。

ダーク・データへの対処法

 幸いなことに、ダーク・データへの対処の方法はあるのだという。ただ、本書で「UDD」と整理されている、そもそも計測されていないデータが原因でダークデータ化したもの(例えば、隠しておきたい事実を聞き取り調査するような場合)は、収集されたデータでは情報が足りていないのだから、原理的に補正は困難である。足りていないところは一般的な経験則やドメイン知識として外から補充してやるしかないのだが、それらは仮説でしかない。そして、それがデータ分析で知りたかったことと近ければ近いほど、トートロジーの危険が増す。
 実際、対処法の中には怪しいものもあるようだ。例えば、「ものを盗んだことがあるか」を調査する場合、当然「ノー」の方向に結果が歪むおそれがある。そこで、個人ごとの回答が誰にも分からないようにするため、「コイントスをして表が出たら正直に回答し、裏が出たら常にイエスと答えるように」と指示する。これで真実のイエス/ノーの割合は計算できるというのだが、それは皆が指示に従った場合の話。「イエス」と答えれば真実「イエス」の可能性があり、「ノー」と答えればその可能性が消えることに気づいた人は、指示を無視して「ノー」と答えるかも知れない。


ダークデータ 隠れたデータこそが最強の武器になる
デイヴィッド・J・ハンド 著
黒輪 篤嗣 訳
河出書房新社

書評

Posted by admin