ビッグデータを超える『データ分析の力 因果関係に迫る思考法』

経済,数理,IT

 ビッグデータが流行りである。世間では、データさえあれば何でもできる、というような風潮がある。しかし、本書『データ分析の力 因果関係に迫る思考法』は、違うと言う。データの扱い、分析、解釈においては、人間の判断が重要な役割を担う。特に、ある広告を打ったことで売上は上がったのか、ある政策を行ったことが意味のある成果を生んだのか、いった因果関係を見極めるためには、データ量がいくら増えても根本的な解決にはならない。そのためには、職人的なセンスと思考方法が必要になってくる、と言う。

因果関係をえぐり出す「自然実験」

 大量のデータがあれば、相関関係を見出すのはたやすい。そこに統計的に有意な差がある、などと言われると、それこそデータという有無を言わせないエビデンスのある主張のように見えてくる。日ごろ、新聞やテレビで良く目にするとおりだ。
 しかし、「相関関係は因果関係ならず」である。他の要因が影響しただけかも知れないし、因果関係があるにしても逆向きの関係であるかも知れない。だから、データ分析の世界では、因果関係を知ろうとする場合、ランダムにグループ分けした対象同士を比較する「ランダム化比較試験」を行うことが基本とされている。そうすれば、着目した要因以外にどのような要因が働いていても、それらはランダム性によって相殺されるわけである。
 しかし、実世界ではそのような実験のできないことも多い。費用や労力の問題はもとより、試験自体に倫理的な問題がある場合も考えられる。それでも、それを補う方法がある。それこそが、データの扱い、分析、解釈において人間の判断が重要な役割を果たす場面であり、本書の中核だ。例えば、要素が不連続にジャンプしている境界線がある場合に使える「RDデザイン」、階段状の変化から因果関係を読み取ろうとする「集積分析」など。ランダム化比較試験に比べれば精度や適用範囲は劣るけれども、いわば自然の実験を企てて因果関係をえぐり出す。実際にも、「自然実験」と呼ばれているそうだ。

お粗末なデータ分析を見破る

 本書は新書本であって、計量経済学のほんの入り口の説明をしているだけである。だから実務家としてデータ分析を行うのであれば、ずっと先に進まなければならない。しかし、本書は、説明が丁寧でポイント突いていることもあって、世間で行われているデータ分析あるいはデータに基づく主張を批判的に見るのには、ひとまず十分な視点を提供してくれる。実際、某治療薬についての「飲んだ、治った、効いた」的な報道などは論外としても、データに基づいてはいながら、本書程度の知識で見破れるひどいものが多いのだ。
 ある学者先生は、消費税が上がると消費支出の伸び率が下がる、というグラフを示して消費税引上げ反対を唱えている。しかし、それだけなら、まさに「相関関係は因果関係ならず」である。ITバブル崩壊、リーマンショック、先進国で見られる「伸び率」の自然減速など、他の要因はいくらでも考えられるのだから。自然実験で補うことはできるかも知れないが、相当にハードルが高い。例えば、時系列データ分析の一つである「パネル・データ分析」を行うには、日本の中に消費税引上げ(の影響)を免れたグループがあって、それを比較グループとして分析できる、という特異な状況が必要だから、これはとても使えない。果たして、補助線が引かれただけの相関グラフの裏側に、何か精緻な分析があるのかどうか……。


データ分析の力 因果関係に迫る思考法
伊藤 公一朗 著
光文社(光文社新書)

書評

Posted by admin