データ分析で陥りがちな「落とし穴」とは

データサイエンスとは?

データサイエンスという言葉は、かなり広い意味で使われています。大きくは、従来の統計解析、データマイニング、機械学習といった領域を含んでおり、またその人の関心や出身分野によって重点の置き方は異なるでしょう。

データサイエンスの領域

データサイエンスの中には「統計学」とその応用である「統計解析」⁠ナレッジディスカバリー(またはデータマイニング⁠⁠機械学習」といった分野が含まれます図1⁠。これらの共通点は、データから何らかの価値を引き出すことを目的としていること、またそれに加えて「統計モデル」を基礎としていることです。統計モデルとは現実のデータ(実測値)そのものではなく、データに対してなんらかの数学的原理を仮定し、抽象化して写し取ったものです。

図1 データサイエンスの領域
図1 データサイエンスの領域

データサイエンスの限界

データマイニングからビッグデータ、機械学習、ディープラーニグへといった一連の「ブーム」は、現象を説明するメカニズムを、機械が自動的に描き出してくれるかのような誤解も生み出しています。しかし機械が自動的に出力できるのは、相関関係に関する知識、または相関関係に基づく予測です。それは因果関係を記述する一般的な法則ではありません。

たとえば仮に「青い車の事故が多い」という「法則」が見つかったとしても、青い色が事故の原因であるとは言えません。たまたま不具合のあった車種で青い色が多かったのかもしれません。簡単な問題であれば、相関と因果の違いは常識で判断できます。しかし知見のない分野になると、表面的な相関関係を本質だと誤解しがちになります。まして機械は、それらを区別するための知識を持ちません。データから帰納的な推論を行うだけでは真実には迫れないということを、データ分析に携わる人は肝に銘じておく必要があります。

ビジネス活用における留意点

驚きのある結果が得られない

「人が気づかないような驚きのある結果」「人知を超えた性能」を期待される方はたくさんいます。そういう方たちに分析結果を伝えると、⁠現場感覚と同じだ」と言われたりします。このように言われることは非常に多く、BIツールなどを用いた可視化でも機械学習を用いた分析でも起こり得ます。この原因としては、人が与えた教師ラベルを用いていることや、人の意志が強く反映された偏ったデータを使っていることが挙げられます。

無視できないコミュニケーションコスト

分析のテクニカルな難しさと同じくらい悩まされるのがコミュニケーションコストです。コミュニケーションコストとは、関係者間で事前知識などに差があり、会話をするのにかかる時間的コストのことです。事前知識で差が出やすいのは分析対象とする業務・商品、データそのもの、分析手法に関する知識です。

ランニングコストの考慮が必要

期待する精度の機械学習モデルが無事作成でき、モデルを実際のビジネスに投入する際にはランニングコストも考慮する必要があります。

アカデミックな教科書や理論書の多くは、分析のために採取されたデータを扱う前提で書かれています。一方、ビジネスの場面で遭遇するのは、業務を遂行する中で「たまった」データを使いたいという要望です。実務における分析では、統計の理論や実行の方法だけでなく、雑多なデータ項目の中で何を使ってよいのか、何を入れてはいけないのか、そのまま入れてもよいのか、いけないとしたらどうすべきか、といったことを判断できる知識が必要です。