データ分析コンペとは

データサイエンスの認知の高まりとともに、データ分析のコンペティションが多数開催されるようになってきました。最も有名なコンペティションプラットフォームであるKaggleにおけるプレイヤー数は10万人を越えており、データサイエンティストの多くが自分の腕を試すためにコンペティションに参加するようになっています。

分析コンペで勝つためのテクニック

分析コンペでは、実際のデータを相手にするため、機械学習の書籍にはあまり載っていないような手法やテクニックが数多く活用されています。これらを理解し自身で使えるようにしておくことはコンペだけでなく、実務でのモデル構築において非常に役に立ちます。また、多くの参加者がさまざまなアプローチでさまざまなデータセットの分析に取り組んでおり、その結果の良し悪しといった情報が共有されます。そのため、どのようなデータセットに対してどのようなテクニックが役立つのかの知見を得ることができるのも1つの魅力です。

本書で解説するテクニック

本書は分析コンペで勝つための参考書を目指して執筆されました。なお、分析コンペのうち、テーブルデータと呼ばれる形式のデータを扱うコンペを対象としています。

予測対象やモデルの評価指標などの問題設定が明確に与えられた中で、精度の高いモデルを作るためにはどうしたらよいか、何に気をつけたらよいか、という観点から執筆しました。また、分析コンペにおいて一般的に注意しなければならないことをできるだけ網羅するように解説すると同時に、過去の上位入賞者が用いたテクニックも多数紹介し、精度改善のヒントが得られるよう努めました。

すべての最適化問題に対して万能なアルゴリズムは存在しないように、本書で紹介するテクニックがどのコンペでも通用するわけではありません。むしろ、あるコンペで有効だったテクニックが他のコンペで有効でないことはよくあります。このような背景もあるため、精度を上げる可能性のある道具やヒントとなる可能性のある事柄を多数紹介するスタンスをとっています。

さいごに

本書では、Kaggleで用いられるテクニックや事例を多くの方に知っていただくために、現時点での最新のものを整理してまとめました。分析コンペにこれから参加してみたい方、あるいはもっと上を目指したい方にぜひ読んでいただけると幸いです。また、分析コンペのテクニックは実務にも役立つので、コンペに興味がない方もぜひご一読ください。

(⁠⁠はじめに」より抜粋)