統計学って難しい?
統計学は、集めたデータの中の規則性や不規則性を見つけ出すための方法です。パソコンの高機能化に伴い大量のデータを処理できるようになったことで今までは難しかった分析も簡単にできるようになり、統計学の重要性はますます高まっています。書店に行くとたくさんの書籍が並んでいますが、内容を見て「難しい!」と感じてなかなか手を出せない方も多いのではないでしょうか。
難しいと感じる理由の一つとして、分析している内容がよくわからない数値だったり、馴染みのない例であることが挙げられるのではないでしょうか。そこでここでは、テレビなどでよく目にする、多くの方にとって馴染み深いプロ野球のデータを使って、「相関分析」という分析手法を解説してみます。分析には特別なソフトは使わず、多くの方が普段利用している表計算ソフトExcelを利用します。
野球で学ぶ「相関分析」
相関分析は、2つのデータの関係性を「相関係数」という数値で表現する手法です。ここでは、前年度と次年度の成績の相関を分析することで、たとえば「ホームランが今年多かった選手は来年も多いと言えるのか」などを知ることができます。これを「年度間相関」と言います。
年度間相関を計算するためには、図1のように前年度と次年度の成績が同じ行に並んでいるデータを用意します。たとえばデータの先頭である2行目はT-岡田選手の2013年と2014年の成績が、次の行は同じくT-岡田選手の2014年と2015年の成績が並んでいる、という具合です。図1では一部ですが、実際は下にデータが続いています。
図1 年度間相関計算用に加工したデータ
※2013~2015年のプロ野球で、年間100打席以上の記録がある打者が対象
それでは実際に計算してみましょう。図1ではホームラン以外の成績も並んでいますが、まずはホームランの年度間相関からです。ExcelではCORREL関数という相関係数を求める関数が用意されています。ホームランはG列とN列にありますので、次のようにして算出できます。
せっかくなので、残りの打率と三振の相関係数も計算しましょう。打率は「=CORREL(E:E,L:L)」、三振は「=CORREL(F:F,M:M)」としてください。それぞれの結果を計算したものが表1です。
表1 相関係数の計算結果
成績 | 相関係数 |
打率 | 0.38 |
三振 | 0.73 |
ホームラン | 0.74 |
それでは計算した相関係数からどのようなことがわかるのかを見ていきましょう。一般に相関係数の大きさにより表2のように評価されます。
表2 相関係数の大きさとその評価
相関係数 | 評価 |
0.00~0.20 | ほとんど相関がない |
0.20~0.40 | 弱い相関関係がある |
0.40~0.70 | 中程度の相関関係がある |
0.70~1.00 | 強い相関関係がある |
打率の相関係数は0.38なので、「弱い相関関係がある」という結果です。つまり、「今年の打率が良かった選手は来年の打率も良い可能性が多少ある」と言ったところでしょうか。一方三振とホームランは「強い相関関係がある」なので、「今年三振が多かった選手は来年も三振が多い可能性が高い」「今年ホームランが多かった選手は来年もホームランをたくさん打つ可能性が高い」と言えるのです。
本書の特徴
『[プロ野球でわかる!]はじめての統計学』では、上記のようにプロ野球のデータを用いて、統計学の基本を丁寧に解説しています。分析にはExcelを使い、分析に利用しているデータはサンプルデータとして公開していますので、本書を読みながら実際に分析を試し、学習していくことができます。本書で基本的な知識を身に付ければ、さらに野球を深く分析することも、別分野の分析に役立てることもできるはずです。
これまで馴染みがなく統計学を学ぶのを敬遠していた方も、ぜひ本書を手にとってみてください。