『どれくらいのデータ母数があれば信頼できるのか?』田中洋平

 

今日は質問があったので、データの母数について少し話を。

 

空いた時間に、TARGETで検証する人も多いでしょうから

参考にしてもらえればと思います。

 

よくある質問が、

「どれくらいの母数があれば、そのデータは信用できるのか?」

というもの。

 

結論を言うと、これくらいという正確な答えは無さそうです。

 

例えば、東京競馬場の10000レース分のデータを検証して、

3番人気の馬の回収率が110%だったとしましょう。

 

例えばですよ。

 

10000レース分のデータ母数だから、これは今後も再現するに違いない!

 

「やったぜ!来年は東京競馬場3番人気で億万長者だ!」

 

とはなりませんよね。

 

データ母数がたくさんあっても、根拠がないのでダメ!!!

 

逆に、根拠があっても母数が少ないケースもダメです。

 

例えば、ディープ産駒が芝レースで大活躍なのはご存知ですよね。

 

2015年もG1を4勝してますし、相変わらず好調です。

 

ではディープ産駒の芝のG1レースの成績を、

 

競馬場別に見てみましょう。

 

mel1
東京競馬場は直線が長いですから、素晴らしい成績ですね。

 

阪神は直線の長い外回りならいい感じです。

 

でも、これはちょっと母数が少なすぎますね。

 

そもそもディープ産駒の競馬場別成績を、

G1レースだけのデータで調べる必要はないですからね。

 

未勝利や500万を含めたデータで調べた方が母数が多いですし、

上級条件で調べたいなら、G2やG3を含めて調べれば良いでしょう。

 

やっぱり1つのデータ母数が100を切ると、

1頭マグレで走っただけで、回収率も大きく変わってきますからね。

 

細かく分け過ぎないのもポイントだと思います。

 

つまり、根拠があってデータ母数もそこそこある!

 

これが正解だと私は思います。

 

優先順位は

「1に根拠、2にデータ母数」

これです。

 

正しい方法で競馬研究しましょう。

投稿者プロフィール

田中洋平
田中洋平
田中洋平(日刊スポーツ公認のコンピ指数研究家)
かつてはダイニングバーの経営者だったが、現在は競馬研究ひと筋。「競馬最強の法則」の馬券ブラックジャーナルコーナーにおいて、2009年に逃げ穴馬馬券術を紹介。2010年には同誌にて「コンピアナライズを追え」で巻頭でデビューを果たし、2012年にKKベストセラーズより「新コンピアナライズ・ゾーンレベル」を出版。現在は日刊スポーツ公認のコンピ指数研究家として日刊公式ウェブサイト「極ウマ・プレミアム」にてコラム、テクニカル6を連載中。また重賞特集号として日刊スポーツが発行しているタブロイド紙のコンピ予想も担当している。