『どれくらいのデータ母数があれば信頼できるのか?』田中洋平
今日は質問があったので、データの母数について少し話を。
空いた時間に、TARGETで検証する人も多いでしょうから
参考にしてもらえればと思います。
よくある質問が、
「どれくらいの母数があれば、そのデータは信用できるのか?」
というもの。
結論を言うと、これくらいという正確な答えは無さそうです。
例えば、東京競馬場の10000レース分のデータを検証して、
3番人気の馬の回収率が110%だったとしましょう。
例えばですよ。
10000レース分のデータ母数だから、これは今後も再現するに違いない!
「やったぜ!来年は東京競馬場3番人気で億万長者だ!」
とはなりませんよね。
データ母数がたくさんあっても、根拠がないのでダメ!!!
逆に、根拠があっても母数が少ないケースもダメです。
例えば、ディープ産駒が芝レースで大活躍なのはご存知ですよね。
2015年もG1を4勝してますし、相変わらず好調です。
ではディープ産駒の芝のG1レースの成績を、
競馬場別に見てみましょう。
東京競馬場は直線が長いですから、素晴らしい成績ですね。
阪神は直線の長い外回りならいい感じです。
でも、これはちょっと母数が少なすぎますね。
そもそもディープ産駒の競馬場別成績を、
G1レースだけのデータで調べる必要はないですからね。
未勝利や500万を含めたデータで調べた方が母数が多いですし、
上級条件で調べたいなら、G2やG3を含めて調べれば良いでしょう。
やっぱり1つのデータ母数が100を切ると、
1頭マグレで走っただけで、回収率も大きく変わってきますからね。
細かく分け過ぎないのもポイントだと思います。
つまり、根拠があってデータ母数もそこそこある!
これが正解だと私は思います。
優先順位は
「1に根拠、2にデータ母数」
これです。
正しい方法で競馬研究しましょう。
投稿者プロフィール
-
田中洋平(日刊スポーツ公認のコンピ指数研究家)
かつてはダイニングバーの経営者だったが、現在は競馬研究ひと筋。「競馬最強の法則」の馬券ブラックジャーナルコーナーにおいて、2009年に逃げ穴馬馬券術を紹介。2010年には同誌にて「コンピアナライズを追え」で巻頭でデビューを果たし、2012年にKKベストセラーズより「新コンピアナライズ・ゾーンレベル」を出版。現在は日刊スポーツ公認のコンピ指数研究家として日刊公式ウェブサイト「極ウマ・プレミアム」にてコラム、テクニカル6を連載中。また重賞特集号として日刊スポーツが発行しているタブロイド紙のコンピ予想も担当している。
最新の投稿
- 馬券力アップ2024年4月15日『万馬券の使者!原祐介騎手が社台グループの馬に乗れば!』田中洋平
- 馬券力アップ2024年4月9日『女性ナンバーワン!永島まなみ騎手が激走する3つの条件!』田中洋平
- 馬券力アップ2024年3月27日『メイショウタバルで重賞初制覇の石橋守調教師にフォーカス!』田中洋平
- 馬券力アップ2024年3月18日『圧勝のテーオーロイヤルは天皇賞・春を勝てるか?』田中洋平