豆腐クマの人の日記

豆腐クマスタンプの作者です。

予想モデル完成にまた一歩進みました

もう、3月も終わりですね。テレビでは卒業に関するニュースが多いですが、そう言うのをみていると私も4月からの生活に向けて心機一転したい気分になりますね(特に何も変わらないのですが。。。)

3月も残り3日なので、今月の振り返りとともに、この4半期の簡単な振り返りもしようと思います。

まずは、いつも通り競馬予想モデル作成振り返り

今週は、予想モデル完成に向けて大きな1歩を進められました。月〜水まではずっと予想用のデータを作って(連続で70時間かかりました汗)、それから簡単な予想モデルから作って検証するということを行いました。

今までずっと持っているデータからどのような形で予想という形にしていくのかという具体的なイメージが持てていなかったのですが、今週の試行錯誤でデータからレースの結果を予想するという一連の流れを実行することができました。

基本的な流れは、それぞれの馬に対して、過去の勝率や前5レースまでのレース情報や順位、上がり3ハロンのタイムなどを入力値として、ロジスティック回帰やランダムフォレストといったアルゴリズムを使って3着以内に入る確率を計算しています。3着以内としたのは、1着を予想する場合に1着とそれ以外のデータの偏りが大きくなってしまい色々不都合があるためです。

まだ精度は改善中なのですが、検証結果の一部を紹介したいと思います。前提として、

  • 学習データ:2016年・芝・1400m~1800m・過去5レース以上出場馬
  • 検証データ:2017年・芝・1000m~2400m・過去5レース以上出場馬
  • アルゴリズム:ランダムフォレスト

となっています。

下図は、横軸が予想モデルによって算出された「3着以内に入る確率」で、縦軸が実際の「順位」となっています。傾向として、予想モデルによる確率が高いほど3着以内に入る馬が多く、低くなるほど4着以下の馬が多くなっています。つまり、例えば予想モデルによる評価が0.7以上の馬だけに絞れば、トータルで的中率を高められるということですね。

f:id:kazukichix:20210328185743p:plain


ただ、今の予想モデルだと「高く評価しているけど、4着以内の馬」と「低く評価しているけど、3着以内の馬」が多いので、改善の余地はまだまだありますね。

上の結果を縦軸をオッズに変えるとこんな風になり、いい感じに分類できているものの、やはりまだ取りこぼしが多いことがわかります。もっと改善していって赤い点と青い点を綺麗に分けられると気持ちいですね。

f:id:kazukichix:20210328191103p:plain

来週は、予想モデルの精度を上げるための施策をいくつか実施していきたいと思います。結果が見えるようになってくるとモチベーションも上がりますね。5月の納期にはなんとか間に合いそうな感じがしてきましたね。

一方で読書の進捗は

今週の読了冊数は0ですね。まあ、競馬予想モデルのための調査に時間を使っているので仕方ないですね。余裕が出てきたらまた再開しましょう。

スタンプの仕上がりは?

こちらも進んでないですね。なんとなくキャラの方向性は見えてきてはいるので、頭の中で構想をねりつつ準備を進めたいと思います。

3月の振り返りを簡単に

3月の初週の記事を見返すと、新キャラが登場していたり、データ分析のツールの使い方を学んでいたんですよね。そこから、こうして予想モデルを作るところまで来れたんだと思うと頑張ったんだなーと思えますね。この1ヶ月頑張った自分を褒めてあげたいです💮

少ない時間ながらも毎日少しづつ進めるのって大事だと言うことがわかったので、4月以降もこの調子で頑張っていきます。

1月〜3月までの振り返り

今年は自分史上で一番年初に掲げた目標に向かって進められている年になっています。去年の今頃は今年の目標とか忘れてました。それに比べて今年はいい調子ですね。明確な目標を立てたのと毎週ブログを書いていることで進められていると思っているので、これも続けたいですね。これも💮ですね。

 

来週も頑張っていきましょう!