ゼロから始めるデータ分析~第1章~
先日は競馬データを取得しましたね。次はこれをどのように分析していくかということを考えていきましょう。
データ分析をするときには統計に特化したRを使ったり、pythonを使ったりするのですが、まずはどんなデータになっているのか可視化してみます。エクセルでグラフを使うのもいいのですが、それじゃああまりカッコよくないので今回は下記リンクで紹介されていたTableauというツールを使ってみたいと思います!
ビッグデータ可視化ツール9選を一挙紹介 | Hadoop Times
Tableauとは言わずと知れたBIツールです。
分析結果をクラウドに上げてスマホやタブレットでも見ることが出来るので便利ですね。無料で使えるTableauは分析結果をデータと共に公開しなければなりませんので、注意が必要ですが、今回はもともとが公開されているデータなので、問題なしということで分析をしていきましょう。
まずはプロの作品を見てみましょう。Tableau Publicではいろんな人がデータを視覚化したものをアップしていて勉強になりますよ。長いですが↓な感じです。
さて、私が作成したグラフはこんな感じです(埋め込みでうまく表示できなかったためリンクにしました)。
3着までに入っている馬の脚質と体重の相関を見てみました。追込型の馬ほど軽い馬が、逃げ切り型の馬ほど思い馬が勝っている傾向にあるみたいです。今後、いろんな予想をしていく上で、いろんなパラメータの組み合わせを見ていこうと思います。今回はもう一つ試してみたいことがあります。「TensorFlowを使って回帰分析をする」ということです。TensorFlow?(テンソルフローと読みます)、回帰分析?まず、TensorFlowとはGoogleが作っているオープンソースで、テンソル計算ができるライブラリです。これを使って何が出来るかというと、最近流行りの機械学習ができます。そして、回帰分析とは端的に言うと予測することです。回帰分析は機械学習が得意な分野の一つです。
今回はlabheaさんも使っていたcolaboratoryで実験してみたいと思います。
今回参考にしたチュートリアルはコチラ↓
ここで実験しています…が、今週で最後まで到達できなさそうなので来週完成させたいと思います。順次更新していく予定です。
アニメーション企画の方も進んでいますよー
競馬予測の方は中途半端なところで終わってしまい申し訳ないですが、並行して豆腐くまのアニメーション制作も進んでいるのでご勘弁下さい。問題はストーリーをどんな風にするかということなんですが、下手をすると終わりが見えなくなってしまうので適度な長さに収められたらと思います。
さらに、今回は音や音楽も自作で付けようと思っているので自分の限界に挑戦することになると思います。GWでどこまでできるかが勝負ですね。
あと、最近スタンプを使っていて「こんなスタンプがあれば…!」と思うことが多々あるので、スタンプ第3弾も合わせて考えていこうと思います。
それでは、また来週~
追記
機械学習をするときには、もう少しデータを整形しないといけなさそうです。馬や騎手の名前など文字になっている部分を数値に変換したりしないと次のステップに行けないみたいですね。