主成分分析と因子分析 による競馬の勝因の研究 大阪工業大学 情報科学部 情報科学科 真貝研究室 学生番号 A04-133 辺見 広大
研究の目的 研究の方法 主成分分析と因子分析による競馬の勝因を分析 新聞に載っているデータで予想可能か調べる 2つの分析を行なうため、C言語による3要素を読み込み計算するプログラムを作成 主成分得点、因子得点の散布図を作成し、1,2,3着の相関を調べる
研究の内容 毎年12月に中山競馬場の距離2500mで行なわれる有馬記念のレースを予想 要素は 中山競馬場の距離2500mで勝利した42頭 過去4年分の有馬記念の出走馬61頭 右回り 左回り 中山競馬場 重賞 GⅠ の成績の1,2,3着と着外のデータの標準化された組み合わせ 最終目標は、実際のレースに当てはめ、研究の勝ち馬を出し、レースで勝つか調べる
主成分分析計算方法1 3成分からから2つの成分を取り出す分析 1成分Zを3要素yで表し主成分得点Zを求める 相関行列をVとすると、aはVの固有ベクトルである rは共分散を指す このままでは3個の固有値と3通りの固有ベクトルが計算される
主成分分析計算方法2 固有値λの割合で、主成分得点Zのyの束ね具合を決める、割合をμとすると、 で求まる で求まる これを寄与率と呼び、2つのλで約80%以上なら十分だと考える
因子分析計算方法1 要素yが因子得点fで構成されていると仮定 因子負荷量bは相関行列で 残余Dを最小にしbを求める 残余Dを最小にしbを求める 10~15回の繰り返しでDの全成分の変化が 1/10000程度に収束する
因子分析計算方法2 因子得点の係数をcとした時、 ここに出るcの計算方法は、 因子負荷量×相関行列の逆行列で求まる
使用する要素 下記の4要素から3要素を決めて分析 3着以内率 距離の1着に10、2着に5、3着に2.5を掛け、着外を足したもの 右回りの成績の1着に5、2着に2.5 、3着に1を掛け、その中の中山の成績を2倍にしたもの 重賞の成績の1着に5、2着に2.5 、3着に1を掛け、GⅠの成績を2倍したもの 中山競馬場の勝ち馬からの分析は①,②,③を使用 過去の有馬記念からの分析は②,③ ,④を使用
中山競馬場の勝ち馬からの分析方法 過去の有馬記念からの分析方法 主成分分析、因子分析を行なう 3要素の割合が勝因だと仮定 計算された結果を過去の有馬記念の出走馬と2008年有馬記念の出走馬に適用する 過去の有馬記念からの分析方法 主成分分析、因子分析を行なう 1,2,3着の相関が見られたなら、3要素の割合が勝因だと仮定 計算された結果を2008年有馬記念の出走馬に適用する
中山競馬場の勝ち馬からの 主成分分析の結果 図1より、右側に相関が見える 固有ベクトルより 3着に来る確率が高く右回りの中山競馬場が得意な馬 距離が得意な馬 図1.主成分得点の散布図
中山競馬場の勝ち馬からの 因子分析の結果 図2より、右下に相関が見える 因子負荷量より 右回りの中山競馬場が得意な馬 距離が得意な馬 図2.因子得点の散布図
過去の有馬記念からの 主成分分析の結果 図3より、右上に相関が見える 固有ベクトルより 総合的に強い馬 距離と重賞の成績が良い馬 図3.主成分得点の散布図
過去の有馬記念からの 因子分析の結果 図4より、右上に相関が見える 因子負荷量より 重賞の成績が良く、右回りの中山競馬場が良い馬 重賞の成績が良い馬 図4.因子得点の散布図
分析の結果と実際の結果 中山競馬場の2500mの結果より 主成分分析 6,9,10,13,14番 因子分析 6,9,13番 主成分分析 6,9,10,13,14番 因子分析 6,9,13番 過去の有馬記念からの結果より 主成分分析 9,13番 因子分析 6,9,11,13番 以上の結果から6,9,13番が勝つ確率が高いと予想する 2008年有馬記念の実際のレース結果は 1着13番、2着14番、3着6番
まとめ 競馬の勝因は馬のコース、距離の得意、不得意、クラス分けされた力の違いで基本的には予想は可能である 有馬記念は右回りの中山競馬場が得意という馬が勝ちやすい しかし、毎年1頭だけ予測不可能な馬が出現する これに相関を持たせるのが今後の課題である