阪神・中日選手の 時系列傾向分析 37041380 福元 祥二 35041609 渡部 達朗.

Slides:



Advertisements
Similar presentations
社会統計 第 14 回 主成分分析 寺尾 敦 青山学院大学社会情報学部
Advertisements

2016 年度 計量経済学 講義内容 担当者: 河田 正樹
エクセルと SPSS による データ分析の方法 社会調査法・実習 資料. 仮説の分析に使う代表的なモデ ル 1 クロス表 2 t検定(平均値の差の検定) 3 相関係数.
0章 数学基礎.
主成分分析 主成分分析は 多くの変数の中を軸を取り直すことで より低い次元で表現できるようにする。 データがばらついている方向ほど
データ解析
因子分析,共分散構造分析 Factor Analysis Structural Equations Model
第八回  シンプレックス表の経済的解釈 山梨大学.
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
9. 主成分分析 Principal Component Analysis (PCA)
重回帰分析入門 経済データ解析 2009年度.
データ解析 静岡大学工学部 安藤和敏
確率・統計Ⅰ 第11回 i.i.d.の和と大数の法則 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
得点と打率・長打率・出塁率らの関係 政治経済学部経済学科 ●年●組 ●● ●●.
第1日目第2時限の学習目標 基本的な1変量統計量(その2)について学ぶ。 尺度水準と適切な統計量との関連を整理する。
第4回 (10/16) 授業の学習目標 先輩の卒論の調査に協力する。 2つの定量的変数間の関係を調べる最も簡単な方法は?
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
林俊克&廣野元久「多変量データの活用術」:海文堂
生物統計学・第3回 全体を眺める(2) 主成分分析
重回帰分析入門 経済データ解析 2011年度.
統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
心理統計学 II 第7回 (11/13) 授業の学習目標 相関係数のまとめと具体的な計算例の復習 相関係数の実習.
データ解析基礎 4. 正規分布と相関係数 keyword 正規分布(教科書:31ページ~38ページ) 正規分布の性質 偏差値
放射線の計算や測定における統計誤差 「平均の誤差」とその応用(1H) 2項分布、ポアソン分布、ガウス分布(1H) 最小二乗法(1H)
回帰分析.
第3章 重回帰分析 ー 計量経済学 ー.
第3章 重回帰分析 ー 計量経済学 ー.
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
データ分析入門(13) 第13章 主成分分析 廣野元久.
主成分分析                     結城  隆   .
透視投影(中心射影)とは  ○ 3次元空間上の点を2次元平面へ投影する方法の一つ  ○ 投影方法   1.投影中心を定義する   2.投影平面を定義する
回帰分析/多変量分析 1月18日.
主成分分析と因子分析 による競馬の勝因の研究
土木計画学 第6回(11月9日) 調査データの統計処理と分析4 担当:榊原 弘之.
相関分析.
 統計学講義 第11回     相関係数、回帰直線    決定係数.
4章までのまとめ ー 計量経済学 ー.
主成分分析 (Principle Component Analysis)
T2統計量・Q統計量 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
データ解析 静岡大学工学部 安藤和敏
第6章 特徴空間の変換 6.1 特徴選択と特徴空間の変換 6.2 特徴量の正規化 平成15年5月23日(金) 発表者 藤井 丈明
独立成分分析 (ICA:Independent Component Analysis )
標本分散の標本分布 標本分散の統計量   の定義    の性質 分布表の使い方    分布の信頼区間 
主成分分析 Principal Component Analysis PCA
プログラミング論 主成分分析
多変量解析 ~主成分分析~ 1.主成分解析とは 2.適用例と解析の目的 3.解析の流れ 4.変数が2個の場合の主成分分析
変換されても変換されない頑固ベクトル どうしたら頑固になれるか 頑固なベクトルは何に使える?
パターン認識特論 担当:和田 俊和 部屋 A513 主成分分析
部分的最小二乗回帰 Partial Least Squares Regression PLS
母分散の信頼区間 F分布 母分散の比の信頼区間
プロセスデータ解析学5 -主成分分析- 担当:長谷部伸治     金 尚弘.
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
データ解析 静岡大学工学部 安藤和敏
川崎浩司:沿岸域工学,コロナ社 第4章(pp.58-68)
回帰分析(Regression Analysis)
第3日目第4時限の学習目標 第1日目第3時限のスライドによる、名義尺度2変数間の連関のカイ2乗統計量についての復習
データ解析 静岡大学工学部 安藤和敏
相関分析 2次元データと散布図 共分散 相関係数.
最小二乗法による線形重回帰分析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
重回帰分析入門 経済データ解析 2008年度.
Locally-Weighted Partial Least Squares LWPLS 局所PLS
重回帰分析入門 (第5章補足) 統計学 2007年度.
モデルの微分による非線形モデルの解釈 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
パターン認識特論 カーネル主成分分析 和田俊和.
わかりやすいパターン認識 第6章 特徴空間の変換 6.5 KL展開の適用法 〔1〕 KL展開と線形判別法 〔2〕 KL展開と学習パターン数
生物統計学・第11回 全体を眺める(3) -主成分分析1:分析の基本-
第1日目第2時限の学習目標 基本的な1変量統計量(その2)について学ぶ。 尺度水準と適切な統計量との関連を整理する。
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

阪神・中日選手の 時系列傾向分析 37041380 福元 祥二 35041609 渡部 達朗

背景 したのが、阪神タイガースと中日ドラゴンズの2 チームであった。どのような戦力違いでリーグ優 勝ができたのかその要因に興味を持った。  2002年から2006年までの4年間にセリーグを制 したのが、阪神タイガースと中日ドラゴンズの2 チームであった。どのような戦力違いでリーグ優 勝ができたのかその要因に興味を持った。

目的 プロ野球セ・リーグの優勝をするためには、 どのような野手戦力を構成すべきかについて 近年の阪神と中日の野手の成績データから 分析する。この分析方法は、自社品を競合品 に対して優位にするための方策作りにも応で きる。

方法 ①2003年から2006年の四年間の各シーズンの 成績上位30位の選手のデータを集める。 ②そのデータを主成分分析する。 ③その分析結果から、特に阪神と中日の選手の 各シーズン別位置づけを導く。それより、優勝した 年とそうでなかった年とで、阪神と中日との野手戦 略の違いを分析する。 ④優勝するのに不可欠な戦力構成を提言する。 ⑤これらの方法が自社品の評価にも役立てられる ようにまとめる。

主成分分析法とは 主成分分析法とは 主成分分析について説明する。 主成分分析(Principal Component Analysis)とは,多くの変量の値をできるだけ情報の損失なしに,1個または少数個(個)の総合的指数(主成分)で代表させる方法である。変量(次元)の観測値を個(次元)の主成分に縮約するという意味で,次元を減少させる方法と言うこともできる。  いま,次のようなデータが与えられているとしよう。

主成分分析法とは 今回は、次のような場合を考えてもらえばよい。 →プロ野球選手についての打率、安打、本塁打、・・・など種類の打撃成績の特徴 このデータにもとづいて,“プロ野球選手の打撃成績”といった総合的な指標を求めたい。そのため変量,…,に対して任意の係数,…,を用いて,次のような線形結合(1次式による合成変量)をつくる。                          (3.1) ここに’,’である。  このように合成されたは,個の変量を“よく代表”していなければならない。そのための基準として,次の基準1~4が用いられる。  基準1 合成変量の分散の最大化。

主成分分析法とは 基準2 上記の表のデータを,次元空間の中の個の点として表したとき,その個の点から直線に下した垂線の長さの2乗和の最小化。 基準2 上記の表のデータを,次元空間の中の個の点として表したとき,その個の点から直線に下した垂線の長さの2乗和の最小化。  基準3 合成変量を説明変量,もとの変量を目的変量として,回帰式をつくったときの残差平方和の合計の最小化。  基準4 合成変量ともとの変量との相関係数の2乗和の最大化。  このうち基準1~3からは,いずれもの分散共分散行列の固有値問題が得られ,同じ結果となる。また,基準4からは相関行列の固有値問題が導かれる。

主成分分析法とは 3.2.1 主成分分析の定式化 ここでは基準1にそって説明しよう。個の変量から式(3.1)により合成するとき、の分散は 3.2.1 主成分分析の定式化   ここでは基準1にそって説明しよう。個の変量から式(3.1)により合成するとき、の分散は           (3.2) となる。ここにはととの共分散、はを要素にもつ分散共分散行列である。式(3.1)のは、次元空間の中で原点OからあるOZ方向に軸をとることを意味するが、そのとき座標のスケールを・・・軸と同じにとることにすれば、係数・・・はそれぞれ直線OZの方向余弦(OZと・・・軸となす角を・・・とすると、cos・・・cos)になり、                 (3.3) を満たす。したがって、問題は式(3.3)の制約条件のもとで式(3.2)を最大化することになる。

主成分分析法とは このような制約条件つき最大化問題は、よく知られているように、ラグランジュ乗数を用いて (3.4)                (3.4) を(制限なしで)最大化する問題に変形される。  式(3.4)をの各要素で偏微分してゼロとおけば                 (3.5) のような行列の固有値問題(eigenvalue problem)を得る。は対称行列であり、また任意のに対してより非負値であるから、個の実数で非負の固有値(eigenvalue)をもつ。

主成分分析法とは 各固有値に対する固有ベクトル(eigenvector)をとすれば、式(3.5)より 両辺にを左から掛けると                 両辺にを左から掛けると              となり、はちょうどの分散に等しくなることがわかる。  したがって分散を最大にする合成変量は、最大固有値に対応する固有ベクトルの要素を係数として                         (3.6) のようにつくればよい。これを第1主成分(first principal component)と呼ぶ。第1主成分の分散はすでに述べたようにで、分散のもっとも大きい方向という意味で、個の変量をよく代表する合成変量になっている。

主成分分析法とは  第1主成分だけで、もとの次元データのばらつきが十分代表されていないときには、再び式(3.1)の形の線形結合を考える。ただし、は第1主成分で説明しきれない部分を説明するために考えるものであるから、ととは互いに無相関になるようにとる。すなわち                        (3.7) 制約条件、式(3.3)と(3.7)のもとで、式(3.2)の分散を最大化する。  2つのラグランジュ係数を用いると                     (3.8) の最大化問題に変形される。これをの各要素で偏微分して、ゼロとおくと              (3.9) この両辺に、左からを掛け式(3.7)を考慮するととなり、式(3.9)は第1主成分を求めたのと同じ固有値問題・式(3.5)に帰着する。

主成分分析法とは すでに述べたように、固有値は対応する固有ベクトルの要素を係数として用いた合成変量の分散を表わし、また最大固有値に対応する固有ベクトルは、すでに第1主成分に用いられているので、今度は2番目に大きい固有値に対応する固有ベクトルの要素を係数として             (3.10) のように合成する。これを第2主成分(second principal component)と呼ぶ。この第2主成分の分散はである。  以下同様にして、分散がとなるような第3主成分,…,第主成分を求めることができる。

主成分分析法とは なお合成された変量である主成分の原点を、どこにとるかは本質的でないので、各主成分の平均がゼロとなるようにとることが多い。その場合、主成分を求める式(3.6)や(3.10)は修正され、第主成分(より正確には主成分得点 principal component score)は次の式により計算される。                (3.11) 3.2.2 寄与率・累積寄与率 このようにして求められた主成分の分散と、もとの変量の分散の間には、            (3.12) のような関係があり、,をそれぞれ第主成分の寄与率、第1~主成分の累積寄与率と呼ぶ。

主成分分析法とは もし番目以下の固有値が0に近ければ、第1~第主成分だけで、もとの変量のばらつきの大部分を説明できることになる。 3.2.3 変量の標準化  分散や共分散は各観測値の単位のとり方に依存し、そのため分散共分散行列の固有ベクトルとして得られる主成分の係数も、単位のとり方によって変わる。例えば、変量の中に身長(センチメートル)、体重(キログラム)というような異質な単位が混っているとき、これらをフィートとポンドで表したりすると、結果が変わってくる。それでは不都合であるので、あらかじめ各変量を平均0、分散1に標準化しておいた上で、主成分分析を適用することが多い。その場合、分散共分散行列は相関行列と等しくなり                 (3.13) のような相関行列の固有値問題が導かれる。それはちょうど基準4に基づいて主成分を求めていることに等しくなる。

主成分分析法とは 3.2.4 主成分の数  主成分分析を適用する場合、主成分をいくつまでとるかが問題になる。もとの変量の持っている情報の大部分が、主成分で説明される必要があるが、現象を単純化して理解するという観点からは、できるだけ少数個であることが望ましい。各個体を次元空間の中に位置づけて、個体間の関係を見ようという場合には、が2~3であれば好都合である。  主成分の数のきめ方には決定的な方法ないが、次のような考え方で決められることが多い。  基準1 累積寄与率がある程度(例えば80%)以上大きくなること。  基準2 各主成分の寄与率が、もとの変量1個分以上あること。とくに変量を標準化して相関行列から求める場合、固有値であること。

主成分分析法とは 基準3 固有値のグラフ、すなわちのプロットを見て、“大きい固有値”が終って折れ曲る直前まで、このグラフは、しばしばスクリー・グラフ(scree diagram,岩くず図)と呼ばれる。分野によっては、をプロットすることもある。  基準4 母固有値に関して、“小さい方から個の固有値が等しい”という仮説の検定を、と順におこない、有意でない最初のを選択する。分散共分散行列から主成分を求める場合、上記の仮説のもとで、次のBartlettの統計量 ただし が近似的に自由度のカイ2乗分布に従うので、なら有意水準で、“有意”と判定すればよい。

主成分分析法とは 3.2.5 主成分の解釈  主成分は3.2節の意味で、もとの変量をよく代表する総合指標として、分散共分散行列あるいは相関行列の固有ベクトルの要素を係数とする1次式で計算された。このようにして得られた主成分の解釈には、係数ベクトル(固有ベクトル)あるいは主成分と変量との相関係数として定義される主成分負荷量(component loading)が用いられる。第主成分の主成分負荷量は、相関行列にもとづく主成分の場合  分散共分散行列にもとづく主成分の場合 で与えられる。 この主成分分析を用いて、以下解析する。

研究報告-2003 2003年 のデータ

研究報告-2003阪神優勝 主成分分析結果     

研究報告-2003 主成分1             主成分2

研究報告-2003 主成分1×2での選手のポジショニング

研究報告-2004中日優勝 2004年 のデータ

研究報告-2004 主成分分析結果         

研究報告-2004 主成分1              主成分2

研究報告-2004 主成分1×2での選手のポジショニング

6.研究報告-2005阪神優勝 2005年 のデータ 

6.2 2005年の解析結果   主成分分析結果 

6.2 2005年の解析結果 主成分1       主成分2 

6.2 2005年の解析結果 主成分1✕2での選手のポジショニング 

7.研究報告-2006中日優勝  2006年                               のデータ

7.2 2006年の解析結果 主成分分析結果

7.2 2006年の解析結果  主成分1         主成分2    

7.2 2006年の解析結果 主成分1×2での選手のポジショニング

8. まとめ 分析の結果からリーグ優勝するには、試合にほとんど出場していて、出塁するとホームまでたどり着き、得点の取れる1,2番打者と、その1,2番打者を生還させるために、本塁打や長打を打つことができ、打点を挙げることができる4番打者、5番打者の活躍により得点をとることが不可欠であることがわかった。 阪神が優勝するには、この分析結果から見ると、赤星と金本、今岡が活躍すると優勝していたことがわかった。 中日が優勝するには、井端、荒木と福留、ウッズが活躍すると優勝していたことがわかった。

9. 今後の課題 2004年のデータを分析したポジショニング結果からは、打撃成績からの優勝した要因を得ることができなかった。打撃成績のみでは導くことができなかった要因を探ることが課題である。 今回は投手成績について調べなかったので、投手成績について分析し、打撃成績と投手成績の両方から分析をし、より詳細な結果から優勝した要因を探りたいと思う。