Presentation is loading. Please wait.

Presentation is loading. Please wait.

阪神・中日選手の 時系列傾向分析 37041380 福元 祥二 35041609 渡部 達朗.

Similar presentations


Presentation on theme: "阪神・中日選手の 時系列傾向分析 37041380 福元 祥二 35041609 渡部 達朗."— Presentation transcript:

1 阪神・中日選手の 時系列傾向分析  福元 祥二  渡部 達朗

2 背景 したのが、阪神タイガースと中日ドラゴンズの2 チームであった。どのような戦力違いでリーグ優 勝ができたのかその要因に興味を持った。
 2002年から2006年までの4年間にセリーグを制 したのが、阪神タイガースと中日ドラゴンズの2 チームであった。どのような戦力違いでリーグ優 勝ができたのかその要因に興味を持った。

3 目的 プロ野球セ・リーグの優勝をするためには、 どのような野手戦力を構成すべきかについて 近年の阪神と中日の野手の成績データから
分析する。この分析方法は、自社品を競合品 に対して優位にするための方策作りにも応で きる。

4 方法 ①2003年から2006年の四年間の各シーズンの 成績上位30位の選手のデータを集める。 ②そのデータを主成分分析する。
③その分析結果から、特に阪神と中日の選手の 各シーズン別位置づけを導く。それより、優勝した 年とそうでなかった年とで、阪神と中日との野手戦 略の違いを分析する。 ④優勝するのに不可欠な戦力構成を提言する。 ⑤これらの方法が自社品の評価にも役立てられる ようにまとめる。

5 主成分分析法とは 主成分分析法とは 主成分分析について説明する。
主成分分析(Principal Component Analysis)とは,多くの変量の値をできるだけ情報の損失なしに,1個または少数個(個)の総合的指数(主成分)で代表させる方法である。変量(次元)の観測値を個(次元)の主成分に縮約するという意味で,次元を減少させる方法と言うこともできる。  いま,次のようなデータが与えられているとしよう。

6 主成分分析法とは 今回は、次のような場合を考えてもらえばよい。 →プロ野球選手についての打率、安打、本塁打、・・・など種類の打撃成績の特徴
このデータにもとづいて,“プロ野球選手の打撃成績”といった総合的な指標を求めたい。そのため変量,…,に対して任意の係数,…,を用いて,次のような線形結合(1次式による合成変量)をつくる。                          (3.1) ここに’,’である。  このように合成されたは,個の変量を“よく代表”していなければならない。そのための基準として,次の基準1~4が用いられる。  基準1 合成変量の分散の最大化。

7 主成分分析法とは 基準2 上記の表のデータを,次元空間の中の個の点として表したとき,その個の点から直線に下した垂線の長さの2乗和の最小化。
基準2 上記の表のデータを,次元空間の中の個の点として表したとき,その個の点から直線に下した垂線の長さの2乗和の最小化。  基準3 合成変量を説明変量,もとの変量を目的変量として,回帰式をつくったときの残差平方和の合計の最小化。  基準4 合成変量ともとの変量との相関係数の2乗和の最大化。  このうち基準1~3からは,いずれもの分散共分散行列の固有値問題が得られ,同じ結果となる。また,基準4からは相関行列の固有値問題が導かれる。

8 主成分分析法とは 3.2.1 主成分分析の定式化 ここでは基準1にそって説明しよう。個の変量から式(3.1)により合成するとき、の分散は
3.2.1 主成分分析の定式化   ここでは基準1にそって説明しよう。個の変量から式(3.1)により合成するとき、の分散は           (3.2) となる。ここにはととの共分散、はを要素にもつ分散共分散行列である。式(3.1)のは、次元空間の中で原点OからあるOZ方向に軸をとることを意味するが、そのとき座標のスケールを・・・軸と同じにとることにすれば、係数・・・はそれぞれ直線OZの方向余弦(OZと・・・軸となす角を・・・とすると、cos・・・cos)になり、                 (3.3) を満たす。したがって、問題は式(3.3)の制約条件のもとで式(3.2)を最大化することになる。

9 主成分分析法とは このような制約条件つき最大化問題は、よく知られているように、ラグランジュ乗数を用いて (3.4)
               (3.4) を(制限なしで)最大化する問題に変形される。  式(3.4)をの各要素で偏微分してゼロとおけば                 (3.5) のような行列の固有値問題(eigenvalue problem)を得る。は対称行列であり、また任意のに対してより非負値であるから、個の実数で非負の固有値(eigenvalue)をもつ。

10 主成分分析法とは 各固有値に対する固有ベクトル(eigenvector)をとすれば、式(3.5)より 両辺にを左から掛けると
                両辺にを左から掛けると              となり、はちょうどの分散に等しくなることがわかる。  したがって分散を最大にする合成変量は、最大固有値に対応する固有ベクトルの要素を係数として                         (3.6) のようにつくればよい。これを第1主成分(first principal component)と呼ぶ。第1主成分の分散はすでに述べたようにで、分散のもっとも大きい方向という意味で、個の変量をよく代表する合成変量になっている。

11 主成分分析法とは  第1主成分だけで、もとの次元データのばらつきが十分代表されていないときには、再び式(3.1)の形の線形結合を考える。ただし、は第1主成分で説明しきれない部分を説明するために考えるものであるから、ととは互いに無相関になるようにとる。すなわち                        (3.7) 制約条件、式(3.3)と(3.7)のもとで、式(3.2)の分散を最大化する。  2つのラグランジュ係数を用いると                     (3.8) の最大化問題に変形される。これをの各要素で偏微分して、ゼロとおくと              (3.9) この両辺に、左からを掛け式(3.7)を考慮するととなり、式(3.9)は第1主成分を求めたのと同じ固有値問題・式(3.5)に帰着する。

12 主成分分析法とは すでに述べたように、固有値は対応する固有ベクトルの要素を係数として用いた合成変量の分散を表わし、また最大固有値に対応する固有ベクトルは、すでに第1主成分に用いられているので、今度は2番目に大きい固有値に対応する固有ベクトルの要素を係数として             (3.10) のように合成する。これを第2主成分(second principal component)と呼ぶ。この第2主成分の分散はである。  以下同様にして、分散がとなるような第3主成分,…,第主成分を求めることができる。

13 主成分分析法とは なお合成された変量である主成分の原点を、どこにとるかは本質的でないので、各主成分の平均がゼロとなるようにとることが多い。その場合、主成分を求める式(3.6)や(3.10)は修正され、第主成分(より正確には主成分得点 principal component score)は次の式により計算される。                (3.11) 3.2.2 寄与率・累積寄与率 このようにして求められた主成分の分散と、もとの変量の分散の間には、            (3.12) のような関係があり、,をそれぞれ第主成分の寄与率、第1~主成分の累積寄与率と呼ぶ。

14 主成分分析法とは もし番目以下の固有値が0に近ければ、第1~第主成分だけで、もとの変量のばらつきの大部分を説明できることになる。
3.2.3 変量の標準化  分散や共分散は各観測値の単位のとり方に依存し、そのため分散共分散行列の固有ベクトルとして得られる主成分の係数も、単位のとり方によって変わる。例えば、変量の中に身長(センチメートル)、体重(キログラム)というような異質な単位が混っているとき、これらをフィートとポンドで表したりすると、結果が変わってくる。それでは不都合であるので、あらかじめ各変量を平均0、分散1に標準化しておいた上で、主成分分析を適用することが多い。その場合、分散共分散行列は相関行列と等しくなり                 (3.13) のような相関行列の固有値問題が導かれる。それはちょうど基準4に基づいて主成分を求めていることに等しくなる。

15 主成分分析法とは 3.2.4 主成分の数  主成分分析を適用する場合、主成分をいくつまでとるかが問題になる。もとの変量の持っている情報の大部分が、主成分で説明される必要があるが、現象を単純化して理解するという観点からは、できるだけ少数個であることが望ましい。各個体を次元空間の中に位置づけて、個体間の関係を見ようという場合には、が2~3であれば好都合である。  主成分の数のきめ方には決定的な方法ないが、次のような考え方で決められることが多い。  基準1 累積寄与率がある程度(例えば80%)以上大きくなること。  基準2 各主成分の寄与率が、もとの変量1個分以上あること。とくに変量を標準化して相関行列から求める場合、固有値であること。

16 主成分分析法とは 基準3 固有値のグラフ、すなわちのプロットを見て、“大きい固有値”が終って折れ曲る直前まで、このグラフは、しばしばスクリー・グラフ(scree diagram,岩くず図)と呼ばれる。分野によっては、をプロットすることもある。  基準4 母固有値に関して、“小さい方から個の固有値が等しい”という仮説の検定を、と順におこない、有意でない最初のを選択する。分散共分散行列から主成分を求める場合、上記の仮説のもとで、次のBartlettの統計量 ただし が近似的に自由度のカイ2乗分布に従うので、なら有意水準で、“有意”と判定すればよい。

17 主成分分析法とは 3.2.5 主成分の解釈  主成分は3.2節の意味で、もとの変量をよく代表する総合指標として、分散共分散行列あるいは相関行列の固有ベクトルの要素を係数とする1次式で計算された。このようにして得られた主成分の解釈には、係数ベクトル(固有ベクトル)あるいは主成分と変量との相関係数として定義される主成分負荷量(component loading)が用いられる。第主成分の主成分負荷量は、相関行列にもとづく主成分の場合  分散共分散行列にもとづく主成分の場合 で与えられる。 この主成分分析を用いて、以下解析する。

18 研究報告-2003 2003年 のデータ

19 研究報告-2003阪神優勝 主成分分析結果     

20 研究報告-2003 主成分1             主成分2

21 研究報告-2003 主成分1×2での選手のポジショニング

22 研究報告-2004中日優勝 2004年 のデータ

23 研究報告-2004 主成分分析結果         

24 研究報告-2004 主成分1              主成分2

25 研究報告-2004 主成分1×2での選手のポジショニング

26 6.研究報告-2005阪神優勝 2005年 のデータ 

27 6.2 2005年の解析結果   主成分分析結果 

28 6.2 2005年の解析結果 主成分1       主成分2 

29 6.2 2005年の解析結果 主成分1✕2での選手のポジショニング 

30 7.研究報告-2006中日優勝  2006年                               のデータ

31 7.2 2006年の解析結果 主成分分析結果

32 7.2 2006年の解析結果  主成分1         主成分2    

33 7.2 2006年の解析結果 主成分1×2での選手のポジショニング

34 8. まとめ 分析の結果からリーグ優勝するには、試合にほとんど出場していて、出塁するとホームまでたどり着き、得点の取れる1,2番打者と、その1,2番打者を生還させるために、本塁打や長打を打つことができ、打点を挙げることができる4番打者、5番打者の活躍により得点をとることが不可欠であることがわかった。 阪神が優勝するには、この分析結果から見ると、赤星と金本、今岡が活躍すると優勝していたことがわかった。 中日が優勝するには、井端、荒木と福留、ウッズが活躍すると優勝していたことがわかった。

35 9. 今後の課題 2004年のデータを分析したポジショニング結果からは、打撃成績からの優勝した要因を得ることができなかった。打撃成績のみでは導くことができなかった要因を探ることが課題である。 今回は投手成績について調べなかったので、投手成績について分析し、打撃成績と投手成績の両方から分析をし、より詳細な結果から優勝した要因を探りたいと思う。


Download ppt "阪神・中日選手の 時系列傾向分析 37041380 福元 祥二 35041609 渡部 達朗."

Similar presentations


Ads by Google