プログラミング論 相関 http://www.ns.kogakuin.ac.jp/~ct13140/Prog/

Slides:



Advertisements
Similar presentations
環境経済論 第 7 回目 ヘドニック・アプローチ. Court (米国自動車工業会 ) による自動車 価格変化の研究、 1939 – 自動車価格とさまざまな特性(馬力、長さな ど)との数量的関係 – 財の諸特性が快楽( hedonic pleasure )を生 み出すと考える – ヘドニック要因で説明される価格(又はその.
Advertisements

平成 27 年 10 月 21 日. 【応用課題 2-1 】 次のビット列は、ある 10 進数を 8 ビット固定小数点表示で表した時の ものです。ただし、小数点の位置は 3 ビット目と 4 ビット目の間としてお り、負数は2の補数で表しています。このとき、元の 10 進数を求めてく ださい。
生物統計学・第 5 回 比べる準備をする 標準偏差、標準誤差、標準化 2013 年 11 月 7 日 生命環境科学域 応用生命科学 類 尾形 善之.
1 変量データの記述 (度数分布表とヒストグラム) 経済データ解析 2009 年度後 期. あるクラスのテストの点数が次のように なっていたとする。 このように出席番号と点数が並んでいるものだけでは、 このクラスの特徴がわかりづらい。 → このクラスの特徴がわかるような工夫が必要 → このクラスの特徴がわかるような工夫が必要.
確率・統計学の基礎 データの特性を表すパラメータとは? 2 つのデータの関係性を表す式の導出方法.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
エクセルと SPSS による データ分析の方法 社会調査法・実習 資料. 仮説の分析に使う代表的なモデ ル 1 クロス表 2 t検定(平均値の差の検定) 3 相関係数.
Example 8 種類のチーズの塩分量 : m = 325 Q 3 = 340 m Q 1 = Q3Q3Q3Q3 Q1Q1Q1Q1.
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
主成分分析 主成分分析は 多くの変数の中を軸を取り直すことで より低い次元で表現できるようにする。 データがばらついている方向ほど
第1章 記述統計の復習 統計学 2007年度.
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
本時の目標 正の数、負の数の大小関係や数直線上での表し方、絶対値の意味を理解する。
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
第3章 2変量データの記述 統計学基礎 2010年度.
第1章 記述統計の復習 統計学 2011年度.
データ解析 静岡大学工学部 安藤和敏
確率・統計Ⅰ 第11回 i.i.d.の和と大数の法則 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
相関係数 植物生態学研究室木村 一也.
第1回 担当: 西山 統計学.
データモデリング 推薦のための集合知プログラミング.
第1章 記述統計の復習 統計学 2010年度.
第4回 (10/16) 授業の学習目標 先輩の卒論の調査に協力する。 2つの定量的変数間の関係を調べる最も簡単な方法は?
心理統計学 II 第7回 (11/13) 授業の学習目標 相関係数のまとめと具体的な計算例の復習 相関係数の実習.
大数の法則 平均 m の母集団から n 個のデータ xi をサンプリングする n 個のデータの平均 <x>
ポートフォリオ管理 Portfolio Management
11.確率モデル 確率・・・不確実性の経済学や金融やファイナンス で重要 密度関数がある場合に期待値を取る計算を中心に、紹介.
データ解析基礎 4. 正規分布と相関係数 keyword 正規分布(教科書:31ページ~38ページ) 正規分布の性質 偏差値
第3章 二つの変数の記述統計 二つの変数を対象として変数同士の関係を捉える 量的変数どうしの関係 質的変数どうしの関係.
相関と回帰:相関分析 2つの変量それぞれが正規分布にしたがってばらつく量であるとき,両変数の直線的な関係を相関分析する. 例:兄弟の身長
(+3)×(+3)= (+3)×(+2)= (+3)×(+1)= (+3)× 0 = (+3)×(-1)= (+3)×(-2)=
統計学 第3回 10/11 担当:鈴木智也.
計測工学 -測定の誤差と精度2- 計測工学 2009年5月17日 Ⅰ限目.
1変量データの記述 経済データ解析 2006年度.
データのバラツキの測度 レンジと四分位偏差 分散と標準偏差 変動係数.
看護研究における 統計の活用法 Part 3 京都府立医科大学 浅野 弘明 2012年11月10日 1.
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 データ入力 データ分析 報告書の作成.
ガウス過程による回帰 Gaussian Process Regression GPR
相関分析.
 統計学講義 第11回     相関係数、回帰直線    決定係数.
プログラミング論 II 2008年吉日 主成分分析 数値積分
代表値とは 散布度とは 分布のパラメータ 母集団とサンプル
確率論の基礎 「ロジスティクス工学」 第3章 鞭効果 第4章 確率的在庫モデル 補助資料
中澤 港 統計学第4回 中澤 港
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
プログラミング論 主成分分析
確率と統計 メディア学部2008年後期 No.3 平成20年10月16日(木).
多変量解析 ~主成分分析~ 1.主成分解析とは 2.適用例と解析の目的 3.解析の流れ 4.変数が2個の場合の主成分分析
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
部分的最小二乗回帰 Partial Least Squares Regression PLS
母分散の信頼区間 F分布 母分散の比の信頼区間
コンピュータⅡJ (情報の分析と表現) 第7講  2009年11月11日 担当:岡田佳子.
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
都市・港湾経済学(総) 国民経済計算論(商)
第5回 確率変数の共分散 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
統計学  第9回 西 山.
度数分布表における平均・分散 (第1章 記述統計の復習 補足)
統計処理1 平均・分散・標準偏差.
情報の集約 記述統計 記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。
確率と統計2007(最終回) 平成20年1月17日(木) 東京工科大学 亀田弘之.
相関分析 2次元データと散布図 共分散 相関係数.
1変量データの記述 (度数分布表とヒストグラム)
数理統計学  第6回 西山.
本時の目標 正の数、負の数の大小関係や数直線上での表し方、絶対値の意味を理解する。
データ分布の特徴 基準化変量 歪度 尖度.
回帰分析入門 経済データ解析 2011年度.
MOIRCS 32channel読み出し時に発生したクロストークについて
第3章 統計的推定 (その2) 統計学 2006年度 <修正・補足版>.
統計現象 高嶋 隆一 6/26/2019.
Presentation transcript:

プログラミング論 相関 http://www.ns.kogakuin.ac.jp/~ct13140/Prog/

概要 相関 データ群とデータ群の関連性の強さを考える 話は理論的.難易度は低め. 理系として「相関係数」くらいは知っていて欲しい…

相関

相関 "相関"とは,二つのデータ列の, 関連性,連動性(一緒に動くか)のこと. 相関係数とは,二つのデータ列の相関の強さを表す統計値. 例:人間の身長と体重は関係がある. 身長が大きいと,体重が大きい(傾向にある). 相関係数とは,二つのデータ列の相関の強さを表す統計値. 相関係数は-1~1の間をとる. -1に近いと強い負の相関. 0に近いと相関が弱い. 1に近いと強い正の相関.

各人の身長と体重の分布 身長の値が大きい人ほど, 体重の値も大きい傾向にある. (身長と体重は連動して動く) 相関がある

相関の強さ 相関係数 相関の強さを 数値化した統計値が, 「身長」の値が大きいと, 「足の長さ」の値が大きい傾向にある. 「身長」と「足の長さ」には相関がある. しかも,右の方が「相関が強い」 相関の強さを 数値化した統計値が, 相関係数  

「平均との偏差」同士の比較 正の相関 身長偏差>0 体重偏差>0 の人たち 身長偏差<0 体重偏差>0 の人たち 身長偏差×体重偏差 =正の数×正の数 =正の数 身長偏差>0 体重偏差<0 の人たち 身長偏差<0 体重偏差<0 の人たち この分布の例では, 「偏差の積」は 正の数の例が多い. 全員の「偏差の積」を 合計したら,正となる. 正の相関 身長偏差×体重偏差 =負の数×負の数 =正の数

共分散 「偏差の積」の平均が「共分散」 身長偏差>0 体重偏差>0 の人たち 身長偏差<0 体重偏差>0 の人たち 身長偏差>0 体重偏差<0 の人たち 身長偏差<0 体重偏差<0 の人たち

共分散が正:正の相関 xが増えると, yは増える傾向がある. 「偏差の積」は, 正であるものが多い. 「偏差の積」の平均は,正である. (偏差の積の平均=共分散)

共分散が負:負の相関 xが増えると, yは減る傾向がある. 「偏差の積」は, 負であるものが多い. 「偏差の積」の平均は,負である. (偏差の積の平均=共分散)

共分散がゼロ:無相関 xと yは, 連動して動かない. 「偏差の積」は, 正と負が同程度. 「偏差の積」の平均は,ゼロである. (偏差の積の平均=共分散)

共分散の大きさ と 相関の強さ 強い正の相関 弱い正の相関 無相関 共分散が正. 大きな正の値. 共分散は正だが, 大きな値ではない. ゼロ. 無相関

共分散 共分散の大小は,相関の強さを表す. ただし,元の値が大きいと,共分散の値は大きくなる.(共分散の絶対値を理解しづらい) 共分散が大きいほど,正の相関が強い. 共分散がゼロに近いと,相関が弱い. 共分散が小さいほど,負の相関が強い. xが増えたら,yは減る傾向にある. ただし,元の値が大きいと,共分散の値は大きくなる.(共分散の絶対値を理解しづらい) 同じデータでも, 身長[cm]と体重[g]の共分散の値は大きく, 身長[m]と体重[Kg]の共分散の値は小さい.

相関係数 共分散の値を標準偏差(データの散らばりの大きさ)の積で割った値が,相関係数. 相関係数は,-1から+1の値となる. -1.0 ~ -0.7 : 強い負の相関 -0.7 ~ -0.3 : ある程度(?)負の相関がある -0.3 ~ +0.3 : 相関は弱い. +0.3 ~ +0.7 : ある程度(?)正の相関がある +0.7 ~ +1.0 : 強い正の相関がある.

標準偏差 ただし,標準偏差とは以下のもの nは,データの個数 xの平均 xの分散 xの標準偏差

標準偏差とは 「平均50点の数学の試験で60点を取った」と「平均50点の英語の試験で60点を取った」は 同程度にすごいことなのか?

正規分布 と 標準偏差 正規分布なら, 「平均±標準偏差」 の範囲に約68%, 「平均±2×標準偏差」 の範囲に約95%の 人がいる. この例では,40点~60点の範囲に68%の人がいる.

相関係数 相関係数は,一次の相関の強さを 表現する. 右図のxとyは, 密接な関係があるように 見えるが, 相関係数は,ほぼゼロとなる. (相関係数=-0.016)

相関係数のプログラミング double x[100], y[100]; x[0] = 1.2; y[0] = 3.4; : と,x[0]~x[99] と y[0]~y[99]がある. x[i] と y[i] の相関係数を求めるには?

x[0]~x[99]の平均

x[0]~x[99]の平均 double x_sum, x_avr; int i; x_sum = 0.0; for(i=0; i<100; i++){ x_sum += x[i]; } x_avr = x_sum/100;

共分散 (1/2) x[i] の「平均に対する偏差」 ??? x[i]とy[i]の「偏差の積」

共分散 (1/2) x[i] の「平均に対する偏差」 x[i]-x_avr x[i]とy[i]の「偏差の積」 (x[i]-x_avr)*(y[i]-y_avr)

共分散 (2/2) x[] と y[] の共分散.

共分散 (2/2) x[] と y[] の共分散. double d_sum = 0.0, cov; for(i=0; i<100; i++){ d_sum += (x[i]-x_avr)*(y[i]-y_avr); } cov = d_sum/100; /* d_sum が偏差の積の合計, cov が共分散 */

標準偏差 x[]の標準偏差 /* x_dis がxの分散, x_st_devがxの標準偏差 */

標準偏差 x[]の標準偏差 double x_ds_sum=0.0,x_dis,x_st_dev; for(i=0; i<100; i++){  x_ds_sum +=   (x[i]-x_avr)*(x[i]-x_avr); } x_dis = x_ds_sum/100; x_st_dev = sqrt(x_dis); /* x_dis がxの分散, x_st_devがxの標準偏差 */

x[]とy[]の相関係数 相関係数=共分散/(x標準偏差×y標準偏差)

x[]とy[]の相関係数 相関係数=共分散/(x標準偏差×y標準偏差) cov / x_st_dev / y_st_dev

実は 分子と分母の, 1/n は消せる.