慶應義塾大学 理工学部 数理科学科 南 美穂子 mminami@math.keio.ac.jp データから情報を引き出そう 慶應義塾大学 理工学部 数理科学科 南 美穂子 mminami@math.keio.ac.jp.

Slides:



Advertisements
Similar presentations
環境経済論 第 7 回目 ヘドニック・アプローチ. Court (米国自動車工業会 ) による自動車 価格変化の研究、 1939 – 自動車価格とさまざまな特性(馬力、長さな ど)との数量的関係 – 財の諸特性が快楽( hedonic pleasure )を生 み出すと考える – ヘドニック要因で説明される価格(又はその.
Advertisements

生物統計学・第 5 回 比べる準備をする 標準偏差、標準誤差、標準化 2013 年 11 月 7 日 生命環境科学域 応用生命科学 類 尾形 善之.
計量的手法入門 人材開発コース・ワークショップ (IV) 2000 年 6 月 29 日、 7 月 6 ・ 13 日 奥西 好夫
1 変量データの記述 (度数分布表とヒストグラム) 経済データ解析 2009 年度後 期. あるクラスのテストの点数が次のように なっていたとする。 このように出席番号と点数が並んでいるものだけでは、 このクラスの特徴がわかりづらい。 → このクラスの特徴がわかるような工夫が必要 → このクラスの特徴がわかるような工夫が必要.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
生物統計学・第 4 回 比べる準備をする 平均、分散、標準偏差、標準誤差、標準 化 2015 年 10 月 20 日 生命環境科学域 応用生命科学類 尾形 善之.
2016 年度 計量経済学 講義内容 担当者: 河田 正樹
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
MS-EXCEL、 OpenCalcを 用いた表計算
データ分析入門(12) 第12章 単回帰分析 廣野元久.
Rによる回帰分析 高崎経済大学 宮田 庸一.
時系列の予測 時系列:観測値を時刻の順に並べたものの集合
自己回帰モデルへの橋渡し 高崎経済大学 宮田庸一
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
補章 時系列モデル入門 ー 計量経済学 ー.
第3章 2変量データの記述 統計学基礎 2010年度.
重回帰分析入門 経済データ解析 2009年度.
回帰分析 重回帰(1).
相関係数 植物生態学研究室木村 一也.
得点と打率・長打率・出塁率らの関係 政治経済学部経済学科 ●年●組 ●● ●●.
第2章 単純回帰分析 ー 計量経済学 ー.
第4回 (10/16) 授業の学習目標 先輩の卒論の調査に協力する。 2つの定量的変数間の関係を調べる最も簡単な方法は?
Bassモデルにおける 最尤法を用いたパラメータ推定
重回帰分析入門 経済データ解析 2011年度.
心理統計学 II 第7回 (11/13) 授業の学習目標 相関係数のまとめと具体的な計算例の復習 相関係数の実習.
放射線の計算や測定における統計誤差 「平均の誤差」とその応用(1H) 2項分布、ポアソン分布、ガウス分布(1H) 最小二乗法(1H)
回帰分析.
第3章 二つの変数の記述統計 二つの変数を対象として変数同士の関係を捉える 量的変数どうしの関係 質的変数どうしの関係.
相関と回帰:相関分析 2つの変量それぞれが正規分布にしたがってばらつく量であるとき,両変数の直線的な関係を相関分析する. 例:兄弟の身長
第3章 重回帰分析 ー 計量経済学 ー.
第3章 重回帰分析 ー 計量経済学 ー.
第5章 回帰分析入門 統計学 2006年度.
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
統計学  第6回 西山.
寺尾 敦 青山学院大学社会情報学部 エクセルでの正規分布の グラフの描き方 寺尾 敦 青山学院大学社会情報学部
1変量データの記述 経済データ解析 2006年度.
寺尾 敦 青山学院大学社会情報学部 エクセルでの正規分布の グラフの描き方 寺尾 敦 青山学院大学社会情報学部
回帰モデル・クラス分類モデルを 評価・比較するための モデルの検証 Model validation
補章 時系列モデル入門 ー 計量経済学 ー.
相関分析.
データ解析 静岡大学工学部 安藤和敏
 統計学講義 第11回     相関係数、回帰直線    決定係数.
4章までのまとめ ー 計量経済学 ー.
P-Valueについて.
第5回 回帰モデル Regression Analysis
第4回 統計処理(1) 表計算ソフトの基本操作 塩浦 昭義 東北大学全学教育科目 情報基礎 A 1セメスター 木曜1,3講時
主成分分析 Principal Component Analysis PCA
確率と統計 メディア学部2008年後期 No.3 平成20年10月16日(木).
決定木 Decision Tree DT 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
部分的最小二乗回帰 Partial Least Squares Regression PLS
Rを使用したデータ解析・グラフ描き.
RでのScheffeの多重比較.
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
第3章 線形回帰モデル 修士1年 山田 孝太郎.
Stepwise (ステップワイズ) 法による 説明変数 (入力変数・記述子・ 特徴量) の選択
データ解析 静岡大学工学部 安藤和敏
回帰分析(Regression Analysis)
RでのScheffeの多重比較.
データ解析 静岡大学工学部 安藤和敏
1変量データの記述 (度数分布表とヒストグラム)
高低点法・ビジュアルフィット法・最小自乗法
最小二乗法による線形重回帰分析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
リッジ回帰(Ridge Regression, RR) Least Absolute Shrinkage and Selection Operator (LASSO) Elastic Net (EN) 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
重回帰分析入門 経済データ解析 2008年度.
実験計画法 Design of Experiments (DoE)
重回帰分析入門 (第5章補足) 統計学 2007年度.
モデルの微分による非線形モデルの解釈 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
回帰分析入門 経済データ解析 2011年度.
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

慶應義塾大学 理工学部 数理科学科 南 美穂子 mminami@math.keio.ac.jp データから情報を引き出そう 慶應義塾大学 理工学部 数理科学科 南 美穂子 mminami@math.keio.ac.jp

今日の話 ガラゴはどのくらい寝るだろう? 哺乳動物の睡眠時間は体重や妊娠期間などから どのくらい良く予測できるだろうか? データを眺めてみよう 睡眠時間と体重や妊娠期間との関係はどのようだろうか 睡眠時間を予測するモデルを作ろう ガラゴの睡眠時間を予測しよう ガラゴ 画像

哺乳動物の睡眠時間 ブタ 人間 アジアゾウ アフリカゾウ 馬 ベルベットモンキー

睡眠時間は体重や最高寿命から予測できるか?      Sleep in Mammals: Ecological and Constitutional Correlates” by Allison, T. and Cicchetti, D. (1976), Science, November 12, vol. 194, pp. 732 -734. 哺乳動物の睡眠時間は他の変数から予測できるだろうか? 哺乳動物各種に対して以下のデータが観測されている sleep 1日の睡眠時間 body 体重 (kg) brain 脳の重さ (g) life 最高寿命(年)maximum life span gestation 妊娠期間(日) predation 捕食指標(1~5: 1が最も捕食されにくい) exposure 睡眠中の危険暴露度(1~5: 1が暴露最小)

統計ソフトRを使ってみよう データのダウンロード にあるデータを にダウンロードして下さい  にあるデータを  にダウンロードして下さい 今日の授業では統計ソフトウェア Rを使います。 画面左下のスタートボタンを左クリックして、Rを クリックしてください R Console と書いてある画面で 以下のように入力してデータを読み込んで下さい > source("C:\\MihokoAll\\data20141030.txt")

データフレーム:mammals sleep body brain life gestation exposure predation African_elephant 3.3 6654.000 5712.0 38.6 645 3 5 African_giant_pouched_rat 8.3 1.000 6.6 4.5 42 3 1 Arctic_Fox 12.5 3.385 44.5 14.0 60 1 1 Asian_elephant 3.9 2547.000 4603.0 69.0 624 3 5 Baboon 9.8 10.550 179.5 27.0 180 4 4 Big_brown_bat 19.7 0.023 0.3 19.0 35 1 1 Brazilian_tapir 6.2 160.000 169.0 30.4 392 4 5 Cat 14.5 3.300 25.6 28.0 63 1 2 Chimpanzee 9.7 52.160 440.0 50.0 230 1 1 Chinchilla 12.5 0.425 6.4 7.0 112 5 4 Cow 3.9 465.000 423.0 30.0 281 5 5 Donkey 3.1 187.100 419.0 40.0 365 5 5 Eastern_American_mole 8.4 0.075 1.2 3.5 42 1 1 Echidna 8.6 3.000 25.0 50.0 28 2 2 European_hedgehog 10.7 0.785 3.5 6.0 42 2 2

データの確認 まず、データフレームmammals の最初の20行を見よう >mammals[1:20, ] 行4, 列6のデータを見る 行4を見る >mammals[4,] 列6を見る >mammals[,6] あるいは列6 の変数名を入力して列6のデータを見る   >predation predation の4番目のデータを見たいときには   >predation[4]

データを眺めてみよう どのような特徴があるだろうか 変数 sleep, body, brain, life, gestation の ヒストグラムを描いてみよう  >hist(sleep) 平均、中央値、最小値、最大値、四分位数を見よう  >summary(sleep)   Min. 1st Qu. Median Mean  3rd Qu. Max. 2.60 6.95 10.05 10.34 13.20 19.90 >which.max(sleep)     # sleep の最大値を取る番号 >mammals[which.max(sleep),] # sleepの最大値を取る行のデータ >mammals[which.min(sleep),] # sleepの最小値を取る行のデータ

睡眠時間とどのような関係があるか 睡眠時間(sleep)と他の変数との散布図を描こう. 体重 (body) , 脳の重さ (brain) , 最高寿命 (life), 妊娠期間(gestation), 捕食指標 (predation), 睡眠中危険暴露度 (exposure) 散布図を描く  >plot(life, sleep) データ点の番号を表示する    >identify(life, sleep) データ点の動物名を表示する  >identify(life, sleep, animalname)

変数間の相関を測る指標 相関係数 2つの変数間の線形の相関を測る尺度 (各動物の睡眠時間) (各動物の妊娠期間) 標本平均 相関係数           (各動物の睡眠時間)           (各動物の妊娠期間) 標本平均  相関係数 2つの変数の値が直線上にあり、 一方が大きくなると他方も大きくなるとき、 一方が大きくなると他方は小さくなるとき、

相関係数

睡眠時間データの相関係数 以下のように入力するとmammalsの変数間の相関係数が計算される >cor(mammals)       sleep body brain life gestation predation exposure sleep 1.0000 -0.31655 -0.368270 -0.3966 -0.6290 -0.461046 -0.6686 body -0.3165 1.00000 0.933957 0.3005 0.6897 0.046309 0.3504 brain -0.3683 0.93396 1.000000 0.5106 0.7846 0.009188 0.3717 life -0.3966 0.30053 0.510562 1.0000 0.6377 -0.132247 0.3580 gestation -0.6290 0.68971 0.784584 0.6377 1.0000 0.139496 0.6252 predation -0.4610 0.04631 0.009188 -0.1322 0.1395 1.000000 0.6258 exposure -0.6686 0.35040 0.371724 0.3580 0.6252 0.625819 1.0000 睡眠時間と最も線形相関が強いのはどの変数? 線形相関が最も強いのはどの変数間? 線形相関が 0 に最も近いのはどの変数間?

以下のように入力すると全変数の散布図が描かれる > pairs(mammals)

相関係数は小さいけれど、体重が重いほど睡眠時間が 短いという傾向はありそう

変数の変換 睡眠時間と体重の 相関係数 = -0.317 睡眠時間と脳の重さの相関係数 = -0.368 適当な単調関数を選んでより 睡眠時間と体重の 相関係数 = -0.317 睡眠時間と脳の重さの相関係数  = -0.368 適当な単調関数を選んでより 強い線形相関を持つように変換 できる 体重、脳の重さを対数関数で変換すると 睡眠時間と線形な相関を持つようになる 睡眠時間と log10(体重)の相関係数  = -0.611 睡眠時間と log10(脳の重さ)の相関係数  = -0.618

睡眠時間を予測するモデル 被説明変数 (睡眠時間) 説明変数 (最高寿命、妊娠期間など) 例えば 回帰係数 をどのように推定するか? 被説明変数          (睡眠時間) 説明変数         (最高寿命、妊娠期間など) 例えば 回帰係数 をどのように推定するか? どの変数をモデルに含めるか?

道路距離と直線距離 道路距離 を直線距離 の関数で表すと? 道路距離と直線 距離の関係は 定数 1単位は25000分1の地図の1cm       道路距離と直線距離 道路距離 を直線距離 の関数で表すと? 道路距離と直線 距離の関係は    定数 The straight line distance is measured with a ruler (the crow flies distance) and the shortest distance by road is also measured on the map (the car distance). The units were measured in cm on a 1:25000 map. i.e. the unit was a quarter of 1km. 1単位は25000分1の地図の1cm つまり距離は1単位=250m Gilchrist (1984) Statistical modeling

係数  の推定 できるだけ誤差 を小さくしたい。 個々の誤差を全体で どのように評価するか? 誤差2乗和   が最小になるような直線を求める

最小2乗法:誤差2乗和の最小化 誤差2乗和を b の関数として見る  ここで また   である.  問題:   を最小にする  を求めよう

線形回帰モデル 被説明変数 : 睡眠時間 sleep 説明変数 の候補 lbody, lbrain life, gestation 説明変数       の候補 lbody, lbrain    life, gestation predation, exposure なお lbody は log10(body), lbrain は log10(brain)

Rによる回帰モデルのあてはめ 例:sleep を life と lbody で説明するモデルをあてはめる > aa = lm(sleep~lbody+gestation) > summary(aa) Call: lm(formula = sleep ~ lbody + gestation) --- Coefficients:  Estimate Std. Error t value Pr(>|t|) (Intercept) 12.802953 0.773434 16.553 <2e-16 *** lbody -0.461771 0.255113 -1.810 0.0767 . gestation -0.012820 0.005636 -2.275 0.0275 * Residual standard error: 3.628 on 47 degrees of freedom Multiple R-squared: 0.435, Adjusted R-squared: 0.411 F-statistic: 18.1 on 2 and 47 DF, p-value: 1.488e-06

Rによる回帰モデルのあてはめ 例:sleep を life と lbody で説明するモデルをあてはめる > aa = lm(sleep~lbody+gestation) > summary(aa) Call: lm(formula = sleep ~ lbody + gestation) --- Coefficients:  Estimate Std. Error t value Pr(>|t|) (Intercept) 12.802953 0.773434 16.553 <2e-16 *** lbody -0.461771 0.255113 -1.810 0.0767 . gestation -0.012820 0.005636 -2.275 0.0275 * Residual standard error: 3.628 on 47 degrees of freedom Multiple R-squared: 0.435, Adjusted R-squared: 0.411 F-statistic: 18.1 on 2 and 47 DF, p-value: 1.488e-06 係数推定値: 推定されたモデル       sleep = 12.8 – 0.46 lbody – 0.013 gestation + e 誤差 e の標準偏差の推定値 決定係数

モデルの評価基準 推定値: 残差 : Multiple R-squared(決定係数) 回帰モデルによって説明される分散の割合 残差 : Multiple R-squared(決定係数) 回帰モデルによって説明される分散の割合 Adjusted R-squared 説明変数の数の違いを調整した決定係数

睡眠時間を説明するモデルを探そう (Adjusted R-squared)に基づいて睡眠時間をより良く予測するモデルを探そう. 今回は以下の手順でモデルを探す. lbody, lbrain の1つだけを説明変数とするモデルのどちらかを選ぶ 1.で選択した変数に life, gestation のどちらかを加えたモデルのどちらかを選ぶ 2.で選択した変数に predation, exposureの1つ、あるいは、両方加えたモデルから最も良いモデルを選ぶ

モデルの選択:ステップ1 lbody, lbrain の1つだけを説明変数とするモデルのどちらかを選ぶ ⇒ lbrain を選択する > a1 = lm(sleep~lbody) > summary(a1) ------ Multiple R-squared: 0.3728, Adjusted R-squared: 0.3598 > a2 = lm(sleep~lbrain) > summary(a2) Multiple R-squared: 0.3819, Adjusted R-squared: 0.369 ⇒ lbrain を選択する

モデルの選択:ステップ2 1.で選択した lbrain に life, gestation のどちらかを加えたモデルのどちらかを選ぶ > b1 = lm(sleep~lbrain+life) > summary(b1) ------ Multiple R-squared: 0.3875, Adjusted R-squared: 0.3614 ------ > b2 = lm(sleep~lbrain+gestation) > summary(b2) Multiple R-squared: 0.4384, Adjusted R-squared: 0.4145 ⇒ lbrain を選択する

モデルの選択:ステップ3 2.で選択した lbrain と gestation に predation, exposureの1つ、あるいは、両方加えたモデルから最も良いモデルを選ぶ > c1 = lm(sleep~lbrain+gestation+predation) > c2 = lm(sleep~lbrain+gestation+exposure) > c3 = lm(sleep~lbrain+gestation+predation+exposure)

当てはめた結果を図に描く 当てはめ結果を ff に保存したとき 睡眠時間の推定値と観測値の散布図を描く 推定値と誤差の散布図を描く > plot(ff$fitted, sleep) > plot(ff$fitted, sleep, xlab=‘睡眠時間 推定値’, ylab=‘睡眠時間 観測’,  col=3,pch=16) abline(0,1, lwd=2) 推定値と誤差の散布図を描く > plot(ff$fitted, ff$resid, xlab=‘睡眠時間 推定値’, ylab=‘睡眠時間 誤差', col=4,pch=15) > abline(h=0, lwd=2)

選択したモデルの当てはめ結果 睡眠時間 = 17.724― 1.763×log10(脳の重さ) -0.0083 ×妊娠期間 -1.310×捕食度 誤差の標準偏差推定値  3.068   

ガラゴの睡眠時間を予測しよう ガラゴの情報: 体重(body) 0.2 kg 捕食指標 2  脳の重さ(brain)   5 g 睡眠中の危険暴露度 2 最高寿命   10.4年 危険度 2  妊娠期間 120日 ガラゴの情報はデータフレーム Galago に入っている モデルの当てはめ結果を ff とすると   > predict (ff, newdata=Galago)  とするとこのモデルでの予測値が表示される   ガラゴの睡眠時間予測値 =  誤差の標準誤差の推定値 =  3.068

ガラゴの睡眠時間は? ガラゴの睡眠時間 10.7 時間 統計学は、 データから情報を引き出すための方法の科学です.      10.7 時間 統計学は、 データから情報を引き出すための方法の科学です. 学際的な学問で、医学、経済学、生物学、環境科学などあらゆる分野で応用されています.