Rを使用したデータ解析・グラフ描き.

Slides:



Advertisements
Similar presentations
1標本のt検定 3 年 地理生態学研究室 脇海道 卓. t検定とは ・帰無仮説が正しいと仮定した場合に、統 計量が t 分布に従うことを利用する統計学的 検定法の総称である。
Advertisements

生物統計学・第 5 回 比べる準備をする 標準偏差、標準誤差、標準化 2013 年 11 月 7 日 生命環境科学域 応用生命科学 類 尾形 善之.
統計解析第 11 回 第 15 章 有意性検定. 今日学ぶこと 仮説の設定 – 帰無仮説、対立仮説 検定 – 棄却域、有意水準 – 片側検定、両側検定 過誤 – 第 1 種の過誤、第 2 種の過誤、検出力.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
ヒストグラム5品種 松江城 出雲大社 石見銀山 三瓶山 アクアス しかしグラフで比較するのはめんどうなところがある 端的に1つの数字(代表値)で品種の特徴を表したい.
数理統計学 西 山. 推定には手順がある 信頼係数を決める 標準誤差を求める ← 定理8 標準値の何倍の誤差を考慮するか  95 %信頼区間なら、概ね ±2 以内  68 %信頼区間なら、標準誤差以 内 教科書: 151 ~ 156 ペー ジ.
生体情報論演習 - 統計法の実践 第 1 回 京都大学 情報学研究科 杉山麿人.
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
エクセルと SPSS による データ分析の方法 社会調査法・実習 資料. 仮説の分析に使う代表的なモデ ル 1 クロス表 2 t検定(平均値の差の検定) 3 相関係数.
統計的仮説検定の手順と用語の説明 代表的な統計的仮説検定ー標準正規分布を用いた検定、t分布を用いた検定、無相関検定、カイ二乗検定の説明
看護学部 中澤 港 統計学第5回 看護学部 中澤 港
データ分析入門(12) 第12章 単回帰分析 廣野元久.
一般化線形モデル(GLM) generalized linear Models
寺尾 敦 青山学院大学社会情報学部 社会統計 第13回 重回帰分析(第11章後半) 寺尾 敦 青山学院大学社会情報学部
第6回 分散分析(第7章) Analysis of Variance
Rによる回帰分析 高崎経済大学 宮田 庸一.
第1部 一元配置分散分析: 1つの条件による母平均の違いの検定 第2部: 2つの条件の組み合わせによる二元配置分散分析
自己回帰モデルへの橋渡し 高崎経済大学 宮田庸一
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
RコマンダーでANOVA 「理学療法」Vol28(7)のデータ
統計的仮説検定 基本的な考え方 母集団における母数(母平均、母比率)に関する仮説の真偽を、得られた標本統計量を用いて判定すること。
相関係数 植物生態学研究室木村 一也.
得点と打率・長打率・出塁率らの関係 政治経済学部経済学科 ●年●組 ●● ●●.
第4回 (10/16) 授業の学習目標 先輩の卒論の調査に協力する。 2つの定量的変数間の関係を調べる最も簡単な方法は?
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
寺尾 敦 青山学院大学社会情報学部 社会統計 第9回:1要因被験者内デザイン 寺尾 敦 青山学院大学社会情報学部
統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える
統計的仮説検定 治験データから判断する際の過誤 検定結果 真実 仮説Hoを採用 仮説Hoを棄却 第一種の過誤(α) (アワテモノの誤り)
心理統計学 II 第7回 (11/13) 授業の学習目標 相関係数のまとめと具体的な計算例の復習 相関係数の実習.
第6章 2つの平均値を比較する 2つの平均値を比較する方法の説明    独立な2群の平均値差の検定   対応のある2群の平均値差の検定.
Bias2 - Variance - Noise 分解
放射線の計算や測定における統計誤差 「平均の誤差」とその応用(1H) 2項分布、ポアソン分布、ガウス分布(1H) 最小二乗法(1H)
回帰分析.
寺尾 敦 青山学院大学社会情報学部 社会統計 第12回 重回帰分析(第11章前半) 寺尾 敦 青山学院大学社会情報学部
第3章 重回帰分析 ー 計量経済学 ー.
第3章 重回帰分析 ー 計量経済学 ー.
第5章 回帰分析入門 統計学 2006年度.
統計学 11/08(木) 鈴木智也.
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
計測工学 -測定の誤差と精度2- 計測工学 2009年5月17日 Ⅰ限目.
母集団と標本調査の関係 母集団 標本抽出 標本 推定 標本調査   (誤差あり)査 全数調査   (誤差なし)査.
土木計画学 第6回(11月9日) 調査データの統計処理と分析4 担当:榊原 弘之.
繰り返しのない二元配置の例 ヤギに与えると成長がよくなる4種類の薬(A~D,対照区)とふだんの餌の組み合わせ
相関分析.
データ解析 静岡大学工学部 安藤和敏
慶應義塾大学 理工学部 数理科学科 南 美穂子 データから情報を引き出そう 慶應義塾大学 理工学部 数理科学科 南 美穂子
 統計学講義 第11回     相関係数、回帰直線    決定係数.
4章までのまとめ ー 計量経済学 ー.
一般化線型モデル generalized linear model; GLM
第8回授業(5/29日)の学習目標 検定と推定は、1つの関係式の見方の違いであることを学ぶ。 第3章のWEB宿題の説明
最小自乗法.
統計学 西 山.
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
部分的最小二乗回帰 Partial Least Squares Regression PLS
RでのScheffeの多重比較.
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
第3章 線形回帰モデル 修士1年 山田 孝太郎.
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
統計ソフトウエアRの基礎.
クロス表とχ2検定.
母集団と標本抽出の関係 母集団 標本 母平均μ サイズn 母分散σ2 平均m 母標準偏差σ 分散s2 母比率p 標準偏差s : 比率p :
回帰分析(Regression Analysis)
RでのScheffeの多重比較.
データ解析 静岡大学工学部 安藤和敏
小標本に関する平均の推定と検定 標本が小さい場合,標本分散から母分散を推定するときの不確実さを加味したt分布を用いて,推定や検定を行う
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
プログラミング論 相関
重回帰分析入門 (第5章補足) 統計学 2007年度.
回帰分析入門 経済データ解析 2011年度.
Presentation transcript:

Rを使用したデータ解析・グラフ描き

データの特徴を大まかにつかむ (記述統計) mean(x$diameter) 平均値μ sd(x$diameter) 不偏標準偏差σy:データのばらつきを表す値 データが正規分布している場合、前データの約68%が区間[μ-σy, μ+σy]の中に入っている。 (出典:http://www.cap.or.jp/~toukei/kandokoro/html/14/14_2migi.htm)

データの特徴を大まかにつかむ (頻度分布・箱ひげ図) hist( x$diameter ) ヒストグラムを描く。 boxplot( x$diameter ) 箱ひげ図(box plot)を描く。 (出典: R-tips)

グラフを仕上げる 箱ひげ図のy軸にタイトルを入れる。 スクリプトエディターからRを実行する。 「ファイル」→「新しいスクリプト」 軸タイトルのない図 → ダメ スクリプトエディターからRを実行する。 Rの命令を保存し、後から再現・再利用できるようにする。 「ファイル」→「新しいスクリプト」 以下のコマンドを書き、選択し、「…Rコードを実行」  boxplot( x$diameter, ylab = "幹直径 (cm)" )

データの平均値をもう少し詳しく 300個のデータから計算した平均値は、3個のデータから計算した平均値より信頼がおけそうだ。 →平均値のばらつき(標準偏差)を計算する。 標準誤差(σf):平均値の標準偏差 sd(x$diameter) / sqrt( length(x$diameter ) )

二つの量の間の関係 樹木の幹の直径と樹高との関係は? 直径が大きいとき樹高も高く、直径が小さいとき樹高も低いという関係がありそうだ! →グラフに描いてみる 直径が大きいとき樹高も高く、直径が小さいとき樹高も低いという関係がありそうだ! 両者の関係を簡単な式で要約する。 直径が特定の値であるとき、樹高の期待値は? 回帰直線を引く。データ点に最も「近い」直線を引く。 回帰分析をして、それを図示する(回帰直線を引く)。

前ページを実行するRコード plot( x$diameter, x$height, xlab = "胸高直径(cm)", ylab = "樹高(m)") xlab, ylabで軸のタイトルを指定する。 result <- lm(height ~ diameter, data = x) lm()は線形モデルをあてはめる関数。ここでは、回帰分析を実行し、結果をresultに収める。 height ~ diameter:heightをdiameterで回帰する。heightは応答変数、diameterは説明変数。 data = x:データフレームを指定する。データフレームを指定しておけば、"diameter"の前に"x$"は必要ない。 summary( result ) resultに格納された結果をコンパクトに表示する。

回帰とは? (単回帰の場合) y = a + bx 応答変数yを説明変数xの一次関数で説明する。 グラフ上で、直線関係をあてはめる。 最小自乗法で一次関数のパラメータ(切片と傾き)を求める。 y = a + bx + cx2 y = a + bx1 + cx2 などを仮定する回帰もある。

最小自乗法 (least square method) Yi: 一次式によるyiの予測値 y の場合 (xi, yi) (xi, Yi) を満たすa, bは x ●はデータ。最小自乗法で回帰直線を決める。■は個々のxに対応したyの予測値。予測値は線上にある。 : 最小自乗法によって決められたa, b : x, yの平均

回帰分析の結果(回帰線)の図示 xForLine <- seq( from = 3, to = 8, length = 10 ) yForLine <- coef(result)[ 1 ] + coef(result)[ 2 ] * xForLine 回帰線を描くためのyの値を作る coef(result)[1]: 回帰線の切片 coef(result)[2]: 回帰線の傾き lines( xForLine, yForLine ) 最後に描いたグラフに線を 描き加える

summaryの中身 Coefficients: Estimate Std. Error t value Pr(>|t|) 直線の切片、直径にかかる係数 左の数字の標準誤差 左の数字=0という帰無仮説を検定した結果:p値 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.01515 1.19657 0.013 0.99021 diameter 1.01515 0.20521 4.947 0.00113 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.054 on 8 degrees of freedom Multiple R-squared: 0.7536, Adjusted R-squared: 0.7228 F-statistic: 24.47 on 1 and 8 DF, p-value: 0.001125 R2=Rじじょう=決定係数 Coefficients: 係数 Std. Error: 標準誤差 Intercept: 切片 Estimate: 推定値 モデル全体のp値 このモデルは有意水準1%で有意である。

決定係数(R2)とは? 決定係数は次の式で与えられる統計量でモデルの当てはまりの良さを表す。 単回帰、重回帰、分散分析、共分散分析など応答変数が正規分布に従うと仮定するモデルで使用する 従属変数の分散の中でモデルによって説明される割合を説明する。 応答変数yの数値の散らばり(分散) =モデルによって説明される分散+モデルによって説明されない分散 モデルによって説明されない分散=残差平方和 0〜1の値をとり、0で説明力なし、1で誤差のない説明(予測)を意味する Yi:モデルによるyiの予測値

決定係数(R2)とは? y yの平均値 x 点線の長さの自乗の和=応答変数yの数値の散らばり

決定係数(R2)とは? ●のyの値:応答変数の実測値 ■のyの値:予測値(実測値と同じxの値に対応する直線上の点のyの値) (xi, Yi) (xi, yi) ●のyの値:応答変数の実測値 ■のyの値:予測値(実測値と同じxの値に対応する直線上の点のyの値) 点線の長さ:予測値と実測値のずれ(残差) データ全体のずれ:点線の長さの自乗の和(残差平方和) 「真ん中を通るように」:残差平方和を最小にするようにa, bを選ぶ=最小自乗法 R2=1-(残差平方/データ全体のばらつき)

決定係数(R2)とは? R2: 大 R2: 小

説明変数のp-値とは 帰無仮説の下で実際にデータから計算された統計量よりも極端な統計量が観測される確率を、p値(p-value)という y = a + bx y: 応答変数 x: 説明変数 a, b: パラメータ、係数 帰無仮説1: a=0 対立仮説1: a≠0 帰無仮説2: b=0 対立仮説2: b≠0 b=0だとするとyとxは無関係(xが増減しても、yの値に影響を与えない)となる。そのような(y, x)の組み合わせを複数(データ)をとってくると、通常上記左のようなグラフとなる。しかし、yとxが無関係であっても、ごくまれに一見y=a+bxの関係がありそうに見える上記右のようなデータが得られることがある。このようなことが起こる確率をp-値という。これが小さいと、この係数の値は帰無仮説のもとでは起こりにくいことを意味する。起こりにくいことがたまたま起こったと考えるよりは、このデータを起こりにくいと判断する根拠(帰無仮説)が間違っていると考える方が合理的である。したがって、p-値が小さいほど、yとxは関係がありそうだと考えることができる。 y x y x

処理の効果(分散分析) 処理(treatment): 施肥(fertilized)、対照(control) 施肥をすると樹木は大きくなるか? グラフを描いてみる 大きくなりそうだ! →効果を検定してみる

分散分析1 例題の分散分析で知りたいこと 樹木の直径が施肥によって変化するという考えを数式で表すと… 施肥をすると樹木の直径はいくつになり、しないといくつになるか? 施肥をする・しないによって生じる直径の差は偶然生じたとは考えられないほど大きいか(有意差)? 樹木の直径が施肥によって変化するという考えを数式で表すと… y = A A: 処理の効果を示す質的変数 質的変数とは… 処理がcontrolのときは、A1 処理がfertilizedのときは、A2 の値をとる変数

分散分析2 実際にRが使う式は… y = a + A 処理がcontrolのときは、0 a: 切片 A: 処理の効果を示す質的変数 処理がfertilizedのときは、A2 の値をとる変数 A2は、controlを基準とした時のfertilizedの効果 aは前ページのA1と同じ値になる。 なぜ、切片を考えたか? 質的変数が2つ以上になったとき、こうした方が処理しやすい。 なぜ、fertilizedではなく、controlが0とされているのか? アルファベット順に最も早いものが0とされる。

グラフ描画・分散分析を実行するRコード result2 <- lm( diameter ~ treatment, data = x ) plot( x$treatment, x$diameter, xlab = "処理", ylab = "胸高直径(cm)" ) result2 <- lm( diameter ~ treatment, data = x ) summary( result2 ) anova( result2 ) lm( diameter ~ treatment, data = x ) という書き方が回帰分析とほぼ同じであることに注意(説明変数名のみ異なる)。説明変数が量的変数か質的変数かの違いがあるが、回帰分析と分散分析はよく似ている。

summaryの中身 Coefficients: Estimate Std. Error t value Pr(>|t|) 切片、controlを基準とした時のfertilizedの効果 左の数字=0という帰無仮説を検定した結果:p値 左の数字の標準誤差 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 4.8000 0.7071 6.788 0.000139 *** treatmentfertilized 1.6000 1.0000 1.600 0.148266 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.581 on 8 degrees of freedom Multiple R-squared: 0.2424, Adjusted R-squared: 0.1477 F-statistic: 2.56 on 1 and 8 DF, p-value: 0.1483 Coefficients: 係数 Std. Error: 標準誤差 Intercept: 切片 Estimate: 推定値 Rじしょう=R2=決定係数

anovaの中身(分散分析表) Analysis of Variance Table Response: diameter      Df Sum Sq Mean Sq F value Pr(>F) treatment 1 6.4 6.4 2.56 0.1483 Residuals  8 20.0 2.5 施肥処理の効果 F検定量 P値 残差 分散分析表:要因(ここでは、施肥処理)の効果を、F検定するために数値を整理した表。 応答変数のデータの散らばり(分散)が、要因で説明される分散と要因によって説明されない分散(残差分散)に分けられ、後者に対する前者の大きさが判定される。判定にはF分布が用いられる。 この表の結果、施肥処理は有意な効果があるとは言い難いと結論づけられる。

多重比較 3群以上の平均値を比較する。 分散分析による結論 2つずつを取り出し、有意差の検定をする→ダメ →「3群の平均値すべてが同じではない。」または、「3群の平均値すべてが同じ。」 「平均値すべてが同じ」が棄却されても、何と何の間に有意な差があるのかわからない 2つずつを取り出し、有意差の検定をする→ダメ 検定を繰り返すことにより、1回のみ検定を行った場合より第一種過誤率が大きくなってしまう。 →多重比較をする!

多重比較の実行 仮想データの作成 d <- c( rnorm( 10, 1, 0.5 ), rnorm( 10, 2, 0.5 ), rnorm( 10, 2.1, 0.5 ) ) t <- c( rep( "control", 10 ), rep( "nitrogen", 10 ), rep( "light", 10 ) ) xx <- data.frame( diameter = d, treatment = t ) 説明 c():列挙された要素からベクトルを作る関数 rnorm( a, b, c ): 平均値b, 標準偏差cの正規分布からランダムにa個数字をサンプルし、ベクトルを作る関数 rep( a, b ): aをb回繰り返したベクトルを作る関数 data.frame(): ベクトルからデータフレームを作る関数。括弧の中に、「データフレーム中の列名 = ベクトル名」をならべる。 練習1:平均値0.8、標準偏差3の正規分布から数字を1000個ランダムに取り出し、取り出した数字の頻度分布を描く。

多重比較の実行 グラフの作成 plot( xx$treatment, xx$diameter) 練習2:箱ひげ図に縦軸、横軸のタイトルをつけてください。

多重比較の実行 分散分析 result3 <- lm( diameter ~ treatment, data = xx ) summary( result3 ) anova( result3 ) 質問: controlの処理で、樹木の直径は平均でいくらになりますか? controlと比べ、nitrogen, lightの平均値はいくら高いですか? 処理の効果は有意でしたか?

多重比較の実行 TukeyHSD( aov( diameter ~ treatment, data = xx ) ) aov(): 分散分析を実行する関数、内部的にlm()を使用している。 TukeyHSD(): Tukey法を使用した多重比較を実行する関数。

TukeyHSD()の結果 全体で95%の信頼水準が確保されている Tukey multiple comparisons of means 95% family-wise confidence level Fit: aov(formula = diameter ~ treatment, data = xx) $treatment diff lwr upr p adj light-control 1.01601898 0.4482282 1.5838098 0.0003947 nitrogen-control 0.93956774 0.3717769 1.5073586 0.0009529 nitrogen-light -0.07645124 -0.6442420 0.4913396 0.9405481 処理後との平均間の差 処理後との平均間の差の95%信頼区間の下限 処理後との平均間の差の95%信頼区間の上限 この区間に0を含まなければ、差は95%水準で有意

多重比較の結果をグラフに追加する。 plot( xx$treatment, xx$diameter, xlab = "処理", ylab = "直径(cm)" ) mtext( "a", side = 1, line = -13, at = 1.2 ) mtext( "b", side = 1, line = -22, at = 2.2 ) mtext( "b", side = 1, line = -23, at = 3.2 ) グラフに書き入れる文字 文字列を書き込む余白位置を表す番号(1:下,2:左,3:上,4:右) 垂直方向(文字の方向に対して)の文字位置(行数) 水平方向(文字の方向に対して)の文字位置(x軸の値)

練習の答え 練習1 練習2 z <- rnorm( 1000, 0.8, 3 ) hist( z ) あるいは hist( rnorm( 1000, 0.8, 3 ) ) 練習2 plot( xx$treatment, xx$diameter, xlab = "処理", ylab = "直径(cm)" )