データ分析入門(12) 第12章 単回帰分析 廣野元久
本章の概要 2つの量的データのばらつき方に直線的な傾向が見とめられる場合には,その傾向線(回帰直線)を, データから求めよう 回帰直線が計算できれば,その関係を利用して,因果関係の検証や将来の予測を行ってみよう JMP INを使って散布図に回帰直線を描画する方法や,その解釈を理解する 第12章 単回帰分析 廣野元久 高橋行雄
1.回帰分析 1.1 回帰分析とは 1.2 単回帰分析と重回帰分析 1.3 回帰係数の求め方 1.4 決定係数 1.5 回帰係数の有意性の検定 1.6 回帰分析の利用法 第12章 単回帰分析 廣野元久 高橋行雄
1.1回帰分析とは(1) 回帰分析とは 因果を持つ2つの量的データの直線的関係を表す,直線の方程式を求めること 町の人口とごみ排出量 一人当りのごみ排出量がほぼ同じなら,人口が増えれば,それだけごみ排出量は増えるであろう. この関係を式(直線)で表せれば, 将来の町の人口が分かれば,町のごみ排出量が 直ちに,推定され,市政に役立つであろう 第12章 単回帰分析 廣野元久 高橋行雄
1.1回帰分析とは(2) 原因に左右されて 回帰直線 結果として,ばらつく変量 被説明 変量 原因となる 変量 or 従属 説明変量 or 独立変量 X 第12章 単回帰分析 廣野元久 高橋行雄
1.1回帰分析とは(3) 第12章 単回帰分析 廣野元久 高橋行雄
1.2 単回帰分析と重回帰分析(1) 単回帰分析 単回帰式 ε 残差 ごみ排出量 人口 結果 Y 定数項 原因 X 誤差項 回帰係数 傾き 第12章 単回帰分析 廣野元久 高橋行雄
1.2 単回帰分析と重回帰分析(2) 重回帰分析 (原因がたくさんあるという意味) 結果;ごみ排出量 原因;人口 商店の数 リサイクルの取組み 事業所数 etc…. ε 残差 結果 Y 原因1 X1 原因2 X2 原因p Xp 第12章 単回帰分析 廣野元久 高橋行雄
1.3 回帰係数の求め方(1) 最小2乗法のイメージ 第12章 単回帰分析 廣野元久 高橋行雄
1.3 回帰係数の求め方(2) 回帰直線はめのこで引いてはいけない 第12章 単回帰分析 廣野元久 高橋行雄
1.4 決定係数(1) 従属変数Yの平方和Sは,回帰で説明できる部分と,回帰では説明できない部分に分解できる. 1.4 決定係数(1) 従属変数Yの平方和Sは,回帰で説明できる部分と,回帰では説明できない部分に分解できる. 決定係数は,従属変数Yの平方和のうち,回帰で説明できる平方和の割合を示すもの 第12章 単回帰分析 廣野元久 高橋行雄
1.4 決定係数(2) 第12章 単回帰分析 廣野元久 高橋行雄
1.5 回帰係数の有意性の検定 傾きbの検定 帰無仮説Ho:回帰直線の傾きは0である b=0 (説明変量xに,従属変数yを説明する力はない xとyは無関係) 対立仮説H1:回帰直線の傾きは0でない b=0 帰無仮説が棄却された:回帰直線はYのばらつきを 説明するのに有効 他の変量を 探索 帰無仮説が棄却できない:回帰直線はYのばらつきを 説明のに有効でない 第12章 単回帰分析 廣野元久 高橋行雄
1.6 回帰分析の利用法 因果の確認 知識経験として,因果が想定される2変量が,実際に因果があるかどうかをデータから判断できる 1.6 回帰分析の利用法 因果の確認 知識経験として,因果が想定される2変量が,実際に因果があるかどうかをデータから判断できる 金属の抵抗値は,周辺の温度に依存する 予測 回帰式が有効なら,それを予測に用いることができる 周辺温度が100℃のときの抵抗値を予測できる 制御 説明変量をある値に固定すると,従属変動のばらつきは 小さくなり,平均値も目的の値に留めることができる 抵抗値が100Ωになるように,周辺温度を50℃に制御 する(工場の製品管理などに使われる) 第12章 単回帰分析 廣野元久 高橋行雄
2 単回帰分析の操作 2.1 単回帰分析の操作 2.2 回帰分析の結果の書き方 2.3 信頼区間曲線の表示 2.4 残差の分析 2 単回帰分析の操作 2.1 単回帰分析の操作 2.2 回帰分析の結果の書き方 2.3 信頼区間曲線の表示 2.4 残差の分析 第12章 単回帰分析 廣野元久 高橋行雄
2.1 単回帰分析の操作(1) 廃棄物処理.jmpをロードする ここをクリック 第12章 単回帰分析 廣野元久 高橋行雄
2.1 単回帰分析の操作(2) 1.人口をクリック 2.Xをクリック 6.ゴミ収集量の 役割が決まる 7.OKボタンを押す 3.人口の 2.1 単回帰分析の操作(2) 1.人口をクリック 2.Xをクリック 6.ゴミ収集量の 役割が決まる 7.OKボタンを押す 3.人口の 役割が決まる 4.ゴミ収集量をクリック 5.Yをクリック 第12章 単回帰分析 廣野元久 高橋行雄
2.1 単回帰分析の操作(3) 1.人口とゴミ収集量の 散布図が表示される 2.ここをクリックする 3.直線のあてはめをクリックする 2.1 単回帰分析の操作(3) 1.人口とゴミ収集量の 散布図が表示される 2.ここをクリックする 3.直線のあてはめをクリックする 4.回帰直線 が表示 される 第12章 単回帰分析 廣野元久 高橋行雄
2.1 単回帰分析の操作(4) 回帰式 人口1人増加すると 決定係数R2 標準誤差 回帰で説明できない 回帰係数の検定結果 回帰係数 2.1 単回帰分析の操作(4) 回帰式 人口1人増加すると ごみは0.29988t増加する 決定係数R2 標準誤差 回帰で説明できない 残差の標準偏差 回帰係数の検定結果 切片 :定数項 人口:傾き 傾きのp値が<.0001と 非常に小さいので高度に有意 回帰直線は意味がある 回帰係数 第12章 単回帰分析 廣野元久 高橋行雄
2.2 回帰分析の結果の書き方 書き落としてはいけないこと 回帰式 回帰係数のt値(あるいは,標準誤差) 決定係数 標準誤差 第12章 単回帰分析 廣野元久 高橋行雄
2.3 信頼区間曲線の表示(1) 1.直線のあてはめの▼マークをクリック 2.回帰の信頼区間をクリック 3.95%の信頼区間 2.3 信頼区間曲線の表示(1) 1.直線のあてはめの▼マークをクリック 2.回帰の信頼区間をクリック 3.95%の信頼区間 曲線が表示される 第12章 単回帰分析 廣野元久 高橋行雄
2.3 信頼区間曲線の表示(2) 1.ここをクリック 2.平均のあてはめをクリック 3.Yの標本平均が表示される 標本平均の線の全域が 2.3 信頼区間曲線の表示(2) 1.ここをクリック 2.平均のあてはめをクリック 3.Yの標本平均が表示される 標本平均の線の全域が 信頼区間曲線内に含ま れるとき 回帰の傾きは 有意ではない 第12章 単回帰分析 廣野元久 高橋行雄
2.4 残差の分析(1) 目的 回帰モデル(回帰直線)がデータによく当てはまっているかどうかのチェックを行う 1.ここをクリック 2.4 残差の分析(1) 目的 回帰モデル(回帰直線)がデータによく当てはまっているかどうかのチェックを行う 1.ここをクリック 2.残差プロットをクリック 3.残差プロットが表示される ラベルで 外れ値を 表示 良いモデルは 残差のプロットはランダムである 第12章 単回帰分析 廣野元久 高橋行雄
2.4 残差の分析(2) 外れ値の特徴を調べる データの背後にある知識を活用して,外れ値の 特徴を調べる この例では ホテルや 観光地 2.4 残差の分析(2) 外れ値の特徴を調べる データの背後にある知識を活用して,外れ値の 特徴を調べる この例では 厚木,大和,小田原,鎌倉 ホテルや 歓楽街 観光地 観光客などが多い ごみを出す人口に カウントされていない 第12章 単回帰分析 廣野元久 高橋行雄
2.4 残差の分析(3) 不等分散 系列相関 時系列データの場合には,残差に波状の系列相関が現れることがある 2.4 残差の分析(3) 系列相関 時系列データの場合には,残差に波状の系列相関が現れることがある 自己相関モデルを追加するなどの特殊なテクニックが必要 不等分散 残差が説明変量の値に従い大きくなる 対数変換や2次項の追加などの変数変換が必要 第12章 単回帰分析 廣野元久 高橋行雄