Rによる回帰分析 高崎経済大学 宮田 庸一.

Slides:



Advertisements
Similar presentations
計量的手法入門 人材開発コース・ワークショップ (IV) 2000 年 6 月 29 日、 7 月 6 ・ 13 日 奥西 好夫
Advertisements

1 市場調査の手順 1. 問題の設定 2. 調査方法の決定 3. データ収集方法の決定 4. データ収集の実行 5. データ分析と解釈 – データ入力 – データ分析 6. 報告書の作成.
生体情報論演習 - 統計法の実践 第 1 回 京都大学 情報学研究科 杉山麿人.
企業のパネルデータ分析 同志社大学 中尾ゼミ 印刷用. 目的 例①複数年度のデータたとえば, 2001 年から 2004 年で,食品産業の企業で売上高 1000 億 円以上の大企業と 1000 億円未満の企業群の 利潤率のばらつきの原因を比較分析する 例②複数年度のデータで,食品産業の企業で 広告をしている企業を対象に広告が利潤率.
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
MS-EXCEL、 OpenCalcを 用いた表計算
統計的仮説検定の手順と用語の説明 代表的な統計的仮説検定ー標準正規分布を用いた検定、t分布を用いた検定、無相関検定、カイ二乗検定の説明
EXCELで学ぶマーケティング統計 第4章 経営学研究科 M1  真島 健.
データ分析入門(12) 第12章 単回帰分析 廣野元久.
一般化線形モデル(GLM) generalized linear Models
因子分析,共分散構造分析 Factor Analysis Structural Equations Model
第6回 分散分析(第7章) Analysis of Variance
第1部 一元配置分散分析: 1つの条件による母平均の違いの検定 第2部: 2つの条件の組み合わせによる二元配置分散分析
自己回帰モデルへの橋渡し 高崎経済大学 宮田庸一
  個人投資家向け株式分析   と予測システム A1グループ  劉 チュン.
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
重回帰分析入門 経済データ解析 2009年度.
回帰分析 重回帰(1).
日本行動計量学会主催 第4回春の合宿セミナー
実証分析の手順 経済データ解析 2011年度.
得点と打率・長打率・出塁率らの関係 政治経済学部経済学科 ●年●組 ●● ●●.
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
重回帰分析入門 経済データ解析 2011年度.
寺尾 敦 青山学院大学社会情報学部 社会統計 第9回:1要因被験者内デザイン 寺尾 敦 青山学院大学社会情報学部
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
第6章 2つの平均値を比較する 2つの平均値を比較する方法の説明    独立な2群の平均値差の検定   対応のある2群の平均値差の検定.
プロモーションのモデル.
回帰分析.
統計学勉強会 対応のあるt検定 理論生態学研究室 3年 新藤 茜.
寺尾 敦 青山学院大学社会情報学部 社会統計 第12回 重回帰分析(第11章前半) 寺尾 敦 青山学院大学社会情報学部
第6章 数量化I類.
第3章 重回帰分析 ー 計量経済学 ー.
第3章 重回帰分析 ー 計量経済学 ー.
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
第5章 回帰分析入門 統計学 2006年度.
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
頻度論とベイジアンの比較 慶應義塾大学 SFC 小暮研究会 梶田幸作
? ? ? ? ? ? ? ? 多変量解析とは? 問題となっている現象 ●問題の発生原因がわからない(因果関係)
相関分析.
データ解析 静岡大学工学部 安藤和敏
市場規模の予測.
慶應義塾大学 理工学部 数理科学科 南 美穂子 データから情報を引き出そう 慶應義塾大学 理工学部 数理科学科 南 美穂子
4章までのまとめ ー 計量経済学 ー.
P-Valueについて.
一般化線型モデル generalized linear model; GLM
第5回 回帰モデル Regression Analysis
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
データ解析 静岡大学工学部 安藤和敏
標本分散の標本分布 標本分散の統計量   の定義    の性質 分布表の使い方    分布の信頼区間 
数量分析 第2回 データ解析技法とソフトウェア
東京工科大学 コンピュータサイエンス学部 亀田弘之
市場規模の予測.
クラスター分析入門 高崎経済大学 宮田 庸一.
部分的最小二乗回帰 Partial Least Squares Regression PLS
Rを使用したデータ解析・グラフ描き.
RでのScheffeの多重比較.
第3章補足2 多変量データの記述 統計学基礎 2010年度.
早稲田大学大学院商学研究科 2014年12月10日 大塚忠義
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
「パレスチナ社会の民主主義的価値観」 報告のアウトライン はじめに 民主主義的価値観 仮説とデータ 検証1:パレスチナ社会における民主化の
Stepwise (ステップワイズ) 法による 説明変数 (入力変数・記述子・ 特徴量) の選択
RでのScheffeの多重比較.
データ解析 静岡大学工学部 安藤和敏
高低点法・ビジュアルフィット法・最小自乗法
最小二乗法による線形重回帰分析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
重回帰分析入門 経済データ解析 2008年度.
重回帰分析入門 (第5章補足) 統計学 2007年度.
森 裕一(岡山理科大学) 山本義郎(岡山大学自然科学研究科) 渡谷真吾,尾高好政(倉敷芸術科学大学) 垂水共之,田中 豊(岡山大学)
回帰分析入門 経済データ解析 2011年度.
Mathematica Package (BimodalAnalysis.m)
Presentation transcript:

Rによる回帰分析 高崎経済大学 宮田 庸一

Rとは Rとは、統計処理、グラフ作成のために開発された言語 である。 Rはフリーソフト ダウンロードおよびインストールの仕方は

使用するデータ 各店舗の売上高のデータ http://mo161.soci.ous.ac.jp/@d/DoDStat/indexj.htmlより 引用(このページから経済→店舗データといけば見つか る) numpass 通行人 numerical minutes 最寄り駅からの時間 area 店舗面積 parkcar 駐車台数 numwork 従業員数 kinds 品数 sales 売上高

使用するデータ numpass minutes area parkcar numwork kinds sales 716 25 44 16 125 78 2208 30 8 3 132 34 1880 68 18 10 110 145 1416 20 5 70 51 904 67 32 82 98 1850 66 115 1039 15 52 75 2394 1 113 50 258 711 12 102 738 39 65 1322 11 60 23 72 793 97 1733 96 40 190 1569 4 55 28 92 168 1770 6 80 195

データのインポート と入力しEnterを押す Rにデータを取り込むために data01<-read.csv("c:\\Program Files\\R\\jikken.csv",header=T) と入力しEnterを押す numpass minutes area parkcar numwork kinds sales 716 25 44 16 7 125 78 2208 30 8 3 132 34 1880 68 18 10 110 145 1416 20 5 70 51 904 67 32 82 98 1850 66 115 1039 15 52 75

Rによる回帰分析 説明変数 応答変数 res1<- lm(sales~numpass+minutes+area+parkcar+numwork+kin ds,data=data01) 使用するデータの変数名

解析結果を見る summary(res1) F検定におけるp-value この値が0.05より小さいとき,帰無仮説H0は棄却される Call: lm(formula = sales ~ numpass + minutes + area + parkcar + numwork + kinds, data = data1) Residuals: Min 1Q Median 3Q Max -29.0324 -11.1896 0.1114 3.0808 38.7954 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 17.87515 39.47384 0.453 0.6627 numpass 0.02375 0.01455 1.632 0.1413 minutes -2.72584 1.39556 -1.953 0.0866 . area 0.10797 0.83667 0.129 0.9005 parkcar 2.23888 1.23919 1.807 0.1084 numwork 1.60522 3.30274 0.486 0.6400 kinds 0.24413 0.32616 0.749 0.4756 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 23.89 on 8 degrees of freedom Multiple R-squared: 0.9267, Adjusted R-squared: 0.8717 F-statistic: 16.85 on 6 and 8 DF, p-value: 0.0003844 推定値 標準誤差 t-value p-value この値が0.05より小さいとき,帰無仮説H0は棄却される 自由度調整済み決定係数 F検定におけるp-value

AICを求める > AIC(res1) [1] 144.3474 > extractAIC(result) Kや推定量以外の定数は比較するときには使用しないので > extractAIC(result) [1] 7.00000 99.77926

AICによるモデル選択(変数減少法) 全ての説明変数を組み込んだ線形回帰モデルからp- valueの大きな説明変数から削除したモデルを作っていく。 その中で最もAICの小さなモデルを最適なモデルとして採 用する。 【例】 先ほどの回帰分析でp-valueが最も大きな値を取っ ていたのはareaであった。これを削除して再び回帰分析 を行い, AICを求める. >res2<-lm(sales~numpass+minutes+parkcar+numwork+kinds,data=data01) > AIC(res2) [1] 142.3786

出来れば一気にモデル選択したい Rにはstepという関数が用意されている 【例】 step(lm(sales~numpass+minutes+area+parkcar+numwork+kinds,data=data01)) Start: AIC=99.78 sales ~ numpass + minutes + area + parkcar + numwork + kinds Df Sum of Sq RSS AIC - area 1 9.5 4576.8 97.8 - numwork 1 134.9 4702.1 98.2 - kinds 1 319.9 4887.1 98.8 <none> 4567.3 99.8 - numpass 1 1520.9 6088.2 102.1 - parkcar 1 1863.6 6430.8 102.9 - minutes 1 2178.1 6745.3 103.6 Step: AIC=97.81 sales ~ numpass + minutes + parkcar + numwork + kinds ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・延々続く

出来れば一気にモデル選択したい Model extractAIC sales ~ numpass + minutes + area + parkcar + numwork + kinds 99.78 sales ~ numpass + minutes + parkcar + numwork + kinds 97.81 sales ~ numpass + minutes + parkcar + kinds 96.32 sales ~ numpass + minutes + parkcar 95.49 step() 関数には。オプションとして変数増加法(direction="forward"),変数減少法(direction="backward"),変数増減法(direction="both") などがある。 ただしstep() 関数のデフォルトは変数減少法になっているので,変数減少法を行う場合は単にstep()を用いれば良い。

参考文献 http://www.is.titech.ac.jp/~shimo/class/gakubu200409.html (東工大・下平英寿さんの講義「R による多変量解析入 門」の第8 回「モデル選択」の資料 坂元 慶行, 石黒 真木夫, 北川 源四郎. (1983). 情報量統 計学 (情報科学講座 A・5・4)共立出版 これはAICの入門書 小西 貞則, 北川 源四郎. (2004). 情報量規準 (シリーズ・ 予測と発見の科学),朝倉書店 AICを一般化したGAICの創始者による本。最近の研究成 果がわかる。