質的データの分析手法 ---プロビットモデル・ロジットモデルの概要---

Slides:



Advertisements
Similar presentations
1 小暮研究会2 第1章ベイジアンアルゴリズ ム 2値選択 ベルヌーイ試行 尤度原理 同一性 交換可能性 尤度についてのまとめ 環境情報学部3年 渡邊洋一.
Advertisements

『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
2016 年度 計量経済学 講義内容 担当者: 河田 正樹
スタートアップゼミ 社会基盤交通研 B4 佐津川功季. 多項プロビットモデル  ロジットモデルの弱点である 、 誤差項の独立性という仮定に 対して 、 多変量正規分布を用いて選択肢間の相関を表現した モデル 。 効用関数 において確率項ベクトル において、平均値をそれぞれ 0 、共分散行列を Ω(J×J.
潜在クラス分析入門 山口和範. 内容 条件付独立 シンプソンのパラドックス 対数線形モデルにおける表現 局所独立 潜在変数モデル Lem 入門.
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
エクセルと SPSS による データ分析の方法 社会調査法・実習 資料. 仮説の分析に使う代表的なモデ ル 1 クロス表 2 t検定(平均値の差の検定) 3 相関係数.
グラフィカル多変量解析 ----目で見る共分散構造分析----
データ分析入門(12) 第12章 単回帰分析 廣野元久.
寺尾 敦 青山学院大学社会情報学部 社会統計 第13回 重回帰分析(第11章後半) 寺尾 敦 青山学院大学社会情報学部
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
時系列の予測 時系列:観測値を時刻の順に並べたものの集合
  個人投資家向け株式分析   と予測システム A1グループ  劉 チュン.
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
補章 時系列モデル入門 ー 計量経済学 ー.
収量を推測する -Excel- 2011年6月24日 理学部3回 青木陽輔.
重回帰分析入門 経済データ解析 2009年度.
実証分析の手順 経済データ解析 2011年度.
得点と打率・長打率・出塁率らの関係 政治経済学部経済学科 ●年●組 ●● ●●.
Bassモデルにおける 最尤法を用いたパラメータ推定
重回帰分析入門 経済データ解析 2011年度.
疫学概論 母集団と標本集団 Lesson 10. 標本抽出 §A. 母集団と標本集団 S.Harano,MD,PhD,MPH.
因子分析や3相因子分析による分析の問題点を整理する 狩野裕+原田章(行動工学講座)
回帰分析.
ベイズ的ロジスティックモデル に関する研究
寺尾 敦 青山学院大学社会情報学部 社会統計 第12回 重回帰分析(第11章前半) 寺尾 敦 青山学院大学社会情報学部
第6章 数量化I類.
第3章 重回帰分析 ー 計量経済学 ー.
第3章 重回帰分析 ー 計量経済学 ー.
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
第5章 回帰分析入門 統計学 2006年度.
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
最尤推定によるロジスティック回帰 対数尤度関数の最大化.
12月4日 伊藤 早紀 重回帰分析.
回帰分析/多変量分析 1月18日.
ベイジアンネットワーク概説 第3章 ベイジアンネットワークモデルの      数学的基礎 3.5 情報量基準を用いた構造学習 岩崎唯史.
【小暮研究会2】 「ベイズのアルゴリズム」:序章 【1,2:計量経済分析と統計分析】 【 3:ベイズ定理】
analysis of survey data 第3回 香川大学経済学部 堀 啓造
補章 時系列モデル入門 ー 計量経済学 ー.
スペクトル・時系列データの前処理方法 ~平滑化 (スムージング) と微分~
ガウス過程による回帰 Gaussian Process Regression GPR
相関分析.
データ解析 静岡大学工学部 安藤和敏
市場規模の予測.
Fuzzy c-Means法による クラスター分析に関する研究
 統計学講義 第11回     相関係数、回帰直線    決定係数.
第9章 混合モデルとEM 修士2年 北川直樹.
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
標本分散の標本分布 標本分散の統計量   の定義    の性質 分布表の使い方    分布の信頼区間 
市場規模の予測.
部分的最小二乗回帰 Partial Least Squares Regression PLS
分散分析、判別分析、因子分析.
第3章補足2 多変量データの記述 統計学基礎 2010年度.
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
第3章 線形回帰モデル 修士1年 山田 孝太郎.
情報経済システム論:第13回 担当教員 黒田敏史 2019/5/7 情報経済システム論.
経営学研究科 M1年 学籍番号 speedster
データ解析 静岡大学工学部 安藤和敏
サポートベクターマシン Support Vector Machine SVM
回帰分析(Regression Analysis)
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
データ解析 静岡大学工学部 安藤和敏
相関分析 2次元データと散布図 共分散 相関係数.
重回帰分析入門 経済データ解析 2008年度.
重回帰分析入門 (第5章補足) 統計学 2007年度.
回帰分析入門 経済データ解析 2011年度.
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

質的データの分析手法 ---プロビットモデル・ロジットモデルの概要--- 立教大学 経営学部   山口和範

内容 2値型の目的変数の分析 判別分析 ロジステック回帰モデル 多群の判別 ロジットモデル プロビットモデル

目的変数 「予測」をしたい変数 「従属変数」ともいう 「結果」としてとらえる変数 要因から影響されている変数 「予測」をしたい変数  「従属変数」ともいう 「結果」としてとらえる変数 要因から影響されている変数 「目的変数」に影響を与える変数を 「説明変数」とか「独立変数」とよぶ

データ形式 回帰分析と同じデータ形式: 1つの目的変数 複数の説明変数 目的変数 説明変数

(線形)判別分析とは 目的 出力とその検討事項 関連手法・類似手法 ■説明変数から得られる情報を基に各観測個体がどのグループに属するかを予測(判別)する ■グループの判別に役に立つ変数がどれかを知る 注意:回帰分析のときと同様に要因分析としての使用については、十分な検討が必要。 出力とその検討事項 ■ 説明変数についての係数  線形判別を行うスコアを算出する際に各変数に与えられる重み  他の変数の値が一定であるとして、その変数の値の大小が所属グループの違い   に与える影響を知ることができる ■ 誤判別率  作成した判別ルールでまちがって判別してしまう割合。  あくまで、判別ルールを作成したデータでの誤判別率であることに注意。 ■ 事後確率  各個体がどのグループに属するかを示す指標。確率的な取り扱いが可能。 関連手法・類似手法 ■ 回帰分析 ■ ロジステック回帰分析 ■ 決定木 ■ ニューラルネットワーク

判別分析の仕組み(説明変数が1つの場合) 2つのグループを分けるように 説明変数のある値で区切る x 境界 グループと考える 2つのグループを分けるように 説明変数のある値で区切る 事後確率の算出方法(ベイズの定理) Pr(X|●) Pr(●|X)= Pr(X|●)+Pr(X|▲) 分布の仮定として正規分布を用いている。正規分布の仮定が気になるようであれば ロジスティック回帰分析を用いる方がよい(さほど大差はないと思うが...)。

2群の散布図

線形判別分析の仕組み(説明変数が2つ) 2つのグループを分けるように 説明変数の平面(変数が2つなので)をある直線で区切る 事後確率の算出方法 多変量正規分布を仮定して、事後確率を算出する。 注意:ダミー変数を用いているような場合には、正規分布の仮定は適切でないので、ロジスティック回帰分析が用いられることが多い 説明変数の数が多い場合でも原理は同じ。説明変数が構成する空間を(超)平面で区切るだけである

線形判別関数 係数は観測されている2群のデータを 最もよく判別するように決める 「最もよく判別する」の意味 平方和でいえば、 群間平方和を大きく 群内平方和を小さく

3つの平方和(回帰の場合) 総平方和 回帰による平方和 残差平方和

3つの平方和(回帰の場合) 総平方和    ・・・ Yの変動(モデルなし) 回帰による平方和 残差平方和   ・・・ モデルをあてはめた                後の変動

3つの平方和(判別の場合) 総平方和 群間平方和 群内平方和

3つの平方和(判別の場合) 第 k 群のi番目のZ 総平方和 群間平方和 群内平方和 全体での平均 第 k 群の個体数 第 k 群の平均

3つの平方和の関係 回帰の場合 判別の場合 相関比(回帰分析の決定係数と同じようなもの) 総平方和=回帰による平方和 + 残差平方和 総平方和=回帰による平方和 + 残差平方和 判別の場合 総平方和 =群間平方和 + 群内平方和  相関比(回帰分析の決定係数と同じようなもの) この値が1に近いほど、よりはっきりと分かれていることを示す

線形判別 Z

境界の設定 2群の平均値の中間点 誤判別の個数を最小にする点 事前確率の導入(各群の大きさを考慮)

誤判別率の解釈 あくまで現データにおける誤判別の割合 実際の判別における誤判別率ではない もっと悪いであろう       もっと悪いであろう 実際の誤判別率を推定するためには、   別の標本を用意する

線形判別における前提 2群の共分散行列が同じである 散らばりの大きさや相関が2群でおなじ 正規分布

共分散行列が異質の場合 線形判別関数は適切でない 2次判別関数を利用 共分散を考慮した中心(平均)からの距離が近い群に判別する マハラノビス距離

2変量正規分布の等高線

マハラノビス距離 同じ等高線上では同じ距離    確率の意味での距離

線形判別の意味

2次判別の意味

ロジスティック回帰分析 目的は判別分析とほぼ同じ 正応答確率などを積極的に推定したい場合などに便利(確率の算出において、説明変数の分布の仮定が不必要) 正応答確率の対数オッズ比に対する線形モデル

ロジスティック回帰分析 回帰係数の推定には、最尤推定法(MLE)が用いられる

確率から対数オッズへ 名称 記号 範囲 確率 p [0 , 1] オッズ p/(1-p) [0 , ∞] (オッズ比) 対数オッズ log{p/(1-p)} [-∞ , ∞]

オッズとは? Odds 例:イギリスのBookmaker Japan to win 2006 World Cup : 150 to 1  :雨が降るか? even ( 1 to 1 ) [五分五分]

ロジスティック回帰分析 モデルの適合度の比較 回帰係数の検定やチェック 尤度比検定 Wald 検定 ( t 検定と同じようなもの) 漸近的な性質を利用 オッズ比に直して解釈することもある(exp(b))

分析の前に 回帰分析の前には散布図などで、連関の様子を見た 判別分析やロジスティック回帰分析の場合は、層別グラフによるチェックが有効! グループ別の分布をチェックしておこう

多グループの判別 正準判別分析(正準相関分析) 目的変数が複数ある回帰分析 多項ロジット(プロビット)モデル

ブランド選択モデル:効用最大化原理 C 個の選択肢 Uc :ブランド c の効用 X :選択されるブランド

ブランド選択モデル の下で、Pr ( X = c) をモデル化したい    顕在変数 潜在変数      X U

効用のモデル Vc だけで選択が確定するのではない 確率変数ecの分布により確率 Pr(X = c) が決まる 確定的な 部分 確率的な

プロビットモデル ecの分布に正規分布を仮定 C=2の場合 V1-V2

一般の場合の確率の計算 C 個のブランドの中からブランド j が選ばれる C-1個の確率変数について Zc>0となる確率を求める (Orthant Probability)

プロビットモデル 潜在変数(効用)の分布として、正規分布を仮定 推定のための計算が面倒(多重積分の計算が含まれる) C-1次の多重積分

ロジットモデル ecの分布に標準Gumbel分布を仮定 標準Gumbel分布 確率密度関数:

C=2だと、 対数オッズ比 ロジスティック回帰モデルと同じモデル

ロジットモデル 共変量 Z

分析事例(古川他(2003)より引用) 6種類のオレンジジュース 説明変数 地域ブランド シトラス・ヒルズ ミニッツ・メイド プライベートブランド トロピカーナ・レギュラー トロピカーナ・プレミアム 説明変数 ブランドロイヤルティ、新聞広告、 通常価格、値引き

分析モデルと推定結果 時点tでの、消費者nのブランドjに対する効用 ブランド力

モデルの評価、説明変数の選択 回帰モデルとほぼ同じ 決定係数 調整済み決定係数 AICなどの情報量規準 判別分析とみなしての誤判別率