第14回社会言語科学会大会 ワークショップ(東京大学) ことばのバリエーションをつかまえる: 分析ツールとしての

Slides:



Advertisements
Similar presentations
環境経済論 第 7 回目 ヘドニック・アプローチ. Court (米国自動車工業会 ) による自動車 価格変化の研究、 1939 – 自動車価格とさまざまな特性(馬力、長さな ど)との数量的関係 – 財の諸特性が快楽( hedonic pleasure )を生 み出すと考える – ヘドニック要因で説明される価格(又はその.
Advertisements

1 市場調査の手順 1. 問題の設定 2. 調査方法の決定 3. データ収集方法の決定 4. データ収集の実行 5. データ分析と解釈 – データ入力 – データ分析 6. 報告書の作成.
1 情報基礎 A 第 9 週 プログラミング入門 VBA の基本文法 1 準備・変数・データの入出力 徳山 豪・全 眞嬉 東北大学情報科学研究科 システム情報科学専攻 情報システム評価学分野.
マルチレベル共分散構造分析 清水裕士 大阪大学大学院人間科学研究科日本学術振興会. 本発表の概要・目的 個人 - 集団データの階層性 個人 - 集団データの階層性 階層的データは従来の方法では十分な分析が できない 階層的データは従来の方法では十分な分析が できない 従来の方法は何が不十分なのか?
社会調査データの分析 社会調査・実習. 分析の手順(1) 1 1 入力データの点検 (全部の調査票 に目を通す) 2 2 通し番号の入力。必要ならば回答の コード化。 3 3 入力フォーマットの決定 4 4 データ入力( Excel, エディターなど)
潜在クラス分析入門 山口和範. 内容 条件付独立 シンプソンのパラドックス 対数線形モデルにおける表現 局所独立 潜在変数モデル Lem 入門.
1 / 44 SPSS ハウツー 独立行政法人 大学入試センター 橋本 貴充 2007 年 3 月 30 日 ( 金 )
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
1 調査データ分析 2003/5/27 第6回 堀 啓造(香川大学経済学部). 2 課題 (1) 解答 (1) Pearson のカイ2乗= 自由度= 1 漸近有意確率= 男女とコーヒー・紅茶の好み において連関がない( χ 2 (1)=0.084,p>0.05 )。 または.
エクセルと SPSS による データ分析の方法 社会調査法・実習 資料. 仮説の分析に使う代表的なモデ ル 1 クロス表 2 t検定(平均値の差の検定) 3 相関係数.
MS-EXCEL、 OpenCalcを 用いた表計算
logistic regression をしたい場合の STATISTICA2000のアプリケーションの使い方について
SPSS操作入門 よい卒業研究をめざして 橋本明浩.
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
EXCELで学ぶマーケティング統計 第4章 経営学研究科 M1  真島 健.
看護学部 中澤 港 統計学第5回 看護学部 中澤 港
情報処理実習 第05回 Excelマクロ機能入門 操作マクロ入門.
Rコマンダーで2要因の 反復測定ANOVA 「理学療法」Vol28(8)のデータ
寺尾 敦 青山学院大学社会情報学部 社会統計 第13回 重回帰分析(第11章後半) 寺尾 敦 青山学院大学社会情報学部
寺尾 敦 青山学院大学社会情報学部 atsushi [at] si.aoyama.ac.jp
分散分析マスターへの道.
  個人投資家向け株式分析   と予測システム A1グループ  劉 チュン.
RコマンダーでANOVA 「理学療法」Vol28(7)のデータ
Excel による データベース入門 Ver /9.
実証分析の手順 経済データ解析 2011年度.
JavaによるCAI学習ソフトウェアの開発
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 データ入力 データ分析 報告書の作成.
データ分析2 1.平均値の比較のタイプ 2.対応のあるt検定 3.対応のないt検定 4.3つの以上のグループの差を調べる 5.参考文献
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
時空間データからのオブジェクトベース知識発見
初歩的情報リテラシーと アンケート集計のためのExcel・SPSS講座
因子分析や3相因子分析による分析の問題点を整理する 狩野裕+原田章(行動工学講座)
回帰分析.
問題と目的 方法 結果と考察 養護教諭の目を通した 児童生徒の自傷と援助・介入(2) 北海道大学大学院教育学院 ◯水野 君平・穴水 ゆかり
寺尾 敦 青山学院大学社会情報学部 社会統計 第12回 重回帰分析(第11章前半) 寺尾 敦 青山学院大学社会情報学部
臨床統計入門(3) 箕面市立病院小児科  山本威久 平成23年12月13日.
第6章 2重ループ&配列 2重ループと配列をやります.
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
最尤推定によるロジスティック回帰 対数尤度関数の最大化.
クロス集計とχ2検定 P.144.
analysis of survey data 第3回 香川大学経済学部 堀 啓造
UNIXについて 松野秀平.
analysis of survey data 第2回 堀 啓造
離婚が出生数に与える影響 -都道府県データを用いた計量分析
看護研究における 統計の活用法 Part 1 京都府立医科大学 浅野 弘明 2012年11月10日.
情報処理技法(リテラシ)I 第10回:Excel (1/2)
4章までのまとめ ー 計量経済学 ー.
Rコマンダーで分割プロットANOVA 「理学療法」Vol28(8)のデータ
顧客獲得.
Rコマンダーで2元配置ANOVA 「理学療法」Vol28(8)のデータ
数量分析 第2回 データ解析技法とソフトウェア
予測に用いる数学 2004/05/07 ide.
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
第1日目第3時限の学習目標 2変量データを手にした時の分布の特徴の記述方法(前回からの続き)について学ぶ。 基本的な2変量統計量ー1
部分的最小二乗回帰 Partial Least Squares Regression PLS
analysis of survey data 堀 啓造
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
1.因子分析とは 2.因子分析を行う前に確認すべきこと 3.因子分析の手順 4.因子分析後の分析 5.参考文献 6.課題11
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
クロス表分析補遺 。堀 啓造(香川大学経済学部) 2003年5月.
クロス表とχ2検定.
構造的類似性を持つ半構造化文書における頻度分析
第3日目第4時限の学習目標 第1日目第3時限のスライドによる、名義尺度2変数間の連関のカイ2乗統計量についての復習
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
臨床統計入門(1) 箕面市立病院小児科  山本威久 平成23年10月11日.
情報コミュニケーション入門b 第9回 表計算ソフト入門(3)
第2章 統計データの記述 データについての理解 度数分布表の作成.
要因Aの差,要因Bの差を見たい 2つの要因なので二元配置分散分析の適用 要因B 水準A 水準B 水準C 要因A 水準a
回帰分析入門 経済データ解析 2011年度.
Presentation transcript:

神戸松蔭女子学院大学 松田謙次郎 kenjiro@shoin.ac.jp 2004/9/5 第14回社会言語科学会大会 ワークショップ(東京大学) ことばのバリエーションをつかまえる: 分析ツールとしての VARBRULプログラムの活用法と隣接分野への応用 VARBRULプログラムとは何か 神戸松蔭女子学院大学 松田謙次郎 kenjiro@shoin.ac.jp 2004/9/5

はじめに: あなたならどうする? ある発音 x の変異 に関する仮想データ 年代 若年 老年 性別 男性 女性 ス タ イ ル くだけた 90.3% 449/497 88.1% 262/295 35.5% 103/290 20.7% 123/594 改まった 95.8% 137/143 95.1% 372/391 40.9% 36/88 30.7% 177/577

対策、いろいろ 目でパーセンテージを追う ⇒4重以上のクロス表ではかなり難 グラフ ⇒やはり限界あり。数値化は難。 2要因ずつカイ自乗 ⇒複数要因を同時に分析できない よって他の関連する要因(交絡因子)を勘定に入れた場合の重みがわからない。これは危険。 ⇒検定の繰り返しで危険率が増加

そこで: VARBRUL ある要因(前後の音環境、話者の性別、etc)が、どれほどある形式の使用に関わっている(寄与しているか)を計算してくれる 一見有意差がありそうな区別は、他の要因を考慮に入れた場合、 本当に有意差があるのかを教えてくれる ある形式が使われるかどうかを予測するための最適モデルは何かを教えてくれる 統計手法: ロジスティック回帰分析

ロジスティック回帰分析 (logistic regression) 独立変数・従属変数ともに名目変数でOK 独立変数は、連続変数を含んでいてもOK。ただしVARBRULでできるのは名目変数のみ。 もともとは医学(疫学)で60年代後半に誕生(冠状動脈性疾患の分析)。その後社会学などでも盛んに活用されるにいたる。 VARBRUL以外でもSAS, SPSS等の統計パッケージでも計算可。フリーウエアもあり。

線形回帰分析・分散分析 vs. ロジスティック回帰分析 「統計入門」に出てくるおなじみの線形回帰分析 予測対象(従属変数)・要因(独立変数)いずれも間隔・比率尺度 (長さ、重さ、周波数、etc…) パーセンテージをそのまま使うと予測が100%を超える事態も起きてしまう ロジスティック回帰のロジットは-∞から∞まで やはり「統計入門」でおなじみの分散分析 変異理論が主として扱う自然談話データでは、セルによりデータ件数が大幅に異なるのが普通 これは分散分析では好ましくない事態

ここでビミョーに頭の整理 分析法 変数/尺度 ちなみに 線形回帰分析 分散分析 ロジスティック回帰 VARBRUL=製品名、ロジスティック回帰分析=統計手法名 よって社会学の研究者に「私、VARBRUL分析やったの」と言っても通じないが「ロジスティック回帰分析だぞぅ」と言うと一目置いてくれる(はず) 分析法 変数/尺度 ちなみに 線形回帰分析 従属変数=連続変数 独立変数=連続・名目変数 統計入門に必ず 登場 分散分析 独立変数=名目変数 ロジスティック回帰 従属変数=名目変数 統計入門では絶対 登場しない

ロジスティックモデル 1 表の「若者・男性・和語・友人同士」の部分における発音Xの出現割合(P)は… ロジスティックモデル 1 表の「若者・男性・和語・友人同士」の部分における発音Xの出現割合(P)は… 「若者という効果の重み」+ 「男性という効果の重み」+ 「和語という効果の重み」+ 「友人同士という効果の重み」+全体の重み、と表現できる 「~の重み」を、「~のオッズ(p/(1-p))の対数(ln)」に変換(「ロジット」)

発音 X に関する仮想データ、アゲイン 年代 若年(y) 老年(o) 性別 男性(m) 女性(f) ス タ イ ル 90.3% くだけた (c) 90.3% 449/497 88.1% 262/295 35.5% 103/290 20.7% 123/594 改まった (f) 95.8% 137/143 95.1% 372/391 40.9% 36/88 30.7% 177/577

ロジスティックモデル 2 表の「老年・男性・くだけたスタイル」の部分は ln(P/(1-P))= ln(Pα/(1-Pα))+ ln(P老/(1-P老))+ln(P男/(1-P男)) +ln(Pくだ/(1-Pくだ)) となる 表のセルすべてについてこうしたモデルを作成、そこからそれぞれのPを計算 モデルの予測と実際のデータとの当てはまり具合(フィット)は、カイ自乗値を用いて計算。 モデルの選択は、対数尤度を用いて計算。

コーディング作業(テキストエディタ、Excel) VARBRUL 分析の流れ コーディング作業(テキストエディタ、Excel) ↓ トークンファイル(***.tok) コンディションファイル (***.con) セルファイル(***.cel) クロス表作成 回帰分析・変数選択 回帰分析・フィットの確認 最適モデル! VARBRUL プログラム

コーディング・トークンファイルの作成 VARBRULのもっとも基本的なデータファイル 独立・従属要因それぞれにコードを与える 最初のコラムに半角空き括弧 コードの後に、スペースを開けて発話データの入力も可能(GV2001は日本語OK) GoldVarb, GoldVarb2001の中でもできるが、テキストエディタやワード、エクセルでもOK ただしテキストフォーマットで、拡張子は .tok

これがトークンファイルだ! (謎の発音x をめぐる仮想データ) コード 出典・発話情報 (xymc ここに自由にデータの出現した (xyfc 談話を書いていってもよい (xyfc ここで見るように (xyfc 日本語でもオッケーになっている (xymf ただしこれはGoldVarb2001の場合であり (yomc GoldVarb (Macintosh)では (yomc どうもだめなようだ (yyff それにしてもコーディングは退屈だ

コンディションファイル 必要に応じて要因をまとめたり、組み合わせたりするための指示を与えるファイル これとトークンファイルがセルファイル作成に必要 GoldVarb,GoldVarb2001ならプログラムの中で作成。ただし拡張子を .conとすれば、エディタで書いても OK

これがコンディションファイルだっ! 従属変数+独立変数5つの場合 ( (1) (2) (3 (b (col 3 a))) (4 (x (and (col 5 y)(col 4 z)) (k (elsewhere))) (5 (/ (col 6 j))) (6 (nil (col 6 m))) ; comment ) 始まりにカッコ 最初に来るのが従属変数 そのまま使うならそのまま a と b の区別をなくす この要因が zで第5要因がy なら x という新しいコードに それ以外はk にまとめる 第6要因が j なら第5要因区別なし この要因で m のものはデータから外す コメント行はセミコロン 終わりにもカッコ

セルファイルの作成 クロス表、ロジスティック回帰分析への入力 トークンファイルデータの中にある、すべての独立変数の組み合わせと、その組み合わせのもとで観察された従属変数の実数 つまり最初の表の各セルとその中身 VARBRULプログラムで作成 レベル(”factor”)が一つだけの要因(”factor group”) があると警告を出す(”singleton factor!)⇒コンディションファイルからやり直し

セルファイルはこんな感じ♪ 従属変数はX の割合を数える 独立変数は3つ 各独立変数のコードの数とコードを列挙 3 2yo 2mf 2cf 123 471 ofc 177 400 off [一部省略] 137 6 ymf -1 従属変数はX の割合を数える 独立変数は3つ 各独立変数のコードの数とコードを列挙 セルofc (老年女性くだけたスタイル)ではxが123個、そうでないのが471個。以下同様。 ファイルの終わり

クロス表分析 クロス表分析の目的 多重クロスは、コンディションファイルでデータを分割して行う カイ自乗値などは計算しない 交互作用の発見 データの偏りに由来する各種問題点の発見 データの分布についてのおおまかな当たりをつける 多重クロスは、コンディションファイルでデータを分割して行う カイ自乗値などは計算しない エクセルのピボットテーブルの方が使えるか?

クロス表はこんな感じ☆★ (Goldvarbの画像出力) 若年(y)男性(m)の発音 x 使用度数は586(92%)、それ以外が54(8%)

ロジスティック回帰分析 1 入るもの(入力ファイル)=セルファイル 出すもの(出力内容): 「重み」の解釈 各要因のレベルごとの重み 対数尤度値(Log-likelihood) 「重み」の解釈 0.5 を中心として、それ以上がXという形式の実現に、以下がXでない形式の実現に働く(ただし二項の場合) 値が0.5 から離れれば離れるほど強力 重みのつけ方はソフト・バージョンで異なるので注意!

ロジスティック回帰分析 2 2つの回帰分析 変数選択つき: 与えられた要因の最適の組み合わせ(対数尤度による計算)を探る 一般の回帰分析と同様の機能 変数ゼロから積み上げる方式と、すべての要因を入れたモデルから削っていく方式の2つで選択 変数選択なし(one-level): 与えられた要因全部を使った上での実測値とのフィット(カイ自乗値) すでにモデルが決定している場合の当てはまりを見るための分析 セルごとのカイ自乗値と、フィットのグラフも出力される

そしてこれが出力例 1 変数選択付き回帰分析(のごく一部) 要因の重み Run # 7, 8 cells: Convergence at Iteration 6 Input 0.707 Group # 1 -- y: 0.840, o: 0.160 Group # 2 -- m: 0.562, f: 0.438 Group # 3 -- c: 0.433, f: 0.567 Log likelihood = -1274.131 Significance = 0.000 Add Group # 2 with factors mf Best stepping up run: #7  性別なしモデルとLog likelihoodで検定すると有意に良い。よって含む

そしてこれが出力例 2 フィットの分析の一部 Cell Total App‘ns Expected Error セル 総観測値 カイ自乗値 Cell Total App‘ns Expected    Error ymf 143 137 136.595 0.027 ymc 497 449 459.932 3.484 yff 391 372 362.919 3.164 yfc 295 262 260.374 0.086 omf 88 36 38.335 0.252 omc 290 103 89.875 2.777 off 577 177 183.889 0.379 ofc 594 123 127.081 0.167

予測値と観測値のグラフ (点は各セル; 対角線上が完璧な予測) 予測値と観測値のグラフ (点は各セル; 対角線上が完璧な予測)

公刊表データもVARBRULしたい! 論文中に表として引かれているデータも、最初の表のように、すべての組み合わせが表示されているものであれば、トークンファイルに変換して、VARBRUL分析が可能 例えばSPSSのスクリプトが使えるが、いずれにしても超簡単なスクリプトで可能 公刊データのロジスティックモデルによる再検討も可能に!

VARBRULプログラムの発展 VARBRUL(大型汎用機) VARBRUL 2S(MS-DOS) Cedergren & Sankoff (1974)のオリジナル版 70年代の変異理論の論文の多くはこれを使う VARBRUL 2S(MS-DOS) 前述のロジスティックモデル(Sankoff & Labov 1979) 変数選択機能あり 従属変数が3項のモデルも可能(⇒片岡発表) GoldVarb(Macintosh ― Classic 環境) GoldVarb2001(Windows XP対応) 2~4は関連サイトからダウンロード可

VARBRULプログラムの… 良いところ 悪いところ ただ 扱いが簡単 各種OSに対応 変異理論の事実上のスタンダードソフト 他の研究と結果が比較しやすい 悪いところ 変異理論以外では知られていない よって日本で知名度低 詳しい解説書が乏しかった 出力統計値の種類・オプションが少ない 交互作用の扱いは微妙

Paolillo さん、ありがとさん VARBRULとその統計的・言語学的背景に関する優れた解説書 John C. Paolillo. Analyzing Linguistic Variation: Statistical Models and Methods. Stanford: CSLI Publications, 2002.

VARBRUL関連ウェブサイト VARBRUL2S (MS-DOS) GoldVarb2001(Windows) ftp://ftp.cis.upenn.edu/pub/ldc/misc_sw/varbrul.tar.Z GoldVarb2001(Windows) http://www.york.ac.uk/depts/lang/webstuff/goldvarb/ GoldVarb (Macintosh) http://www.crm.umontreal.ca/~sankoff/GoldVarb_Eng.html

おまけ: VARBRULの生みの親・近影 Prof. David Sankoff