Presentation is loading. Please wait.

Presentation is loading. Please wait.

第14回社会言語科学会大会 ワークショップ(東京大学) ことばのバリエーションをつかまえる: 分析ツールとしての

Similar presentations


Presentation on theme: "第14回社会言語科学会大会 ワークショップ(東京大学) ことばのバリエーションをつかまえる: 分析ツールとしての"— Presentation transcript:

1 神戸松蔭女子学院大学 松田謙次郎 kenjiro@shoin.ac.jp 2004/9/5
第14回社会言語科学会大会 ワークショップ(東京大学) ことばのバリエーションをつかまえる: 分析ツールとしての VARBRULプログラムの活用法と隣接分野への応用 VARBRULプログラムとは何か 神戸松蔭女子学院大学 松田謙次郎 2004/9/5

2 はじめに: あなたならどうする? ある発音 x の変異 に関する仮想データ
年代 若年 老年 性別 男性 女性 くだけた 90.3% 449/497 88.1% 262/295 35.5% 103/290 20.7% 123/594 改まった 95.8% 137/143 95.1% 372/391 40.9% 36/88 30.7% 177/577

3 対策、いろいろ 目でパーセンテージを追う ⇒4重以上のクロス表ではかなり難 グラフ ⇒やはり限界あり。数値化は難。 2要因ずつカイ自乗
⇒複数要因を同時に分析できない よって他の関連する要因(交絡因子)を勘定に入れた場合の重みがわからない。これは危険。 ⇒検定の繰り返しで危険率が増加

4 そこで: VARBRUL ある要因(前後の音環境、話者の性別、etc)が、どれほどある形式の使用に関わっている(寄与しているか)を計算してくれる 一見有意差がありそうな区別は、他の要因を考慮に入れた場合、 本当に有意差があるのかを教えてくれる ある形式が使われるかどうかを予測するための最適モデルは何かを教えてくれる 統計手法: ロジスティック回帰分析

5 ロジスティック回帰分析 (logistic regression)
独立変数・従属変数ともに名目変数でOK 独立変数は、連続変数を含んでいてもOK。ただしVARBRULでできるのは名目変数のみ。 もともとは医学(疫学)で60年代後半に誕生(冠状動脈性疾患の分析)。その後社会学などでも盛んに活用されるにいたる。 VARBRUL以外でもSAS, SPSS等の統計パッケージでも計算可。フリーウエアもあり。

6 線形回帰分析・分散分析 vs. ロジスティック回帰分析
「統計入門」に出てくるおなじみの線形回帰分析 予測対象(従属変数)・要因(独立変数)いずれも間隔・比率尺度 (長さ、重さ、周波数、etc…) パーセンテージをそのまま使うと予測が100%を超える事態も起きてしまう ロジスティック回帰のロジットは-∞から∞まで やはり「統計入門」でおなじみの分散分析 変異理論が主として扱う自然談話データでは、セルによりデータ件数が大幅に異なるのが普通 これは分散分析では好ましくない事態

7 ここでビミョーに頭の整理 分析法 変数/尺度 ちなみに 線形回帰分析 分散分析 ロジスティック回帰
VARBRUL=製品名、ロジスティック回帰分析=統計手法名 よって社会学の研究者に「私、VARBRUL分析やったの」と言っても通じないが「ロジスティック回帰分析だぞぅ」と言うと一目置いてくれる(はず) 分析法 変数/尺度 ちなみに 線形回帰分析 従属変数=連続変数 独立変数=連続・名目変数 統計入門に必ず 登場 分散分析 独立変数=名目変数 ロジスティック回帰 従属変数=名目変数 統計入門では絶対 登場しない

8 ロジスティックモデル 1 表の「若者・男性・和語・友人同士」の部分における発音Xの出現割合(P)は…
ロジスティックモデル 1 表の「若者・男性・和語・友人同士」の部分における発音Xの出現割合(P)は… 「若者という効果の重み」+ 「男性という効果の重み」+ 「和語という効果の重み」+ 「友人同士という効果の重み」+全体の重み、と表現できる 「~の重み」を、「~のオッズ(p/(1-p))の対数(ln)」に変換(「ロジット」)

9 発音 X に関する仮想データ、アゲイン 年代 若年(y) 老年(o) 性別 男性(m) 女性(f) ス タ イ ル 90.3%
くだけた (c) 90.3% 449/497 88.1% 262/295 35.5% 103/290 20.7% 123/594 改まった (f) 95.8% 137/143 95.1% 372/391 40.9% 36/88 30.7% 177/577

10 ロジスティックモデル 2 表の「老年・男性・くだけたスタイル」の部分は
ln(P/(1-P))= ln(Pα/(1-Pα))+ ln(P老/(1-P老))+ln(P男/(1-P男)) +ln(Pくだ/(1-Pくだ)) となる 表のセルすべてについてこうしたモデルを作成、そこからそれぞれのPを計算 モデルの予測と実際のデータとの当てはまり具合(フィット)は、カイ自乗値を用いて計算。 モデルの選択は、対数尤度を用いて計算。

11 コーディング作業(テキストエディタ、Excel)
VARBRUL 分析の流れ コーディング作業(テキストエディタ、Excel) トークンファイル(***.tok) コンディションファイル (***.con) セルファイル(***.cel) クロス表作成 回帰分析・変数選択 回帰分析・フィットの確認 最適モデル! VARBRUL プログラム

12 コーディング・トークンファイルの作成 VARBRULのもっとも基本的なデータファイル 独立・従属要因それぞれにコードを与える
最初のコラムに半角空き括弧 コードの後に、スペースを開けて発話データの入力も可能(GV2001は日本語OK) GoldVarb, GoldVarb2001の中でもできるが、テキストエディタやワード、エクセルでもOK ただしテキストフォーマットで、拡張子は .tok

13 これがトークンファイルだ! (謎の発音x をめぐる仮想データ)
コード 出典・発話情報 (xymc ここに自由にデータの出現した (xyfc 談話を書いていってもよい (xyfc ここで見るように (xyfc 日本語でもオッケーになっている (xymf ただしこれはGoldVarb2001の場合であり (yomc GoldVarb (Macintosh)では (yomc どうもだめなようだ (yyff それにしてもコーディングは退屈だ

14 コンディションファイル 必要に応じて要因をまとめたり、組み合わせたりするための指示を与えるファイル
これとトークンファイルがセルファイル作成に必要 GoldVarb,GoldVarb2001ならプログラムの中で作成。ただし拡張子を .conとすれば、エディタで書いても OK

15 これがコンディションファイルだっ! 従属変数+独立変数5つの場合
( (1) (2) (3 (b (col 3 a))) (4 (x (and (col 5 y)(col 4 z)) (k (elsewhere))) (5 (/ (col 6 j))) (6 (nil (col 6 m))) ; comment ) 始まりにカッコ 最初に来るのが従属変数 そのまま使うならそのまま a と b の区別をなくす この要因が zで第5要因がy なら x という新しいコードに それ以外はk にまとめる 第6要因が j なら第5要因区別なし この要因で m のものはデータから外す コメント行はセミコロン 終わりにもカッコ

16 セルファイルの作成 クロス表、ロジスティック回帰分析への入力
トークンファイルデータの中にある、すべての独立変数の組み合わせと、その組み合わせのもとで観察された従属変数の実数 つまり最初の表の各セルとその中身 VARBRULプログラムで作成 レベル(”factor”)が一つだけの要因(”factor group”) があると警告を出す(”singleton factor!)⇒コンディションファイルからやり直し

17 セルファイルはこんな感じ♪ 従属変数はX の割合を数える 独立変数は3つ 各独立変数のコードの数とコードを列挙
3 2yo 2mf 2cf ofc off [一部省略] ymf -1 従属変数はX の割合を数える 独立変数は3つ 各独立変数のコードの数とコードを列挙 セルofc (老年女性くだけたスタイル)ではxが123個、そうでないのが471個。以下同様。 ファイルの終わり

18 クロス表分析 クロス表分析の目的 多重クロスは、コンディションファイルでデータを分割して行う カイ自乗値などは計算しない
交互作用の発見 データの偏りに由来する各種問題点の発見 データの分布についてのおおまかな当たりをつける 多重クロスは、コンディションファイルでデータを分割して行う カイ自乗値などは計算しない エクセルのピボットテーブルの方が使えるか?

19 クロス表はこんな感じ☆★ (Goldvarbの画像出力)
若年(y)男性(m)の発音 x 使用度数は586(92%)、それ以外が54(8%)

20 ロジスティック回帰分析 1 入るもの(入力ファイル)=セルファイル 出すもの(出力内容): 「重み」の解釈 各要因のレベルごとの重み
対数尤度値(Log-likelihood) 「重み」の解釈 0.5 を中心として、それ以上がXという形式の実現に、以下がXでない形式の実現に働く(ただし二項の場合) 値が0.5 から離れれば離れるほど強力 重みのつけ方はソフト・バージョンで異なるので注意!

21 ロジスティック回帰分析 2 2つの回帰分析 変数選択つき: 与えられた要因の最適の組み合わせ(対数尤度による計算)を探る
一般の回帰分析と同様の機能 変数ゼロから積み上げる方式と、すべての要因を入れたモデルから削っていく方式の2つで選択 変数選択なし(one-level): 与えられた要因全部を使った上での実測値とのフィット(カイ自乗値) すでにモデルが決定している場合の当てはまりを見るための分析 セルごとのカイ自乗値と、フィットのグラフも出力される

22 そしてこれが出力例 1 変数選択付き回帰分析(のごく一部)
要因の重み Run # 7, 8 cells: Convergence at Iteration 6 Input 0.707 Group # 1 -- y: 0.840, o: 0.160 Group # 2 -- m: 0.562, f: 0.438 Group # 3 -- c: 0.433, f: 0.567 Log likelihood = Significance = 0.000 Add Group # 2 with factors mf Best stepping up run: #7  性別なしモデルとLog likelihoodで検定すると有意に良い。よって含む

23 そしてこれが出力例 2 フィットの分析の一部 Cell Total App‘ns Expected Error セル 総観測値
カイ自乗値 Cell Total App‘ns Expected    Error ymf ymc yff yfc omf omc off ofc

24 予測値と観測値のグラフ (点は各セル; 対角線上が完璧な予測)
予測値と観測値のグラフ (点は各セル; 対角線上が完璧な予測)

25 公刊表データもVARBRULしたい! 論文中に表として引かれているデータも、最初の表のように、すべての組み合わせが表示されているものであれば、トークンファイルに変換して、VARBRUL分析が可能 例えばSPSSのスクリプトが使えるが、いずれにしても超簡単なスクリプトで可能 公刊データのロジスティックモデルによる再検討も可能に!

26 VARBRULプログラムの発展 VARBRUL(大型汎用機) VARBRUL 2S(MS-DOS)
Cedergren & Sankoff (1974)のオリジナル版 70年代の変異理論の論文の多くはこれを使う VARBRUL 2S(MS-DOS) 前述のロジスティックモデル(Sankoff & Labov 1979) 変数選択機能あり 従属変数が3項のモデルも可能(⇒片岡発表) GoldVarb(Macintosh ― Classic 環境) GoldVarb2001(Windows XP対応) 2~4は関連サイトからダウンロード可

27 VARBRULプログラムの… 良いところ 悪いところ ただ 扱いが簡単 各種OSに対応 変異理論の事実上のスタンダードソフト
他の研究と結果が比較しやすい 悪いところ 変異理論以外では知られていない よって日本で知名度低 詳しい解説書が乏しかった 出力統計値の種類・オプションが少ない 交互作用の扱いは微妙

28 Paolillo さん、ありがとさん VARBRULとその統計的・言語学的背景に関する優れた解説書
John C. Paolillo. Analyzing Linguistic Variation: Statistical Models and Methods. Stanford: CSLI Publications, 2002.

29 VARBRUL関連ウェブサイト VARBRUL2S (MS-DOS) GoldVarb2001(Windows)
ftp://ftp.cis.upenn.edu/pub/ldc/misc_sw/varbrul.tar.Z GoldVarb2001(Windows) GoldVarb (Macintosh)

30 おまけ: VARBRULの生みの親・近影 Prof. David Sankoff


Download ppt "第14回社会言語科学会大会 ワークショップ(東京大学) ことばのバリエーションをつかまえる: 分析ツールとしての"

Similar presentations


Ads by Google