第14回社会言語科学会大会ワークショップ（東京大学）ことばのバリエーションをつかまえる：分析ツールとしての

神戸松蔭女子学院大学松田謙次郎 kenjiro@shoin.ac.jp 2004/9/5
第14回社会言語科学会大会ワークショップ（東京大学）ことばのバリエーションをつかまえる：分析ツールとしての VARBRULプログラムの活用法と隣接分野への応用 VARBRULプログラムとは何か神戸松蔭女子学院大学松田謙次郎 2004/9/5

はじめに：あなたならどうする？ある発音 x の変異に関する仮想データ
年代若年老年性別男性女性スタイルくだけた 90.3% 449/497 88.1% 262/295 35.5% 103/290 20.7% 123/594 改まった 95.8% 137/143 95.1% 372/391 40.9% 36/88 30.7% 177/577

対策、いろいろ目でパーセンテージを追う ⇒４重以上のクロス表ではかなり難グラフ ⇒やはり限界あり。数値化は難。 2要因ずつカイ自乗
⇒複数要因を同時に分析できないよって他の関連する要因（交絡因子）を勘定に入れた場合の重みがわからない。これは危険。 ⇒検定の繰り返しで危険率が増加

そこで：　VARBRUL ある要因（前後の音環境、話者の性別、etc）が、どれほどある形式の使用に関わっている（寄与しているか）を計算してくれる一見有意差がありそうな区別は、他の要因を考慮に入れた場合、本当に有意差があるのかを教えてくれるある形式が使われるかどうかを予測するための最適モデルは何かを教えてくれる統計手法：ロジスティック回帰分析

ロジスティック回帰分析（logistic regression）
独立変数・従属変数ともに名目変数でOK 独立変数は、連続変数を含んでいてもOK。ただしVARBRULでできるのは名目変数のみ。もともとは医学（疫学）で60年代後半に誕生（冠状動脈性疾患の分析）。その後社会学などでも盛んに活用されるにいたる。 VARBRUL以外でもSAS, SPSS等の統計パッケージでも計算可。フリーウエアもあり。

線形回帰分析・分散分析 vs. ロジスティック回帰分析
「統計入門」に出てくるおなじみの線形回帰分析予測対象（従属変数）・要因（独立変数）いずれも間隔・比率尺度（長さ、重さ、周波数、etc…）パーセンテージをそのまま使うと予測が100%を超える事態も起きてしまうロジスティック回帰のロジットは－∞から∞までやはり「統計入門」でおなじみの分散分析変異理論が主として扱う自然談話データでは、セルによりデータ件数が大幅に異なるのが普通これは分散分析では好ましくない事態

ここでﾋﾞﾐｮｰに頭の整理分析法変数／尺度ちなみに線形回帰分析分散分析ロジスティック回帰
VARBRUL＝製品名、ロジスティック回帰分析＝統計手法名よって社会学の研究者に「私、VARBRUL分析やったの」と言っても通じないが「ロジスティック回帰分析だぞぅ」と言うと一目置いてくれる（はず）分析法変数／尺度ちなみに線形回帰分析従属変数＝連続変数独立変数＝連続・名目変数統計入門に必ず登場分散分析独立変数＝名目変数ロジスティック回帰従属変数＝名目変数統計入門では絶対登場しない

ロジスティックモデル１表の「若者・男性・和語・友人同士」の部分における発音Xの出現割合（P)は…
ロジスティックモデル　１表の「若者・男性・和語・友人同士」の部分における発音Xの出現割合（P)は… 「若者という効果の重み」＋「男性という効果の重み」＋「和語という効果の重み」＋「友人同士という効果の重み」＋全体の重み、と表現できる「～の重み」を、「～のオッズ（p/(1-p)）の対数（ln）」に変換（「ロジット」）

発音 X に関する仮想データ、アゲイン年代若年（y）老年（o）性別男性（m）女性（f）スタイル 90.3%
くだけた（c） 90.3% 449/497 88.1% 262/295 35.5% 103/290 20.7% 123/594 改まった（f） 95.8% 137/143 95.1% 372/391 40.9% 36/88 30.7% 177/577

ロジスティックモデル 2 表の「老年・男性・くだけたスタイル」の部分は
ln(P/(1-P))= ln(Pα/(1-Pα))+ ln(P老/(1-P老))+ln(P男/(1-P男)) ＋ln(Pくだ/(1-Pくだ))　となる表のセルすべてについてこうしたモデルを作成、そこからそれぞれのPを計算モデルの予測と実際のデータとの当てはまり具合（フィット）は、カイ自乗値を用いて計算。モデルの選択は、対数尤度を用いて計算。

コーディング作業（テキストエディタ、Excel）
VARBRUL 分析の流れコーディング作業（テキストエディタ、Excel） ↓ トークンファイル（***.tok）コンディションファイル（***.con）セルファイル（***.cel）クロス表作成回帰分析・変数選択回帰分析・フィットの確認最適モデル！ VARBRUL プログラム

コーディング・トークンファイルの作成 VARBRULのもっとも基本的なデータファイル独立・従属要因それぞれにコードを与える
最初のコラムに半角空き括弧コードの後に、スペースを開けて発話データの入力も可能（GV2001は日本語OK） GoldVarb, GoldVarb2001の中でもできるが、テキストエディタやワード、エクセルでもOK ただしテキストフォーマットで、拡張子は .tok

これがトークンファイルだ！（謎の発音x をめぐる仮想データ）
コード出典・発話情報 (xymc ここに自由にデータの出現した (xyfc 談話を書いていってもよい (xyfc ここで見るように (xyfc 日本語でもオッケーになっている (xymf ただしこれはGoldVarb2001の場合であり (yomc GoldVarb （Macintosh）では (yomc どうもだめなようだ (yyff それにしてもコーディングは退屈だ

コンディションファイル必要に応じて要因をまとめたり、組み合わせたりするための指示を与えるファイル
これとトークンファイルがセルファイル作成に必要 GoldVarb,GoldVarb2001ならプログラムの中で作成。ただし拡張子を .conとすれば、エディタで書いても OK

これがコンディションファイルだっ！従属変数＋独立変数５つの場合
( (1) (2) (3 (b (col 3 a))) (4 (x (and (col 5 y)(col 4 z)) (k (elsewhere))) (5 (/ (col 6 j))) (6 (nil (col 6 m))) ; comment ) 始まりにカッコ最初に来るのが従属変数そのまま使うならそのまま a と b の区別をなくすこの要因が zで第５要因がy なら x という新しいコードにそれ以外はk にまとめる第６要因が j なら第５要因区別なしこの要因で m のものはデータから外すコメント行はセミコロン終わりにもカッコ

セルファイルの作成クロス表、ロジスティック回帰分析への入力
トークンファイルデータの中にある、すべての独立変数の組み合わせと、その組み合わせのもとで観察された従属変数の実数つまり最初の表の各セルとその中身 VARBRULプログラムで作成レベル（”factor”）が一つだけの要因（”factor group”）があると警告を出す（”singleton factor!）⇒コンディションファイルからやり直し

セルファイルはこんな感じ♪ 従属変数はX の割合を数える独立変数は３つ各独立変数のコードの数とコードを列挙
3 2yo 2mf 2cf ofc off [一部省略] ymf -1 従属変数はX の割合を数える独立変数は３つ各独立変数のコードの数とコードを列挙セルofc （老年女性くだけたスタイル）ではxが123個、そうでないのが471個。以下同様。ファイルの終わり

クロス表分析クロス表分析の目的多重クロスは、コンディションファイルでデータを分割して行うカイ自乗値などは計算しない
交互作用の発見データの偏りに由来する各種問題点の発見データの分布についてのおおまかな当たりをつける多重クロスは、コンディションファイルでデータを分割して行うカイ自乗値などは計算しないエクセルのピボットテーブルの方が使えるか？

クロス表はこんな感じ☆★ （Goldvarbの画像出力）
若年（y）男性（m）の発音 x 使用度数は586（92%）、それ以外が54（8%）

ロジスティック回帰分析 1 入るもの（入力ファイル）＝セルファイル出すもの（出力内容）：「重み」の解釈各要因のレベルごとの重み
対数尤度値（Log-likelihood）「重み」の解釈 0.5 を中心として、それ以上がXという形式の実現に、以下がXでない形式の実現に働く（ただし二項の場合）値が0.5 から離れれば離れるほど強力重みのつけ方はソフト・バージョンで異なるので注意！

ロジスティック回帰分析 2 ２つの回帰分析変数選択つき：与えられた要因の最適の組み合わせ（対数尤度による計算）を探る
一般の回帰分析と同様の機能変数ゼロから積み上げる方式と、すべての要因を入れたモデルから削っていく方式の２つで選択変数選択なし（one-level）：与えられた要因全部を使った上での実測値とのフィット（カイ自乗値）すでにモデルが決定している場合の当てはまりを見るための分析セルごとのカイ自乗値と、フィットのグラフも出力される

そしてこれが出力例 1 変数選択付き回帰分析（のごく一部）
要因の重み Run # 7, 8 cells: Convergence at Iteration 6 Input 0.707 Group # 1 -- y: 0.840, o: 0.160 Group # 2 -- m: 0.562, f: 0.438 Group # 3 -- c: 0.433, f: 0.567 Log likelihood = Significance = 0.000 Add Group # 2 with factors mf Best stepping up run: #7 　性別なしモデルとLog likelihoodで検定すると有意に良い。よって含む

そしてこれが出力例 2 フィットの分析の一部 Cell Total App‘ns Expected Error セル総観測値
カイ自乗値 Cell Total App‘ns Expected 　　　Error ymf ymc yff yfc omf omc off ofc

予測値と観測値のグラフ（点は各セル；対角線上が完璧な予測）
予測値と観測値のグラフ（点は各セル；　対角線上が完璧な予測）

公刊表データもVARBRULしたい！論文中に表として引かれているデータも、最初の表のように、すべての組み合わせが表示されているものであれば、トークンファイルに変換して、VARBRUL分析が可能例えばSPSSのスクリプトが使えるが、いずれにしても超簡単なスクリプトで可能公刊データのロジスティックモデルによる再検討も可能に！

VARBRULプログラムの発展 VARBRUL（大型汎用機） VARBRUL 2S（MS-DOS）
Cedergren & Sankoff (1974)のオリジナル版 70年代の変異理論の論文の多くはこれを使う VARBRUL 2S（MS-DOS）前述のロジスティックモデル（Sankoff & Labov 1979) 変数選択機能あり従属変数が３項のモデルも可能（⇒片岡発表） GoldVarb（Macintosh ― Classic 環境） GoldVarb2001（Windows XP対応） 2～4は関連サイトからダウンロード可

VARBRULプログラムの… 良いところ悪いところただ扱いが簡単各種OSに対応変異理論の事実上のスタンダードソフト
他の研究と結果が比較しやすい悪いところ変異理論以外では知られていないよって日本で知名度低詳しい解説書が乏しかった出力統計値の種類・オプションが少ない交互作用の扱いは微妙

Paolillo さん、ありがとさん VARBRULとその統計的・言語学的背景に関する優れた解説書
John C. Paolillo. Analyzing Linguistic Variation: Statistical Models and Methods. Stanford: CSLI Publications, 2002.

VARBRUL関連ウェブサイト VARBRUL2S (MS-DOS) GoldVarb2001（Windows）
ftp://ftp.cis.upenn.edu/pub/ldc/misc_sw/varbrul.tar.Z GoldVarb2001（Windows） GoldVarb （Macintosh）

おまけ： VARBRULの生みの親・近影 Prof. David Sankoff

第14回社会言語科学会大会ワークショップ（東京大学）ことばのバリエーションをつかまえる：分析ツールとしての

Similar presentations

Presentation on theme: "第14回社会言語科学会大会ワークショップ（東京大学）ことばのバリエーションをつかまえる：分析ツールとしての"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

第14回社会言語科学会大会 ワークショップ（東京大学） ことばのバリエーションをつかまえる： 分析ツールとしての

Similar presentations

Presentation on theme: "第14回社会言語科学会大会 ワークショップ（東京大学） ことばのバリエーションをつかまえる： 分析ツールとしての"— Presentation transcript:

Similar presentations

About project

フィードバック

第14回社会言語科学会大会ワークショップ（東京大学）ことばのバリエーションをつかまえる：分析ツールとしての

Presentation on theme: "第14回社会言語科学会大会ワークショップ（東京大学）ことばのバリエーションをつかまえる：分析ツールとしての"— Presentation transcript: