Presentation is loading. Please wait.

Presentation is loading. Please wait.

コーパス言語学実践 2006年度2学期 第10回.

Similar presentations


Presentation on theme: "コーパス言語学実践 2006年度2学期 第10回."— Presentation transcript:

1 コーパス言語学実践 2006年度2学期 第10回

2 本日の内容 品詞構成比率について 語彙の計量的な分析 高頻度語と低頻度語 広範囲語 特徴語,無特徴語 語の出現の性質の応用 基本的な情報検索

3 品詞構成比率について これまで計算してきた品詞構成比率 述べ語数での比率を見ると 名詞>動詞>副詞>形容詞>その他 4テキストとも同じ傾向
 4テキストとも同じ傾向  比率(名50,動30,副5-10,形3-8)も似ている 異なり語数での比率を見ると  品詞順は同じ.  だが4テキストで傾向は異なる

4 品詞構成比率について(2) 異なりで見ると(つづき) 我輩,銀鉄は名詞比率が上がる(我輩が高い) 蜘蛛の糸,最後の一句は名詞比率が下がる
など.述べ語数とはまた違う傾向がある 作家によって語彙が異なる+使う語彙の偏りがあるのでは? と思えるデータ

5 品詞構成比率について(3) 述べ語数で見ると(つづき) 今回の4テキストは差があまりない どれも小説というジャンルである
もし異なるジャンルのテキストだったら,品詞構成比率はどう出るだろうか? 例えば,若者のブログ系文章だったらどうか? 「ヤバ」「すご」「はや」「マジ」...名詞か形容詞↑ 文章中の異なり語数の割合は↓かも.

6 品詞構成比率について(4) 残念ながら... 品詞構成比率をジャンル別や同一ジャンルなどで,確かな傾向としてみていくにはデータ不足
今回のデータだけでは足りないのではっきりとはいえない(少数による偏りがあるかもしれない) ただし,ありそうな傾向はいくつか見られた 予想はつけられそう→量を増やして検証という流れができる

7 語彙の計量的な分析 わざわざ数をかぞえたのはなぜだったか? 語は全て均等に出てくるわけでない
出現に偏りがあるはず →高頻度語 とか 低頻度語という違いが見える 高頻度語はどんな特徴で,低頻度語にはどんな特徴,役割があるのか?

8 語彙の計量的な分析(2) 高頻度語 低頻度語 どっちが大事か? どっちが意味があるか? 1つのテキストに良く出てくる見出し語
1つのテキストにあまり出てこない見出し語 どっちが大事か? どっちが意味があるか?

9 語彙の計量的な分析(3) 高頻度語 低頻度語 どんな語があるのか 実際のデータを見てみることにする 議論しましょう
1つのテキストに良く出てくる見出し語 低頻度語 1つのテキストにあまり出てこない見出し語 どんな語があるのか 実際のデータを見てみることにする 議論しましょう

10 語彙の計量的な分析(4) 高頻度語は... 具体的にはどんな語か? 4つの作品を並べてみると何が特徴が出てこないか?

11 語彙の計量的な分析(5) 特徴語と無特徴語 特徴語: 無特徴語(無性格語): あるテキストにとっては重要. 他のテキストにとっては重要でない
どのようなテキストでも良く使われている 特徴のない語

12 語彙の計量的な分析(6) 特徴語と無特徴語 あらためて,先ほどの語のリストを見るとどうか? 特徴語は? 無特徴語は? 特徴語:
あるテキストにとっては重要. 他のテキストにとっては重要でない 無特徴語(無性格語): どのようなテキストでも良く使われている 特徴のない語 あらためて,先ほどの語のリストを見るとどうか? 特徴語は? 無特徴語は?

13 高頻度語の分析 高頻度語 テキスト(言葉)は語の組み合わせで何かを伝えるために使われる →語の使い方に重要な意味がある
特徴語 → そのテキストの内容や特徴を示す 文体論 無特徴語 →どのテキストでもよく利用される 基本語彙  テキスト(言葉)は語の組み合わせで何かを伝えるために使われる  →語の使い方に重要な意味がある

14 広範囲語は? 広範囲語とは何か? さまざまなテキストに広く出現する(利用される)語のことをいう
1つのテキスト中での出現頻度が高頻度か,低頻度かは別問題 多くのテキストで広く使われるという意味で, あまり特徴を持たないと考えられる 無特徴語でもある

15 語彙の計量的な分析(7) 頻度と範囲のマトリックス 高頻度語で低範囲語 高頻度語で広範囲語 低頻度語で低範囲語 低頻度語で広範囲語
それぞれどんな意味があるのだろうか?

16 語彙の計量的な分析(8) 頻度と範囲のマトリックス 高頻度語で低範囲語 高頻度語で広範囲語 特定のテキストにしか出てこない
1つのテキストにはたくさん出てくる →そのテキストの特徴をよく表した語である! 高頻度語で広範囲語 多くのテキストに広くでてくる 1つのテキストにもたくさん出てくる →そのテキストの特徴をほとんど表さない語である!

17 語彙の計量的な分析(9) 頻度と範囲のマトリックス 低頻度語で低範囲語 低頻度語で広範囲語 特定のテキストにしか出てこない
1つのテキストに少ししか出てこない →かなり特殊な語かもしれない.意味があるかは不明. 低頻度語で広範囲語 多くのテキストに広く出てくる →量は少ないが広く出てくるので,何かの役割がある?

18 語の出現の性質の応用 基本的な情報検索 情報検索って何? 考え方の基本に語の出現の性質がある keywordを入力→関連のあるテキストを検索
(本当は)検索者の検索要求(query)をシステムに伝える(=これがkeywordのことが多い) システムが要求にあうテキストを探そうとがんばる (=キーワードに合致するテキスト探す)

19 基本的な情報検索 検索意図 検索質問 query 検索要求 文書群 (database) 照合 該当文書

20 基本的な情報検索(2) 文書群 キーワードの場合が多い 検索意図 検索質問 query 検索要求 照合 (database)
キーワードの内容に良く合うものを探す 該当文書 キーワードの内容に良く合う内容を持った文書群

21 基本的な情報検索(3) テキストのこと(内容)をよく表すものって何? 高頻度ならいいのか? →「キーワードの内容に良く合うもの」って何?
語の出現の傾向という観点で考えてみると テキストのこと(内容)をよく表すものって何? 語のはず.しかも,テキスト内で高頻度の語 高頻度ならいいのか? 広範囲語は,あまり強くそのテキストの特徴になっていない

22 基本的な情報検索(4) 1つのテキストの特徴をよく表す語は テキスト内の各語について 高頻度語であり,広範囲語でない語と考えられる
それぞれの語がどのくらいよく特徴を示すかをその語の出現の仕方を手がかりに点数付け term frequency (TF) そのテキストでの頻度 document frequency (DF) 出現範囲の広さ という2つの計量的な値を語の点数付けに利用

23 基本的な情報検索(5) テキストを収集 テキストを形態素解析(単語を認定) 不要語(無特徴語)を除去 残った語を索引語とする
stopword (the,a,is,of,...) 助詞,助動詞などの機能語 残った語を索引語とする

24 基本的な情報検索(6) 索引語 つづき 最も単純な場合 文書1 文書2 文書3 文書4 文書5 索引語A ○ × 索引語B 索引語C
索引語 つづき 最も単純な場合 文書1 文書2 文書3 文書4 文書5 索引語A × 索引語B 索引語C 索引語D

25 基本的な情報検索(7) tf 索引語 つづき 出現数(tf) 文書1 文書2 文書3 文書4 文書5 索引語1 1 5 2 3 索引語2
索引語 つづき 出現数(tf) tf 文書1 文書2 文書3 文書4 文書5 索引語1 1 5 2 3 索引語2 索引語3 4 索引語4 6 8 7 索引語5 索引語6 索引語7

26 基本的な情報検索(8) tf 索引語 つづき 出現文書数(df) df 索引語1 1 5 2 3 4 索引語2 索引語3 索引語4 6 8
文書1 文書2 文書3 文書4 文書5 df 索引語1 1 5 2 3 4 索引語2 索引語3 索引語4 6 8 7 索引語5 索引語6 索引語7

27 基本的な情報検索(9) tf (log N/df) +1 索引語 つづき df 索引語1 1 5 2 3 4 1.22 索引語2 1.51
索引語 つづき  tf 文書1 文書2 文書3 文書4 文書5 df 索引語1 1 5 2 3 4 1.22 索引語2 1.51 索引語3 索引語4 6 8 7 1.00 索引語5 索引語6 索引語7 1.92

28 基本的な情報検索(10) tf.idf tf ×(log N/df) +1 索引語 つづき 索引語1 1.22 6.10 2.44 3.66
索引語 つづき  tf.idf 文書1 文書2 文書3 文書4 文書5 索引語1 1.22 6.10 2.44 3.66 索引語2 4.53 3.02 索引語3 6.04 索引語4 6.00 8.00 7.00 5.00 索引語5 1.51 索引語6 7.55 索引語7 5.76 3.84

29 基本的な情報検索(11) tf.idf tf ×(log N/df) +1
索引語 つづき  tf.idf 文書1 文書2 文書3 文書4 文書5 索引語1 1.22 6.10 2.44 3.66 索引語2 4.53 3.02 索引語3 6.04 索引語4 6.00 8.00 7.00 5.00 索引語5 1.51 索引語6 7.55 索引語7 5.76 3.84 あるテキストで                ある索引語(単語)が たくさん出現し, しかも,その索引語は            あまり多くのテキストに出現しない    のなら,その索引語は           そのテキストを良く特徴付けている語  であると考える

30 基本的な情報検索(12) 5.入力 keywordを 使って, 索引語と 照合する 6. 各文書の一致度を値から計算して,大きい順に提示
文書1 文書2 文書3 文書4 文書5 索引語1 1.22 6.10 2.44 3.66 索引語2 4.53 3.02 索引語3 6.04 索引語4 6.00 8.00 7.00 5.00 索引語5 1.51 索引語6 7.55 索引語7 5.76 3.84 5.入力 keywordを 使って, 索引語と 照合する 6. 各文書の一致度を値から計算して,大きい順に提示 例:keywordが索引語1なら 文書3,5,4,1の順

31 基本的な情報検索(13) 上手な検索の仕方 こういう方法が成り立つ根拠は,語の偏りがテキストの特徴,情報の特徴を表すから
自分が欲しい情報を表す特別な語を考える 1語では苦しいので複数の語で表す (and検索,絞込み) 検索結果が少なかったら,表現を変えてみる  (or検索,拡張)  こういう方法が成り立つ根拠は,語の偏りがテキストの特徴,情報の特徴を表すから  複数の語が同時に出てくる割合は単数よりかなり減るから.  同じ内容でもいろいろな言葉で表せるから.


Download ppt "コーパス言語学実践 2006年度2学期 第10回."

Similar presentations


Ads by Google