自然言語処理及び実習 第11回 形態素解析
これまでの内容 自然言語処理応用としての情報検索 情報検索コンテスト http://research.nii.ac.jp/ntcir/index-ja.html
本日の到達目標 形態素解析とは 日本語の形態素解析 優先規則 (コスト) Viterbiアルゴリズム
形態素解析とは 自然言語の階層構造 -- 音素: 音の単位 -- 形態素: 意味を持つ最小単位 – 欧米語 -- 音素: 音の単位 -- 形態素: 意味を持つ最小単位 – 欧米語 -- 語: 文法上一つの機能をもつ最小の言語単位 -- 文: 表記において句点が与えられる言語単位 -- 文章・テキスト: 文の順序づけられた集まり 意味を持つ最小の単位を認識する
日本語の形態素解析 入力文を辞書中の語の組み合わせに分解すること 「和平共同宣言を初めて積極評価」 和平 ワヘイ 和平 名詞-一般 共同 キョウドウ 共同 名詞-サ変接続 宣言 センゲン 宣言 名詞-サ変接続 を ヲ を 助詞-格助詞-一般 初めて ハジメテ 初めて 副詞-一般 積極 セッキョク 積極 名詞-一般 評価 ヒョウカ 評価 名詞-サ変接続
形態素解析が使用されているソフトウェア
形態素解析処理 辞書を参照して入力文中の各位置から始まる語を取り出し 連接可能性をチェックしながら取り出された語をつないでいく
形態素解析で用いる辞書 単語辞書:語の品詞、読み、活用型などが記載された辞書 連接可能性辞書:連接可能な2語のタイプが記載された辞書
連接可能性辞書(接続テーブル) 名詞 連体詞 サ変 代名詞 形式 助詞 動詞 形容詞 ○ × サ変名詞 形式名詞
形態素解析 例 0 こ 1 の 2 ひ 3 と 4 こ 5 と 6 で 7 元 8 気 9 に10 な 11 っ 12 た 13 この 形態素解析 例 0 こ 1 の 2 ひ 3 と 4 こ 5 と 6 で 7 元 8 気 9 に10 な 11 っ 12 た 13 この (連体詞) 文頭 文末
形態素解析 例 接続テーブルに明記されている品詞の並びを線で結ぶ ひとこと (名詞) ひと ひ この (連体詞) になった (動詞) 文末 形態素解析 例 接続テーブルに明記されている品詞の並びを線で結ぶ ひとこと (名詞) ひと ひ この (連体詞) になった (動詞) 文末 で (動詞) 元気 (名詞) こ (接尾辞) の (助詞) こと (名詞) に (助詞) なった (動詞) と (助詞) で (助詞)
優先規則 複数の形態素解析結果から、もっともらしい結果だけを選択するための規則 最長一致法:文頭から長い語を優先する(縦型探索) 2文節最長一致法:文頭から2文節ごとの長さが長い解を優先する(縦型探索) 形態素数最小法:語数が少ない解を優先する 文節数最小法: 文節数が少ない解を優先する コスト最小法: 語や語の連接にコストを与えて、総コストの少ない解を優先する
補足(縦型探索と横型探索) 1 1 縦型探索 横型探索
語(単語)と文節 語:単語のこと。名詞、動詞、形容詞… 文節:体言と用言のこと。 体言とは、名詞(連続)+助詞 体言とは、名詞(連続)+助詞 用言とは、動詞、形容詞、形容動詞 文節の例: 「アンケートの回答説明があった」 → 「アンケートの」「回答説明が」「あった」
情報検索における形態素解析の利用(Nグラムモデルとの比較) 「連接」 「文字」 「索引」 「引語」
ユニグラムモデル 「ゲーム業界初の就職ゲームを発売した」 1. Raw: 漢字、ひらがなは一文字を語とする。カタカナはカタカナ文字の終了までを語とする。 例:ゲーム, 業, 界, 初, 就, 職, 発, 売 2. Short: 単語。 例: ゲーム, 業界, 初, 就職, 発売 3. Long: 名詞の連続、接頭辞、接尾辞を含む名詞を語とする。 例: ゲーム業界初, 就職ゲーム, 発売 4. Joined: 助詞の「の」「と」などを用いて連続した名詞を語とする。 例: ゲーム業界初の就職ゲーム
精度比較 日本経済新聞1,101記事に対し, 30からなる検索要求文(Fujii&Croft,1993) 文字単位 形態素解析 Raw 60.5% 65.2% Short 62.9% Long 66.6% Joined 60.8% Sufaryなどの検索システムで使用
本日の到達目標 形態素解析とは 日本語の形態素解析 優先規則 (コスト) Viterbiアルゴリズム
優先規則 複数の形態素解析結果から、もっともらしい結果だけを選択するための規則 最長一致法:文頭から長い語を優先する(縦型探索) 2文節最長一致法:文頭から2文節ごとの長さが長い解を優先する(縦型探索) 形態素数最小法:語数が少ない解を優先する 文節数最小法: 文節数が少ない解を優先する コスト最小法: 語や語の連接にコストを与えて、総コストの少ない解を優先する
コスト最小法とは コストとは -- 語と語の連結の強さ 語と語の間に連結の強さを与え, 総コストの少ない解を優先して解析結果とする
コスト最小解を求める方法 (Viterbi Algorithm) ( ) 40 ( ) 10 ( ) 10 ( ) 40 ( ) 10 ひとこと (名詞) ひと ひ ( ) 40 この (連体詞) ( ) 40 ( ) 40 文頭 ( ) 10 で (動詞) 10 ( ) ( ) 10 こと (名詞) ( ) 10 と (助詞) で (助詞) 単語コスト 連接コスト 部分最小コスト ( ) 10 ( ) 40 ( ) 10 ( ) 10 10 ( ) ( ) 10 ( ) → 部分最小コストの値 数字 → 単語、あるいは連接コストの値
コスト最小解を求める方法 (Viterbi Algorithm) ( ) 40 (20 ) 10 ( ) 10 ( ) 40 (10) 10 ひとこと (名詞) ひと ひ ( ) 40 この (連体詞) ( ) 40 ( ) 40 文頭 ( ) 10 で (動詞) 10 ( ) ( ) 10 こと (名詞) ( ) 10 と (助詞) で (助詞) 単語コスト 連接コスト 部分最小コスト ( ) 10 ( ) 40 ( ) 10 ( ) 10 10 ( ) ( ) 10
形態素解析結果 この(連体詞) ひとこと(名詞) で(動詞) この(連体詞) ひとこと(名詞) で(助詞)
日本語と英語の形態素解析ツール 日本語 http://chasen.naist.jp/hiki/ChaSen/ http://chasen.naist.jp/hiki/ChaSen/ http://www.kc.t.u-tokyo.ac.jp/nl-resource/juman-form.html 英語 HMM: parcftp.xerox.com:/pub/tagger A supervised pos tagger: ftp.cs.jhu.edu/pub/brill/Programs/ Decision tree tagger: http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/DecisionTreeTagger.html
Viterbi アルゴリズム 例題 与えられた単語列に対してViterbiアルゴリズムを適用し、得られる形態素結果を求めなさい。
Viterbi アルゴリズム 例題 time flies like an arrow 0.6 0.3 0.4 0.2 0.7 文頭 名詞 0.1 動詞 0.7 冠詞 1.0 名詞 0.3 0.1 0.3 0.4 0.2 動詞 0.2 前置詞 1.0 0.1 0.1 0.2 0.2 形容詞 1.0
本日の到達目標 形態素解析とは 日本語の形態素解析 優先規則 (コスト) Viterbiアルゴリズム