ことばとコンピュータ 2007年度1学期第3回.

Slides:

Advertisements

Similar presentations

自然言語処理平成 24 年 11 月 5 日 (No5)- 東京工科大学コンピュータサイエンス学部亀田弘之.

Advertisements

コーパス言語学実践 2006 年度 2 学期第 2 回. 2 本日の内容前半の作業について – 語彙調査の演習 – 用語の説明語彙，単位語，延べ語，異なり語，見出し語作成作業その１ – データ収集開始.

J: Magical Switches JAG 模擬地区予選 2013 原案：保坂解答：保坂・楠本解説：保坂.

大規模コーパスから獲得した名詞の出現パターンを用いた事態名詞の項構造解析

東京工科大学コンピュータサイエンス学部亀田弘之

Conditional Random Fields を用いた日本語形態素解析

自然言語処理：第３回１．前回の確認２．構文解析３．格文法.

最大エントロピーモデルに基づく形態素解析と辞書による影響

ヘルスケア連動型市販薬検索システム研究者：加納　えり指導教員：越田　高志.

形態素周辺確率を用いた分かち書きの一般化とその応用

C言語　配列 2016年　吉田研究室.

言語体系とコンピュータ第5回.

PROVERB ことわざ.

知識情報演習Ⅲ（後半第1回）辻慶太（水）

情報学類吉田光男アドバイザー教官：山本幹雄先生

言語の統計統計の対象量単語 NグラムとKWIC HMMと形態素解析への応用.

奈良先端科学技術大学院大学情報科学研究科松本裕治

言語体系とコンピュータ第6回.

オンライン英単語・リスニング学習ソフト佐々木研究室 N02k1114 北隅　麻実.

情報とコンピュータ静岡大学工学部安藤和敏

実験関数・記号付き文型パターンを用いた機械翻訳の試作と評価石上真理子水田理夫徳久雅人村上仁一池原悟（鳥取大） ◎評価方法１

「データ学習アルゴリズム」第３章複雑な学習モデル 3.1 関数近似モデル ….. … ３層パーセプトロン

東京工科大学コンピュータサイエンス学部亀田弘之

OSC京都 2016 おーぷん万葉プロジェクト京橋ひよわ

テキストマイニング，データマイニングと社会活動のトレース

コーパス言語学実践 2006年度2学期第5回.

上坂吉則尾関和彦文一総合出版宮崎大輔2003年6月28日（土）

１．自然言語処理システム２．単語と形態素３．文節と係り受け

部分形態素解析を用いたコーパスの品詞体系変換

東京工科大学コンピュータサイエンス学部亀田弘之

形態素解析および係り受け解析・主語を判別

動詞の共起パターンを用いた動作性名詞の述語項構造解析

言語学　語のかたち① pp

自然言語処理及び実習第11回　形態素解析.

大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換

7. 音声の認識：高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.

識別子の命名支援を目的とした動詞-目的語関係の辞書構築

6.2.4 辞書項目(1) 辞書項目にも、語に対するＤＡＧを与える。

ChaIME: 大規模コーパスを用いた統計的仮名漢字変換

混合ガウスモデルによる回帰分析および逆解析 Gaussian Mixture Regression GMR

東京大学OPAC Plus “言選Web” -関連学術用語による日本語文献情報への簡易ナビゲーションシステム-

大規模データによる未知語処理を統合したスケーラブルな仮名漢字変換

知識情報演習Ⅲ（後半第2回）辻　慶太

分子生物情報学(2) 配列のマルチプルアライメント法

類似度を用いた WWW のリンク構造の解析谷　研究室　　　　栗原　伸行.

東京工科大学コンピュータサイエンス学部亀田弘之

形態素解析ドライバモデルの実装とコーパスの品詞体系変換への応用

系列ラベリングのための前向き後ろ向きアルゴリズムの一般化

分子生物情報学(3) 確率モデル（隠れマルコフモデル）に基づく配列解析

テキストマイニング，データマイニングと社会活動のトレース

様々な情報源（４章）.

東京工科大学コンピュータサイエンス学部亀田弘之

東京工科大学コンピュータサイエンス学部亀田弘之

コンパイラ 2011年10月20日

東京工科大学コンピュータサイエンス学部亀田弘之

文法と言語ー文脈自由文法とLR構文解析ー

第9章学習アルゴリズムとベイズ決定側〔3〕最小2乗法とベイズ決定側発表：2003年7月4日時田陽一

人工知能特論II　第8回二宮　崇.

東京工科大学コンピュータサイエンス学部亀田弘之

東京工科大学コンピュータサイエンス学部亀田弘之

明示的文法知識が正確な言語使用に結びつかないケース浦野研（北海学園大学）

第７回 Q＆A メール講座 Next Stage：翻訳力アップ自己トレ（１）

シソーラス情報を用いた童話文章登場人物の感情情報読み取りシステム

コンパイラ 2012年10月11日

情報とコンピュータ静岡大学工学部安藤和敏

情報数理Ⅱ 第10章　オートマトン平成28年12月21日.

東京工科大学コンピュータサイエンス学部亀田弘之

情報処理Ⅱ 第３回 2004年10月19日（火）.

東京工科大学コンピュータサイエンス学部亀田弘之

混合ガウスモデル Gaussian Mixture Model GMM

Presentation transcript:

ことばとコンピュータ 2007年度1学期第3回

本日の内容前回のおさらい文を単語に区切って品詞を決める日本語編英語編

前回のおさらい（1）文を単語に区切って，品詞を決める「このひとことで元気になった」日本語編　→この／ひとこと／で／元気／に／なっ／た　　　　　　　連体詞　　　名詞　助詞　名詞　助詞　動詞　助動詞

おさらい（2）日本語は一般に，語の区切り，空白がない →単語を切り出す ※最も重要で難しい語形変化したものを基本形にする →単語を切り出す　※最も重要で難しい　語形変化したものを基本形にする　単語に品詞を付与

おさらい（3）コンピュータには文字以上のことはわからない少なくとも　「単語」を知る必要がある　無理のない単語の並びを知る必要がある

おさらい（4）単語辞書と連接規則単語辞書連接規則単語の基本形，読み，品詞，活用の型などを記述したもの　　を記述したもの連接規則連接（連続して接する）可能な2つの単語のタイプ（主に，品詞とその活用の型）を　記述したもの

おさらい（5）道具と手続き単語を知る道具単語の連接を確かめる規則は揃ったとして，次は，どうやって，それらを使って実際に文を単語に区切って，品詞の付与を行うか？ →アルゴリズム（手続き）

おさらい（6）コスト最小法による形態素解析実際にやりながら学習最初はどこでも切れる可能性がある！ 0の場所からスタート 0 こ1の2 ひ3 と4 こ5 と6 で7 元8 気9 に10な11 っ12 た13 　　最初はどこでも切れる可能性がある！ 0の場所からスタート

おさらい（7）コスト最小法による形態素解析最初はどこでも切れる可能性がある！ 0の場所からスタート「こ」から始まる単語を単語辞書 0 こ1の2 ひ3 と4 こ5 と6 で7 元8 気9 に10な11 っ12 た13 　　最初はどこでも切れる可能性がある！ 0の場所からスタート「こ」から始まる単語を単語辞書で調べる

おさらい（8）コスト最小法による形態素解析最初はどこでも切れる可能性がある！ 0の場所からスタート 0 こ1の2 ひ3 と4 こ5 と6 で7 元8 気9 に10な11 っ12 た13 　　最初はどこでも切れる可能性がある！ 0の場所からスタート「こ」から始まる単語を単語辞書で調べる「こ」（接尾辞），「こ」（名詞），「この」（連体詞）の3つを発見！

おさらい（8）コスト最小法による形態素解析最初はどこでも切れる可能性がある！ 0の場所からスタート 0 こ1の2 ひ3 と4 こ5 と6 で7 元8 気9 に10な11 っ12 た13 　　最初はどこでも切れる可能性がある！ 0の場所からスタート文頭との接続が許されるかどうか連接規則を見る「こ」（接尾辞），「こ」（名詞），「この」（連体詞）の3つを発見！

おさらい（9）コスト最小法による形態素解析最初はどこでも切れる可能性がある！ 0の場所からスタート 0 こ1の2 ひ3 と4 こ5 と6 で7 元8 気9 に10な11 っ12 た13 　　最初はどこでも切れる可能性がある！ 0の場所からスタート文頭との接続が許されるかどうか連接規則を見る「こ」（接尾辞），「こ」（名詞），「この」（連体詞）の3つを発見！

おさらい（10） 50 名詞40 10 こ 10 ラティスを作っていく文頭 10 10 こ　の連体詞10 20

おさらい（11） 30+40=70 名詞40 50 70 ひ名詞40 助詞10 80 60 この 10 10 10 30+40=70 名詞40 80 文頭 10 文末 10 ひと 30 10 10 30 10 80 10 30+40=70 こ　の 10 名詞40 30 10 ひとこと連体詞10 20

おさらい（12）ここを完成さた！ 30+40=70 名詞40 50 70 ひ名詞40 助詞10 80 60 この 10 10 10 30+40=70 名詞40 80 文頭 10 文末 10 ひと 30 10 10 30 10 80 10 30+40=70 こ　の 10 名詞40 30 10 ひとこと連体詞10 20

この/ひとこと/で/元気/に/なっ/た連体詞名詞助詞名詞助詞動詞助動詞この/ひとこと/で/元気/に/なっ/た　連体詞　　　名詞　　　助詞　名詞　助詞　動詞　助動詞

文を単語に区切って品詞を決める英語編文を単語単位に分ける語形変化したものを，原形に戻す．品詞を分析（POS tagging）　→単語の区切りとして空白があるので，あまり問題にならない．　略記はやや問題語形変化したものを，原形に戻す．品詞を分析（POS　tagging）品詞の曖昧性が多く存在するので難しい．中心的な部分

文を単語に区切って品詞を決める（2）実は「形態素解析」と呼ぶ分析形態素は，語基（radical）と接辞（affix）接辞は，接頭辞（prefix）と接尾辞（suffix）語は，形態素1つか，複数形態素から成る 1形態素：　　play, small, kind 　　語基だけ複数形態素：playing →　play-ing 　 smaller → small –er 語基と接尾辞 unkind →　un- kind 　接頭辞と語基

文を単語に区切って品詞を決める（3）規則変化は，変化規則を作成不規則変化は，対応表を作成表を元に形態素は取り出せる実は「形態素解析」と呼ぶ分析形態素は，語基（radical）と　接辞（affix）接辞は，接頭辞（prefix）と接尾辞（suffix）語は，形態素1つか，複数形態素から成る 1形態素：　　play, small, kind 　　語基だけ複数形態素：playing →　play-ing 　 smaller → small –er 語基と接尾辞 unkind →　un- kind 　接頭辞と語基規則変化は，変化規則を作成不規則変化は，対応表を作成表を元に形態素は取り出せる

文を単語に区切って品詞を決める（4）それよりも．．．英語では品詞を決める（POS tagging)が一番難しくて重要品詞タグづけの難しさの例：　　Time flies like an arrow. 光陰矢の如し Time/N flies/V like/Prep an/Det arrow/N Time/N flies/N like/V an/Det arrow/N

文を単語に区切って品詞を決める（5） Time flies like an arrow. Time/N flies/V like/Prep an/Det arrow/N 光陰矢の如し Time/N flies/N like/V an/Det arrow/N トキバエは矢を好む．　　　　　　　　トキバエ→

文を単語に区切って品詞を決める（6） Time flies like an arrow. fliesやlikesの品詞が複数候補あるせい Time/N flies/V like/Prep an/Det arrow/N 光陰矢の如し Time/N flies/N like/V an/Det arrow/N トキバエは矢を好む．　　　　　　　　トキバエ→ fliesやlikesの品詞が　複数候補あるせい

品詞をどうやって決めか（1）品詞タグ付け：尤もらしさの尺度入力単語の列に対して尤もらしい品詞列を与える問題と考える各語について，複数の品詞がありうる場合，どの品詞が尤もらしいか品詞の並びによる優先度例：「The」の後に来る語が動詞にも名詞にもなりうる語である場合　→　名詞が優先される

品詞をどうやって決めか（2）既に品詞付けをしてあるコーパスを元にして，この尤もらしさを自動的に計算品詞タグ付け：尤もらしさの尺度入力単語の列に対して尤もらしい品詞列を与える問題と考える尤もらしさの尺度各語について，複数の品詞がありうる場合，どの品詞が尤もらしいか品詞の並びによる優先度例：「The」の後に来る語が動詞にも名詞にもなりうる語である場合　→　名詞が優先される

品詞をどうやって決めか（3）確率的モデルを利用したPOS tagging 既に品詞付けをしてあるコーパスを元にして，この尤もらしさを自動的に計算品詞タグ付け：入力単語の列に対して尤もらしい品詞列を与える問題と考える尤もらしさの尺度各語について，複数の品詞がありうる場合，どの品詞が尤もらしいか品詞の並びによる優先度例：「The」の後に来る語が動詞にも名詞にもなりうる語である場合　→　名詞が優先される確率的モデルを利用したPOS tagging

品詞をどうやって決めるか（4）考え方入力単語列： W1, W2, W3, W4, …,Wn 　　　　　　例：　　　time, flies, like, an, arrow 求めたい品詞列：　C1, C2, C3, C4, … , Cn 例： N, V, Prep, Det, N P(C1, C2, C3, C4, … , Cn | W1, W2, W3, W4, …,Wn) という条件付確率が最大になる品詞の並び（が求めたい品詞の並び）

品詞をどうやって決めるか（5）考え方入力単語列： W1, W2, W3, W4, …,Wn 　　　　　　例：　　　time, flies, like, an, arrow 求めたい品詞列：　C1, C2, C3, C4, … , Cn 例： N, V, Prep, Det, N P(C1, C2, C3, C4, … , Cn | W1, W2, W3, W4, …,Wn) という条件付確率が最大になる品詞の並び（が求めたい品詞の並び）単語列が（W1, W2, W3, W4, …,Wn）であるときに品詞列が（C1, C2, C3, C4, … , Cn）である確率　(事後確率)

品詞をどうやって決めるか（6）例で考えると．．． W1, W2, W3, W4, W5 　Time flies like an arrow 入力単語列　C1, 　C2 , C3, C4, C5 　Noun Noun Verb Det Noun 可能性の　Noun Verb Prep Det Noun　　ある　Noun Noun Adj 　Det Noun 　品詞列 … 　　「確率的に一番高いものを選ぶ」ということ

品詞をどうやって決めるか（7）計算の仕方最初の式をベイズの定理によって変形　　　P(C1, C2, C3, C4, … , Cn | W1, W2, W3, W4, …,Wn) ベイズの定理によって変形 P(A|B) 　= 　P(A) P(B|A) 　/　P(B) 　　　P(C1, C2, C3, C4, … , Cn )×P( W1, W2, W3, W4, …,Wn| C1, C2, C3, C4, … , Cn ) P(W1, W2, W3, W4, …,Wn)

品詞をどうやって決めるか（8）計算の仕方最初の式をベイズの定理によって変形　　　P(C1, C2, C3, C4, … , Cn | W1, W2, W3, W4, …,Wn) ベイズの定理によって変形 P(A|B) 　= 　P(A) P(B|A) 　/　P(B) 　　　P(C1, C2, C3, C4, … , Cn )×P( W1, W2, W3, W4, …,Wn| C1, C2, C3, C4, … , Cn ) P(W1, W2, W3, W4, …,Wn) 分母のP(W1..)は品詞（C）と無関係≒結果に影響を与えないので考えない

品詞をどうやって決めるか（9）計算の仕方 × 　　　P(C1, C2, C3, C4, … , Cn ) 　　　　　　　　　　　× 　　P( W1, W2, W3, W4, …,Wn| C1, C2, C3, C4, … , Cn ) 　　を最大にする品詞列だとして計算する

品詞をどうやって決めるか（10）計算の仕方（実際）第1項：P(C1, C2, C3, C4, … , Cn)の部分からこういう品詞列が出現する確率　を計算するのだが．．こんな長い品詞列を直接扱うのは困難　　（十分なデータがない） →bigram で　近似

品詞をどうやって決めるか（11）第1項：P(C1, C2, C3, C4, … , Cn)の部分 →bigram で近似　　Time 　　flies 　　　like 　　an 　 arrow 　　　C1, 　　 C2 , 　　C3, 　　 C4, 　　　 C5

品詞をどうやって決めるか（12）第1項：P(C1, C2, C3, C4, … , Cn)の部分 →bigram で　近似　　Time 　　flies 　　　like 　　an 　 arrow 　　　C1, 　　 C2 , 　　C3, 　　 C4, 　　　 C5 P(C1, C2, C3, C4, … , Cn)　～＝ΠP(Ci | Ci-1) 　　　　　　　i=0からnまで　C0=φ架空の品詞で計算

品詞をどうやって決めるか（13）第2項　P( W1, W2, W3, W4, …,Wn| C1, C2, C3, C4, … , Cn )も近似 time{N, Adj, V} flies{N, V} like{Adj,Prep,Adv,Conj,N} P(time | N) P(flies|N) P(like|Adj) P(time | Adj) P(flies|V) P(like|Prep) P(time | V) P(like|Adv) P(like|Conj) P(like|N) P( W1, W2, W3, W4, …,Wn| C1, C2, C3, C4, … , Cn ) 　　　　　　　　　　　　　　　　～＝Π　　P(Wi | Ci) 　　　　　　　　　　　　　　　　　　　　　　　　　i=0からnまで

品詞をどうやって決めるか（14）全体として ΠP(Ci | Ci-1) × P(Wi | Ci) とする i=1～n この計算は，品詞付きのコーパスがあればできる

品詞をどうやって決めるか（15） P(Ci | Ci-1) 品詞Ci-1に続いてCiが出る確率＝ freq(Ci-1, Ci)　/ 　freq(Ci-1) 　　　　　↑　　　　　　　Ci-1の出現回数 Ci-1, Ciという順番の並びの出現回数 P(N|φ) ＝ f(φ,N)　/ f(φ)　＝ 392/685 = 0.57 P(N|det) = f(det, N) / f(det) = 1050/1102 = 0.95 ．．．なんて計算する

品詞をどうやって決めるか（16） WiがCiとして出現する回数 P(Wi | Ci) ある品詞Ciとして単語Wiが出る確率＝ freq(Wi as Ci) / freq(Ci) 　　　　　　↑　　　　　品詞Ciの出現回数　　　WiがCiとして出現する回数　 P(time | N) = f(time as N) / f(N) = 13/ 3481 = 0.0037 P(time | prep) = f(time as Prep) / f(Prep) = 7/1405 = 0.0050 ．．．なんて計算ができる

確率の計算あらかじめ計算可能 Webでこの表から，英語文の単語と品詞の隠れマルコフモデル（HMM，Hidden Markov Model）が作成される

状態遷移図 HMMの状態遷移図例ここまでは予め用意可能

品詞を決める－実践（1）各品詞の並びと，その並び安さを示した確率を計算したいよいよ → 状態遷移図も手に入った →　状態遷移図も手に入ったいよいよ Time　flies like an arrow　の品詞を決める

品詞を決める－実践（2）まず，開始の○にΦを書く Φ

品詞を決める－実践（3）最初の単語 time の品詞を調べる Φ time/N 0.0037 品詞Nがtimeである確率 0.0037 ここまでの出現確率 0.57×0.0037=0.0021 0.57 × 0.0037 = 0.0021 time/N 0.0037 Φ 0.57

品詞を決める－実践（4）次の単語 files の品詞を調べる → 今回の例では NとV flies/N Φ time/N 0.0006 0.000000048 0.57 × 0.0037 = 0.0021 flies/N 0.0006 time/N 0.0037 0.00080 Φ 0.57 0.38 flies/V 0.0013 0.31 0.00065 0.00000085

品詞を決める－実践（5）この先に追加！→ 次の単語 likes の品詞を調べる → 今回の例では NとV とPrep flies/N Φ 0.000000048 0.57 × 0.0037 = 0.0021 flies/N 0.0006 time/N 0.0037 0.00080 Φ 0.57 0.38 flies/V 0.0013 0.31 0.00065 この先に追加！→ 0.00000085

品詞を決める－実践（6）最後の単語 arrow まで続ける → 最終的には可能性のある組み合せが全部出る flies/N Φ time/N →　最終的には可能性のある組み合せが全部出る 0.000000048 0.57 × 0.0037 = 0.0021 flies/N 0.0006 time/N 0.0037 0.00080 Φ 0.57 0.38 flies/V 0.0013 0.31 0.00065 0.00000085

品詞を決める－実践（7）