自然言語処理及び実習 第11回 形態素解析.

Slides:



Advertisements
Similar presentations
英作文支援システムの 構築に関する研究 平成 15 年 11 月 18 日 ( 火 ) A1 グループ M2 永易 稔 中間発表.
Advertisements

自然言語処理 平成 24 年 11 月 5 日 (No5)- 東京工科大学 コンピュータサイエンス学部 亀田弘之.
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
東京工科大学 コンピュータサイエンス学部 亀田弘之
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
テキストデータベースからの 構文構造のマイニング
最大エントロピーモデルに基づく形態素解析と辞書による影響
ヘルスケア連動型 市販薬検索システム 研究者 : 加納 えり 指導教員 : 越田 高志.
形態素周辺確率を用いた 分かち書きの一般化とその応用
言語体系とコンピュータ 第5回.
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
言語の統計 統計の対象量 単語 NグラムとKWIC HMMと形態素解析への応用.
奈良先端科学技術大学院大学 情報科学研究科 松本裕治
情報とコンピュータ 静岡大学工学部 安藤和敏
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
東京工科大学 コンピュータサイエンス学部 亀田弘之
動詞と格要素の共起と 名詞の出現パターンを用いた 事態性名詞の項構造解析
ことばとコンピュータ 2007年度1学期 第3回.
OSC京都 2016 おーぷん万葉プロジェクト 京橋 ひよわ
テキストマイニング, データマイニングと 社会活動のトレース
コーパス言語学実践 2006年度2学期 第5回.
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
部分形態素解析を用いた コーパスの品詞体系変換
4Y-4 印象に残りやすい日本語パスワードの合成法
文字から声をつくる仕組み.
東京工科大学 コンピュータサイエンス学部 亀田弘之
形態素解析および係り受け解析・主語を判別
DixChange プロジェクト ~辞書共通化の試み~
Javaソフトウェア部品検索システムのための索引付け手法の提案と実装
音韻論⑤ ----.
言語学 語のかたち① pp
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
ChaIME: 大規模コーパスを 用いた統計的仮名漢字変換
東京工科大学 コンピュータサイエンス学部 亀田弘之
Tableタグによる Webブラウザでの言語処理結果の汎用表示ツール
東京大学OPAC Plus “言選Web” -関連学術用語による日本語文献情報への 簡易ナビゲーションシステム-
自然言語処理2016 -平成28年11月7日・14日(No.6&7)-
大規模データによる未知語処理を統合したスケーラブルな仮名漢字変換
東京工科大学 コンピュータサイエンス学部 亀田弘之
プログラミングⅠ 平成30年10月29日 森田 彦.
言語学 語のかたち② p.p
<日本語教育とAI:研究実践例と今後の課題 > 読解支援システムへのAI活用の可能性と留意点
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
形態素解析ドライバモデルの実装と コーパスの品詞体系変換への応用
日本の表音文字(ひらがな、かたかな)と漢字
Happinessの歴史と 日本語処理のエピソード (株)平和情報センター 沓澤 尚明.
テキストマイニング, データマイニングと 社会活動のトレース
データ構造とアルゴリズム論 第4章 レコード構造を使った処理-クラスの利用
東京工科大学 コンピュータサイエンス学部 亀田弘之
アルゴリズム論 (第12回) 佐々木研(情報システム構築学講座) 講師 山田敬三
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
構造的類似性を持つ半構造化文書における頻度分析
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
明示的文法知識が 正確な言語使用に結びつかないケース 浦野 研(北海学園大学)
自然言語処理2015 Natural Language Processing 2015
コストのついたグラフの探索 分枝限定法 A*アルゴリズム.
第7回 Q&A メール講座 Next Stage:翻訳力アップ自己トレ(1)
シソーラス情報を用いた童話文章登場人物の 感情情報読み取りシステム
コンパイラ 2012年10月11日
情報とコンピュータ 静岡大学工学部 安藤和敏
自然言語処理2016 Natural Language Processing 2016
mi-8. 自然言語処理 人工知能を演習で学ぶシリーズ(8)
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
Presentation transcript:

自然言語処理及び実習 第11回 形態素解析

これまでの内容 自然言語処理応用としての情報検索 情報検索コンテスト http://research.nii.ac.jp/ntcir/index-ja.html

本日の到達目標 形態素解析とは 日本語の形態素解析 優先規則 (コスト) Viterbiアルゴリズム

形態素解析とは 自然言語の階層構造 -- 音素: 音の単位 -- 形態素: 意味を持つ最小単位 – 欧米語  -- 音素: 音の単位  -- 形態素: 意味を持つ最小単位 – 欧米語  -- 語: 文法上一つの機能をもつ最小の言語単位 -- 文: 表記において句点が与えられる言語単位 -- 文章・テキスト: 文の順序づけられた集まり 意味を持つ最小の単位を認識する

日本語の形態素解析 入力文を辞書中の語の組み合わせに分解すること 「和平共同宣言を初めて積極評価」    和平 ワヘイ 和平 名詞-一般 共同 キョウドウ 共同 名詞-サ変接続 宣言 センゲン 宣言 名詞-サ変接続 を ヲ を 助詞-格助詞-一般 初めて ハジメテ 初めて 副詞-一般 積極 セッキョク 積極 名詞-一般 評価 ヒョウカ 評価 名詞-サ変接続

形態素解析が使用されているソフトウェア

形態素解析処理 辞書を参照して入力文中の各位置から始まる語を取り出し 連接可能性をチェックしながら取り出された語をつないでいく

形態素解析で用いる辞書 単語辞書:語の品詞、読み、活用型などが記載された辞書 連接可能性辞書:連接可能な2語のタイプが記載された辞書

連接可能性辞書(接続テーブル) 名詞 連体詞 サ変 代名詞 形式 助詞 動詞 形容詞 ○ × サ変名詞 形式名詞

形態素解析 例 0 こ 1 の 2 ひ 3 と 4 こ 5 と 6 で 7 元 8 気 9 に10 な 11 っ 12 た 13 この 形態素解析 例 0 こ 1 の 2 ひ 3 と 4 こ 5 と 6 で 7 元 8 気 9 に10 な 11 っ 12 た 13 この (連体詞) 文頭 文末

形態素解析 例 接続テーブルに明記されている品詞の並びを線で結ぶ ひとこと (名詞) ひと ひ この (連体詞) になった (動詞) 文末 形態素解析 例 接続テーブルに明記されている品詞の並びを線で結ぶ ひとこと (名詞) ひと ひ この (連体詞) になった (動詞) 文末 で (動詞) 元気 (名詞) こ (接尾辞) の (助詞) こと (名詞) に (助詞) なった (動詞) と (助詞) で (助詞)

優先規則 複数の形態素解析結果から、もっともらしい結果だけを選択するための規則 最長一致法:文頭から長い語を優先する(縦型探索) 2文節最長一致法:文頭から2文節ごとの長さが長い解を優先する(縦型探索) 形態素数最小法:語数が少ない解を優先する 文節数最小法: 文節数が少ない解を優先する コスト最小法: 語や語の連接にコストを与えて、総コストの少ない解を優先する

補足(縦型探索と横型探索) 1 1 縦型探索 横型探索

語(単語)と文節 語:単語のこと。名詞、動詞、形容詞… 文節:体言と用言のこと。 体言とは、名詞(連続)+助詞      体言とは、名詞(連続)+助詞      用言とは、動詞、形容詞、形容動詞 文節の例: 「アンケートの回答説明があった」 → 「アンケートの」「回答説明が」「あった」

情報検索における形態素解析の利用(Nグラムモデルとの比較) 「連接」 「文字」 「索引」 「引語」

ユニグラムモデル 「ゲーム業界初の就職ゲームを発売した」 1. Raw: 漢字、ひらがなは一文字を語とする。カタカナはカタカナ文字の終了までを語とする。 例:ゲーム, 業, 界, 初, 就, 職, 発, 売 2. Short: 単語。 例: ゲーム, 業界, 初, 就職, 発売 3. Long: 名詞の連続、接頭辞、接尾辞を含む名詞を語とする。 例: ゲーム業界初, 就職ゲーム, 発売 4. Joined: 助詞の「の」「と」などを用いて連続した名詞を語とする。 例: ゲーム業界初の就職ゲーム

精度比較 日本経済新聞1,101記事に対し, 30からなる検索要求文(Fujii&Croft,1993) 文字単位 形態素解析 Raw 60.5% 65.2% Short 62.9% Long 66.6% Joined 60.8% Sufaryなどの検索システムで使用

本日の到達目標 形態素解析とは 日本語の形態素解析 優先規則 (コスト) Viterbiアルゴリズム

優先規則 複数の形態素解析結果から、もっともらしい結果だけを選択するための規則 最長一致法:文頭から長い語を優先する(縦型探索) 2文節最長一致法:文頭から2文節ごとの長さが長い解を優先する(縦型探索) 形態素数最小法:語数が少ない解を優先する 文節数最小法: 文節数が少ない解を優先する コスト最小法: 語や語の連接にコストを与えて、総コストの少ない解を優先する

コスト最小法とは コストとは  -- 語と語の連結の強さ 語と語の間に連結の強さを与え, 総コストの少ない解を優先して解析結果とする

コスト最小解を求める方法 (Viterbi Algorithm) ( ) 40 ( ) 10 ( ) 10 (  ) 40 ( ) 10 ひとこと (名詞) ひと ひ (  ) 40 この (連体詞) ( ) 40 ( ) 40 文頭 ( ) 10 で (動詞) 10 ( ) ( ) 10 こと (名詞) ( ) 10 と (助詞) で (助詞) 単語コスト 連接コスト 部分最小コスト ( ) 10 ( ) 40 ( ) 10 ( ) 10 10 (  ) (  ) 10 (   ) → 部分最小コストの値 数字 → 単語、あるいは連接コストの値

コスト最小解を求める方法 (Viterbi Algorithm) ( ) 40 (20 ) 10 ( ) 10 (  ) 40 (10) 10 ひとこと (名詞) ひと ひ (  ) 40 この (連体詞) ( ) 40 ( ) 40 文頭 ( ) 10 で (動詞) 10 ( ) ( ) 10 こと (名詞) ( ) 10 と (助詞) で (助詞) 単語コスト 連接コスト 部分最小コスト ( ) 10 ( ) 40 ( ) 10 ( ) 10 10 (  ) (  ) 10

形態素解析結果 この(連体詞) ひとこと(名詞) で(動詞) この(連体詞) ひとこと(名詞) で(助詞)

日本語と英語の形態素解析ツール 日本語 http://chasen.naist.jp/hiki/ChaSen/   http://chasen.naist.jp/hiki/ChaSen/ http://www.kc.t.u-tokyo.ac.jp/nl-resource/juman-form.html 英語 HMM: parcftp.xerox.com:/pub/tagger A supervised pos tagger: ftp.cs.jhu.edu/pub/brill/Programs/ Decision tree tagger: http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/DecisionTreeTagger.html

Viterbi アルゴリズム 例題 与えられた単語列に対してViterbiアルゴリズムを適用し、得られる形態素結果を求めなさい。

Viterbi アルゴリズム 例題 time flies like an arrow 0.6 0.3 0.4 0.2 0.7 文頭 名詞 0.1 動詞 0.7 冠詞 1.0 名詞 0.3 0.1 0.3 0.4 0.2 動詞 0.2 前置詞 1.0 0.1 0.1 0.2 0.2 形容詞 1.0

本日の到達目標 形態素解析とは 日本語の形態素解析 優先規則 (コスト) Viterbiアルゴリズム