1.自然言語処理システム 2.単語と形態素 3.文節と係り受け

Slides:



Advertisements
Similar presentations
英作文支援システムの 構築に関する研究 平成 15 年 11 月 18 日 ( 火 ) A1 グループ M2 永易 稔 中間発表.
Advertisements

第 23 課 花見の 人々は 楽しそうです 二 回 目. 1.助動詞そうだ:様態を表す 接続: § 形容詞語幹+そうだ ☆ない → なさそうだ ☆よい → よさそうだ § 形容動詞語幹+そうだ § 動詞Ⅰ連用形+そうだ.
自然言語処理 平成 24 年 11 月 5 日 (No5)- 東京工科大学 コンピュータサイエンス学部 亀田弘之.
音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
東京工科大学 コンピュータサイエンス学部 亀田弘之
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
最大エントロピーモデルに基づく形態素解析と辞書による影響
ヘルスケア連動型 市販薬検索システム 研究者 : 加納 えり 指導教員 : 越田 高志.
Twitterの発言に基づくウェブページ推薦システム
コーパス言語学実践 2006年度2学期 第10回.
ことばとコンピュータ 2007年度1学期 第13回.
言語体系とコンピュータ 第5回.
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
奈良先端科学技術大学院大学 情報科学研究科 松本裕治
言語体系とコンピュータ 第6回.
オンライン英単語・リスニング 学習ソフト 佐々木研究室 N02k1114 北隅 麻実.
連体修飾節 欧志豪 南台科技大学応日所院生.
情報とコンピュータ 静岡大学工学部 安藤和敏
実験 関数・記号付き文型パターンを用いた機械翻訳の試作と評価 石上真理子 水田理夫 徳久雅人 村上仁一 池原悟 (鳥取大) ◎評価方法1
東京工科大学 コンピュータサイエンス学部 亀田弘之
ことばとコンピュータ 2007年度1学期 第3回.
OSC京都 2016 おーぷん万葉プロジェクト 京橋 ひよわ
テキストマイニング, データマイニングと 社会活動のトレース
コーパス言語学実践 2006年度2学期 第5回.
部分形態素解析を用いた コーパスの品詞体系変換
第十三课.
4Y-4 印象に残りやすい日本語パスワードの合成法
12月08日 構文解析 入力文(記号列)が与えられたとき,文法によってその文を解析し,その構造を明らかにする.
新聞の中で「優遇」「委託」「しかし」「問題」のうち頻度が一番高いものはどれか。
東京工科大学 コンピュータサイエンス学部 亀田弘之
形態素解析および係り受け解析・主語を判別
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
1月19日 辞書 自然言語処理における辞書の役割 機械辞書設計の要点 辞書の種類と用途.
平成22年6月15日 図書系職員のための アプリケーション開発講習会
検索エンジンを利用した Covert Channelの検出
自然言語処理及び実習 第11回 形態素解析.
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
自然言語処理2016 -平成28年11月7日・14日(No.6&7)-
東京工科大学 コンピュータサイエンス学部 亀田弘之
2018/9/10 ACL読み会 名古屋大学大学院 M2 佐藤・松崎研 土居裕典.
知識情報演習Ⅲ(後半第2回) 辻 慶太
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
東京工科大学 コンピュータサイエンス学部 亀田弘之
形態素解析ドライバモデルの実装と コーパスの品詞体系変換への応用
音声認識・翻訳 Android アプリケーション制作
日本の表音文字(ひらがな、かたかな)と漢字
Happinessの歴史と 日本語処理のエピソード (株)平和情報センター 沓澤 尚明.
テキストマイニング, データマイニングと 社会活動のトレース
東京工科大学 コンピュータサイエンス学部 亀田弘之
文書分類モデルの統計的性質に関する一考察
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
構造的類似性を持つ半構造化文書における頻度分析
データ工学特論 第六回 木村昌臣.
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
自然言語処理2015 Natural Language Processing 2015
並列構造に着目した係り受け解析の改善に関する研究
第7回 Q&A メール講座 Next Stage:翻訳力アップ自己トレ(1)
シソーラス情報を用いた童話文章登場人物の 感情情報読み取りシステム
コンパイラ 2012年10月11日
情報とコンピュータ 静岡大学工学部 安藤和敏
形態素解析と構文解析 金子邦彦.
自然言語処理2016 Natural Language Processing 2016
mi-8. 自然言語処理 人工知能を演習で学ぶシリーズ(8)
識別子の読解を目的とした名詞辞書の作成方法の一試案
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
Presentation transcript:

1.自然言語処理システム 2.単語と形態素 3.文節と係り受け 自然言語処理:第2回 1.自然言語処理システム 2.単語と形態素 3.文節と係り受け

2.自然言語処理とは 自然言語処理システム 自然言語処理の技術を使った役に立つシステム 音声認識 仮名漢字変換 OCR

1.自然言語処理システム その他の自然言語処理システム 情報検索 文やキーワードを提示して、それに関連した情報をWebから自動的に探してくる Google 検索の賢いやつ 入力が文の場合は、自動的にキーワードを見つける必要がある

1.自然言語処理システム その他の自然言語処理システム 自動要約、情報抽出(テキストマイニング) 今の社会では、情報はたくさんあるが、多すぎて全部を見ることができない 必要あるいは重要な部分だけ、自動的に抽出してくれると便利 対話システム 情報メディアプロジェクトⅡで

1.自然言語処理システム 機械翻訳 ルールベース翻訳 ちゃんと構文解析や意味解析して、その結果から翻訳をする 統計翻訳 対訳関係にある文のペア(パラレルコーパス)を大量に集め、そこから得られる統計量を利用する

2.単語と形態素 単語とは? ① 文の要素 ② 文字の列からなる ③ 意味や機能と対応がとれる 英語の「I」が単語なら、 ① 文の要素 ② 文字の列からなる ③ 意味や機能と対応がとれる 英語の「I」が単語なら、 同じ意味の日本語「私は」も単語? bookとbooksでは? 単語という言葉はちゃんと定義されていない

2.単語と形態素 形態素の定義 意味や機能に対応した文字の並び 「私は」は形態素? 「私」  意味がある 「は」  直前の形態素は主語であることを表す       機能 「運動」は形態素? 「運」、「動」  漢字としての意味しかない

2.単語と形態素 内容語と機能語 形態素  意味や機能に対応した文字の並び 内容語  意味 単独で文になれる   「明日」「走る」「本」「大きい」「もっと」 機能語  機能 内容語と一緒になることではじめて文になれる   「は」「から」「です」

2.単語と形態素 形態素と品詞 品詞  内容語、機能語を使い方で分類したもの 単独で主語になれる  名詞、代名詞 動詞、形容詞を修飾する  副詞 直前の動詞の意味を補う  助動詞 色々な品詞の定義のしかた(品詞体系)があるが Unidicの品詞体系を紹介

2.単語と形態素 Unidicの品詞体系 大分類 名詞、代名詞、形状詞、連体詞、 副詞、接続詞、感動詞、動詞、 形容詞 内容語 助詞、助動詞、接頭辞、接尾辞、 記号 機能語

2.単語と形態素 名詞の小分類 名詞  主語になれる 述語になれるか? 名詞+「だ」  OK 名詞+「する」  ? 名詞+「だ」  OK  名詞+「する」  ? 後ろに「な」が付けられるか? 後ろに直接形容詞や動詞がくるか? 実は多くの名詞は動詞(サ変動詞)や形容動詞、 副詞としての使い方ができる

2.単語と形態素 形態素解析 与えられた文を形態素に分解する 字面が同じでも、品詞が違えば、別形態素 品詞も意味も同じでも、字面が違う(活用) 品詞、意味、字面が同じでも読みが違う 音声認識 音声 形態素列 仮名漢字変換 仮名 形態素列 形態素解析    文字列 形態素列

2.単語と形態素 与えられた文を形態素に分解する 与え・与える・動詞・下一段・未然 られ・られる・助動詞・下一段・連用 た・た・助動詞・特殊・連体 文・名詞・一般 を・助詞・格助詞 形態素・名詞・一般 に・助詞・格助詞 分解・名詞・サ変 する・する・動詞・サ変・終止形

2.単語と形態素 形態素解析の実行方法 形態素に分解する 「形」「形態」「形態素」 「形態素に」... が形態素として存在するかどうかを調べる (辞書を引く) 形態素に分解する  行き詰る(態素が×) 最後まで、辞書にある単語に分けられれば成功 複数の分け方があったら?

2.単語と形態素 形態素解析の実行方法 複数の分け方があったら? 1)文法チェック 「ない」の前は必ず未然形 2)分け方に対するスコア 形態素の並びとして自然かどうか 言語モデル N-gram

2.単語と形態素 形態素解析の例題 すごいねこのカレー

2.単語と形態素 形態素解析の例題 すごいねこのカレー 一見簡単そうに見えるが

2.単語と形態素 形態素解析の例題 すごい/ね/この/カレー

2.単語と形態素 形態素解析の例題 すごい/ねこ/の/カレー

2.単語と形態素 形態素解析の例題 すごい/ねこ/の/カレー

2.単語と形態素 形態素解析の例題 すごい/ねこ/の/カレー 答えが一意に決まるとは限らない

3.文節と係り受け 文節とは? 一つの内容語とそれに関係している機能語 の集まり 今日の実験は大失敗だ。 今日/の/実験/は/大/失敗/だ/ 。 / 今日/の/実験/は/大/失敗/だ/ 。 / 内容語を一つだけ含むので、意味の単位

3.文節と係り受け 各形態素が他のどの形態素と関係をもっているか? 文の構造を調べる テーブルのコップを持つ 文の構造が分らないと、「持つ」のは「コップ」 なのか「テーブル」なのかわからない 内容語と機能語の関係は簡単  文節 内容語と内容語の関係は  係り受け解析

3.文節と係り受け 日本語の係り受け解析 各文節がどの文節を修飾しているか テーブルのコップを持つ 係り受けルール① (どの言語でも共通) 係り受けルール① (どの言語でも共通)   係り受けを示す矢印は交差しない うなぎを浜松に食べに行く

3.文節と係り受け 日本語の係り受け解析 係り受けルール② (日本語固有) 係り受けを示す矢印は常に前から後ろ なぜ? 係り受けルール② (日本語固有)   係り受けを示す矢印は常に前から後ろ なぜ? 日本語では、動詞(句)が最後に来る 日本語は膠着語と呼ばれ、内容語と内容語を 機能語という膠(にかわ)でくっつける 機能語が、次に続く形態素を制約する

3.文節と係り受け 係り受け解析の例題 抽選結果は11月に、申し込んだ全員に通知される。

3.文節と係り受け 係り受け解析の例題 抽選結果は11月に、申し込んだ全員に通知される。

3.文節と係り受け 係り受け解析の例題 抽選結果は11月に、申し込んだ全員に通知される。

レポート 今日は天気が良くない 文節に区切った場合、どちらが正しいか 理由と共に述べよ ① 今日は天気が良くない ② 今日は天気が良くない ① 今日は天気が良くない ② 今日は天気が良くない ヒント   文節には必ず一つだけ内容語が含まれる レポート提出のメールの件名は  NLP-1-学籍番号 で

質問&レポート yama@info.kindai.ac.jp http://www.info.kindai.ac.jp/NLP