実テキスト解析をささえる 語彙知識の自動獲得

Slides:



Advertisements
Similar presentations
サイトブリッジ株式会社 2014年月1 6日 ZOMEKI を利用した サイト制作の手順. Web サイトの構成 Web サイトの構成要素 ■ デザイン ・ベースカラー、セカンドカラー、アクセントカラー ・イラスト調、写真調 ・派手なトーン、地味なトーン ■ レイアウト ・3カラム、2カラム、1カラム.
Advertisements

ウィキについて 1 1040431 1 1040431 植木貴宏 植木貴宏. ウィキとは? ウェブブラウザを利用して Web サーバ 上のハイパーテキスト文書を書き換え るシステムの一種。 ウェブブラウザを利用して Web サーバ 上のハイパーテキスト文書を書き換え るシステムの一種。 Wiki とは、ハワイ語で「速い」を意味.
コーパス言語学実践 2006 年度 2 学期 第 2 回. 2 本日の内容 前半の作業について – 語彙調査の演習 – 用語の説明 語彙,単位語,延べ語,異なり語,見出し 語 作成作業 その1 – データ収集開始.
ブログ blog ・ブログとは何 か? ・ブログとは何 か? ・ブログの始め方・ブログの使い方 Copyright Ⓒ 2005 Chiaki Emi All right reserved Ver 1.0.
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
東京工科大学 コンピュータサイエンス学部 亀田弘之
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
最大エントロピーモデルに基づく形態素解析と辞書による影響
ヘルスケア連動型 市販薬検索システム 研究者 : 加納 えり 指導教員 : 越田 高志.
形態素周辺確率を用いた 分かち書きの一般化とその応用
言語体系とコンピュータ 第5回.
休講掲示板の電子化 鵜川研究室 菊地洲人 (あらかじめチラシを配る) 情報数理4年の菊地です。 これから私の研究内容の発表を始めます。
ネットショップデザイン入門Ⅰ・Ⅱ  WEB広告による収益.
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
「絵葉書を通じてのハルビンの 街の印象調査」システムUIの iPadアプリ化 谷研究室  飯 祐貴.
参照共起分析の Webディレクトリへの適用
前回までの配布資料(Webにないもの):教室の後方
前回までの配布資料(Webにないもの):教室の後方
オンライン英単語・リスニング 学習ソフト 佐々木研究室 N02k1114 北隅 麻実.
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
共起用例と名詞の出現パターンを用いた動作性名詞の項構造解析
連想概念辞書の構築 感性語の収集 ニューラルネットによる実装 マルチモーダル対話システム 漢字フォントの合成
動詞と格要素の共起と 名詞の出現パターンを用いた 事態性名詞の項構造解析
テキストマイニング, データマイニングと 社会活動のトレース
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
NIIメタデータデータベースの構想 国立情報学研究所 開発・事業部 コンテンツ課 米 澤 誠
部分形態素解析を用いた コーパスの品詞体系変換
Webサイト運営 09fi118 橋倉伶奈 09fi131 本間昂 09fi137 三上早紀.
2016年3月10日(木) 内閣官房 情報通信技術(IT)総合戦略室
事態性名詞の項構造解析に向けた 述語項構造に関する資源の作成
マーケティング・リサーチ.
重文・複文の基本文型に対する 文型パターン辞書のカバー率
東京工科大学 コンピュータサイエンス学部 亀田弘之
形態素解析および係り受け解析・主語を判別
DixChange プロジェクト ~辞書共通化の試み~
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
1月19日 辞書 自然言語処理における辞書の役割 機械辞書設計の要点 辞書の種類と用途.
平成22年6月15日 図書系職員のための アプリケーション開発講習会
検索エンジンを利用した Covert Channelの検出
言語学 語のかたち① pp
Webデザイン入門  WEB広告による収益.
自然言語処理及び実習 第11回 形態素解析.
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
音高による音色変化に着目した音源同定に関する研究
Tableタグによる Webブラウザでの言語処理結果の汎用表示ツール
東京大学OPAC Plus “言選Web” -関連学術用語による日本語文献情報への 簡易ナビゲーションシステム-
大規模データによる未知語処理を統合したスケーラブルな仮名漢字変換
移動エントロピーによる 動的ネットワーク化を用いた SNSと商品購買の相互関係の分析
<日本語教育とAI:研究実践例と今後の課題 > 読解支援システムへのAI活用の可能性と留意点
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
形態素解析ドライバモデルの実装と コーパスの品詞体系変換への応用
テキストマイニング, データマイニングと 社会活動のトレース
東京工科大学 コンピュータサイエンス学部 亀田弘之
超大規模ウェブコーパスを用いた 分布類似度計算
文書分類モデルの統計的性質に関する一考察
早稲田大学大学院 基幹理工学研究科 情報理工学専攻 後藤研究室 修士1年 魏 元
東京工科大学 コンピュータサイエンス学部 亀田弘之
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
コーディングパターンの あいまい検索の提案と実装
東京工科大学 コンピュータサイエンス学部 亀田弘之
シソーラスとは? ①文章作成用の類義語辞典 → 普通に書店に売っている。 『日本語大シソーラス』 (大修館書店) など。
ブースティングとキーワードフィルタリング によるシステム要求検出
大規模コーパスに基づく同義語・多義語処理
並列構造に着目した係り受け解析の改善に関する研究
ソフトウェア理解支援を目的とした 辞書の作成法
シソーラス情報を用いた童話文章登場人物の 感情情報読み取りシステム
形態素解析と構文解析 金子邦彦.
mi-8. 自然言語処理 人工知能を演習で学ぶシリーズ(8)
1.2 言語処理の諸観点 (1)言語処理の利用分野
Presentation transcript:

実テキスト解析をささえる 語彙知識の自動獲得 柴田 知秀 村脇 有吾 黒橋 禎夫 河原 大輔 京都大学 12/03/14

概要 ブログやtwitterなどの実テキストが爆発的に増加 実テキストに対するアプリケーションを構築するには頑健に解析することが必要不可欠 形態素解析での誤りは後続する解析に伝搬するため、特に重要 解析対象文での出現のみから未知語を認識することやその品詞などを推定することは困難 → WikipediaやWebテキストからあらかじめ語彙知識を獲得しておき、それを解析時に利用

例 ワタシ、爽健美茶派です。 ワタシ/、/爽/健/美/茶/派/です/。 ワタシ/、/爽健美茶/派/です/。 皮膚がカサついてガサガサする。 Wikipediaの「爽健美茶」というエントリから語を獲得 上位語が「清涼飲料水」であることも獲得 皮膚がカサついてガサガサする。 皮膚/が/カサ/ついて/ガサガサ/する/。 皮膚/が/カサついて/ガサガサ/する/。 Webテキストでの出現から「カサつく」という動詞を獲得

基本方針 形態素解析器JUMAN 構文解析器KNP 既存の語彙知識をそのまま形態素解析辞書に入れると形態素の基準に一貫性がなくなる Closed class wordの振舞いは人手で規則化 基本語彙3万語を選定 → 徹底的に整理(表記バリエーション、意味) Open class wordの振舞いは教師無し学習 構文解析器KNP 複数形態素に対して情報(上位語など)を付与 既存の語彙知識をそのまま形態素解析辞書に入れると形態素の基準に一貫性がなくなる 日本語Wordnet [Bond+ 09] Wikipedia上位下位関係 [Sumida+ 08]

システムの概要 形態素解析器 JUMAN 構文解析器 KNP テキスト 子供 走る かさつく 微妙だ ・・・ 待受 カサつく アジャイルだ 基本語彙辞書 (人手整備) Web自動獲得辞書 Wikipedia辞書 (形態素) Wikipedia辞書 (複数形態素) 子供 走る かさつく 微妙だ ・・・ 待受 カサつく アジャイルだ ビミョーだ ・・・ 爽健美茶 ThinkPad スパゲティ スパゲティー ・・・ 京都大学 国土交通省 ・・・ 大規模Webテキスト Wikipedia

目次 Wikipediaからの語彙獲得 Webテキストからの語彙獲得 異表記関係の認識 獲得された辞書の規模と具体例 解析例

目次 Wikipediaからの語彙獲得 Webテキストからの語彙獲得 異表記関係の認識 獲得された辞書の規模と具体例 解析例

Wikipediaからの語彙獲得 Wikipedia Wikipediaから幅広いドメインに関する語を獲得できる インターネット上で最大規模の百科事典 日本語版: 約205万記事 (2011.12現在) Wikipediaから幅広いドメインに関する語を獲得できる 語に関する情報も獲得することができる 読み, 上位語, 異表記, …

読み 上位語 異表記

Wikipediaからの語彙獲得 Wikipediaのエントリには一形態素のものも複数形態素のものもある 一形態素: ThinkPad, ミニストップ, … 複数形態素: 京都大学, 国土交通省, … すべてのエントリを形態素解析辞書に入れるとすでに登録されている形態素解析辞書と形態素の基準がずれる 基本的な考え方 一形態素は形態素解析器JUMANの辞書に登録 複数形態素は構文解析器KNPの辞書に登録

一形態素/複数形態素の判断 現在のJUMANの解析で解析誤りと思われるものを一形態素とみなす 未定義語一語になるもの アルファベット一語 または カタカナ一語 例: ThinkPad, ミニストップ 一文字形態素のみからなるもの 解析誤りの可能性が高いので形態素解析辞書に登録 例: 爽/健/美/茶, み/ん/ぱ/く 複数カタカナ形態素からなり、主辞との分布類似度が低いもの (次ページ)

複数カタカナ形態素 JUMANの辞書に「フット」と「サル」が登録されていると、「フットサル」は「フット/サル」と解析されてしまう 「フットサル」と「サル」の分布類似度[柴田ら09]が低い 「フットサル」をJUMANの辞書に登録 → 「フットサル」と解析されるようになる

付与する意味情報 上位語 (定義文の主辞から獲得) 品詞細分類 ThinkPad: ノートパソコン ミニストップ: コンビニエンスストア 見出し語 上位語 JUMAN カテゴリ 品詞細分類 ロナウジーニョ サッカー選手 人 人名 兼六園 日本庭園 場所ー施設 地名 ダイソー 会社 組織・団体 組織名 (上記以外) インクィジター アクション小説 抽象物 普通名詞

目次 Wikipediaからの語彙獲得 Webテキストからの語彙獲得 異表記関係の認識 獲得された辞書の規模と具体例 解析例

Webテキストからの未知語獲得 何となくググってみた だった。ググらずに答 だけで、ググるための 形態論的制約を用いた未知語同定 [Murawaki+ 08] ラ行動詞, ワ行動詞, タ行動詞 or 名詞  何となくググってみた  だった。ググらずに答  だけで、ググるための ラ行動詞 ラ行動詞, or 母音動詞 語彙的選好による名詞の意味分類 [Murawaki+ 10] さっぽろ → 地名 着メロ → 普通名詞

目次 Wikipediaからの語彙獲得 Webテキストからの語彙獲得 異表記関係の認識 獲得された辞書の規模と具体例 解析例

異表記関係の認識 JUMANでは表記揺れを解消するために代表表記を与えている 基本語「奇麗だ」「綺麗だ」 → “綺麗だ/きれいだ” 自動獲得語、基本語の間で異表記関係を認識し、同一の代表表記を与える

異表記関係の認識 Webテキスト Wikipedia 獲得語 ⇔ 基本語 獲得語 ⇔ 獲得語 漢字の異体字関係 (獲得語 ⇔ 基本語) マツゲ ⇔ まつげ 獲得語 ⇔ 獲得語 スパゲティ ⇔ スパゲティー ⇔ スパゲッティー Webテキスト 漢字の異体字関係 (獲得語 ⇔ 基本語) 店鋪⇔ 店舗 出來る ⇔ 出来る 非規範的表記・音変化 (獲得語 ⇔ 基本語) テキトーだ ⇔ てきとうだ おめー ⇔ おまえ リダイレクトと編集距離 漢字データベース (Unihan) 編集距離と分布類似度

目次 Wikipediaからの語彙獲得 Webテキストからの語彙獲得 異表記関係の認識 獲得された辞書の規模と具体例 解析例

獲得された辞書の規模 Wikipedia Webテキスト 日本語Wikipediaのダンプから獲得 JUMAN辞書: 約14万語 約205万記事 (2012年12月時点) JUMAN辞書: 約14万語 KNP辞書: 約80万語 Webテキスト 1億ページから獲得 約6,000語獲得

Wikipediaから構築された辞書 JUMAN辞書 KNP辞書 見出し語 品詞 品詞細分類 意味情報 爽健美茶 名詞 普通名詞 [上] 清涼飲料水 イチロー 人名 [上] プロ野球選手 祇園 地名 [上] 歓楽街 GLAY 組織名 [上] ロックバンド マツゲ [代] まつ毛/まつげ スパゲティ [代] スパゲッティ/スパゲッティ スパゲティー KNP辞書 複数形態素 付与する情報 湯川 + 秀樹 [上] 理論物理学者 ラファエル + ・ + ナダル [上] 男子プロテニス選手 スーパー + カミオカンデ [上] ニュートリノ検出装置 ThinkPad + 600 [上] ノートパソコン

Webテキストから構築された辞書 見出し語 品詞 品詞細分類 意味情報 がんがる 動詞 ー カサつく [代] かさつく/かさつく アジャイルだ 形容詞 ビミョーだ [代] 微妙だ/びみょうだ 待受 名詞 普通名詞 大學 [代] 大学/だいがく

Wikipedia(JUMAN) Webテキスト(JUMAN) Wikipedia(KNP) 矢印 を 伸ばして る と アンカー 位置 が 勝手に ズレる ・ ・ ・ 。 ゼウス の 陰謀 だ 。 携帯 電話 の QR コード 読取 機能 を 利用 して 、 スタンプ ラリー を 開催 する システム です。 インフォカート で は 売り 切り の 情報 商材 の 販売 だけ で は なく 、 有料 メルマガ など の 継続 型 の 商品 販売 も 可能 そして その すべて の 商品 に アフィリエイト プログラム が 用意 さ れて いる 。 インフォカート で は 情報 起業 家 、 アフィリエイター の 双方 に メリット が ある アフィリエイト が できる 。 Wikipedia(JUMAN) Webテキスト(JUMAN) Wikipedia(KNP)

ファイルサーバ と サーバ の分布類似度が低い 形態素解析変化の例 自動獲得辞書なし 自動獲得辞書あり Wikipedia辞書によるもの トラック (名詞) バック (名詞) トラックバック (名詞) TEL (未定義語) TEL (名詞) DVD (未定義語) DVD (名詞) 粉 (名詞) 引 (未定義語) 粉引 (名詞) 琉 (未定義語) 球 (名詞) 琉球 (名詞) ファイル (名詞) サーバ (名詞) ファイルサーバ (名詞) Web自動獲得辞書によるもの オススメ (未定義語) オススメ (名詞) 釣 (名詞) 果 (名詞) 釣果 (名詞) 魅 (未定義語) せる (動詞) 魅せる (動詞) ロハス (未定義語) な (判定詞) ロハスな (形容詞) ファイルサーバ と サーバ の分布類似度が低い

まとめ WikipediaとWebテキストからの語彙知識を自動獲得し、形態素解析器・構文解析器で利用 異表記関係の認識 今後の課題 カタカナ分割の精度向上 構文解析や省略解析などの高次の解析での語彙知識の利用

京都大学 黒橋・河原研究室のページにて公開 JUMAN7.0 http://nlp.ist.i.kyoto-u.ac.jp/index.php?JUMAN KNP4.0 http://nlp.ist.i.kyoto-u.ac.jp/index.php?KNP 辞書は定期的に更新し、最新版を上記のページで公開予定