大規模データによる未知語処理を統合したスケーラブルな仮名漢字変換

Slides:



Advertisements
Similar presentations
言語情報を利用したテキストマイニ ング 奈良先端科学技術大学院大学 情報科学研究科 工藤 拓 山本 薫 坪井 裕太 松本 裕治.
Advertisements

言語情報を利用したテキストマイニ ング 奈良先端科学技術大学院大学 情報科学研究科 工藤 拓 山本 薫 坪井 裕太 松本 裕治.
2000/Mar/22 第 136 回自然言語処理研究会 1 Unicode を用いた N-gram 索引の 一実現方式とその評価 原田昌紀・風間一洋・佐藤進也 日本電信電話 ( 株 ) 未来ねっと研究所.
小町守( NAIST ) 森信介(京大)・徳永拓之( PFI ) 情報処理学会 夏のプログラミング・シンポジウム 2008 年 9 月 7 越後湯沢.
音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
東京工科大学 コンピュータサイエンス学部 亀田弘之
Conditional Random Fields を用いた 日本語形態素解析
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
テキストデータベースからの 構文構造のマイニング
最大エントロピーモデルに基づく形態素解析と辞書による影響
平成22年11月15日(月) 東京工科大学 コンピュータサイエンス学部 亀田弘之
ヘルスケア連動型 市販薬検索システム 研究者 : 加納 えり 指導教員 : 越田 高志.
形態素周辺確率を用いた 分かち書きの一般化とその応用
言語モデル(200億文のGoogle日本語Nグラムから計算)
言語体系とコンピュータ 第5回.
国内線で新千歳空港を利用している航空会社はどこですか?
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
情報学類 吉田光男 アドバイザー教官: 山本幹雄 先生
言語の統計 統計の対象量 単語 NグラムとKWIC HMMと形態素解析への応用.
奈良先端科学技術大学院大学 情報科学研究科 松本裕治
実験 関数・記号付き文型パターンを用いた機械翻訳の試作と評価 石上真理子 水田理夫 徳久雅人 村上仁一 池原悟 (鳥取大) ◎評価方法1
2 プログラムの基本 本時のねらい 「① プロラムのはたらきを知ろう。」 「② 仕事の流れを図に表そう。」
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
動詞と格要素の共起と 名詞の出現パターンを用いた 事態性名詞の項構造解析
ことばとコンピュータ 2007年度1学期 第3回.
OSC京都 2016 おーぷん万葉プロジェクト 京橋 ひよわ
テキストマイニング, データマイニングと 社会活動のトレース
コーパス言語学実践 2006年度2学期 第5回.
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
部分形態素解析を用いた コーパスの品詞体系変換
4Y-4 印象に残りやすい日本語パスワードの合成法
事態性名詞の項構造解析に向けた 述語項構造に関する資源の作成
共同ローカリゼーション フレームワーク 井上 謙次.
東京工科大学 コンピュータサイエンス学部 亀田弘之
形態素解析および係り受け解析・主語を判別
DixChange プロジェクト ~辞書共通化の試み~
Semi-Supervised QA with Generative Domain-Adaptive Nets
日本語解析済みコーパス管理ツール 「茶器」
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
検索エンジンを利用した Covert Channelの検出
情報管理論 2018/11/9 情報分析の道具 2018/11/9 情報分析の道具 情報分析の道具.
自然言語処理及び実習 第11回 形態素解析.
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
小町守(NAIST) 森信介(京大)・徳永拓之(PFI) 第一回入力メソッドワークショップ
機械翻訳勉強会 NTCIR-7について 2007年10月16日 奈良先端大D1小町守.
ChaIME: 大規模コーパスを 用いた統計的仮名漢字変換
東京大学OPAC Plus “言選Web” -関連学術用語による日本語文献情報への 簡易ナビゲーションシステム-
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
2018/9/10 ACL読み会 名古屋大学大学院 M2 佐藤・松崎研 土居裕典.
<日本語教育とAI:研究実践例と今後の課題 > 読解支援システムへのAI活用の可能性と留意点
形態素解析ドライバモデルの実装と コーパスの品詞体系変換への応用
音声認識・翻訳 Android アプリケーション制作
系列ラベリングのための前向き後ろ向きアルゴリズムの一般化
テキストマイニング, データマイニングと 社会活動のトレース
東京工科大学 コンピュータサイエンス学部 亀田弘之
Number of random matrices
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
ブースティングとキーワードフィルタリング によるシステム要求検出
コーパス管理システム 『ChaKi.NET』
構造的類似性を持つ半構造化文書における頻度分析
大規模コーパスに基づく同義語・多義語処理
シソーラス情報を用いた童話文章登場人物の 感情情報読み取りシステム
Webページタイプによるクラスタ リングを用いた検索支援システム
形態素解析と構文解析 金子邦彦.
mi-8. 自然言語処理 人工知能を演習で学ぶシリーズ(8)
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
Presentation transcript:

大規模データによる未知語処理を統合したスケーラブルな仮名漢字変換 奈良先端大 松本研( D1 )小町守 (協力:京大学術情報メディアセンター 森信介) Special Thanks to 浅原さん ※ときどき一部の方には不快な語句が含まれる場合が ありますのであらかじめご了承ください 2007.10.10

研究の動機 Webの拡大→ユーザ入力文書(CGM)増大 新語や新表現の変換はストレスフル 新しくなって本当に使いづらい・・・前に戻してもらいたいです。慣れれなのかな〜 どぅゃら、風邪をひぃてしまぃました。 頭重ぃし、鼻水がズールズル… でも仕事休めなぃしー カラダだるぃしー もぅ嫌ャーッ!!! ねぇよ こどもやばす wwwwwwwwww 天丼ww おいおい かあいいww ちょww... 2007.10.10

研究背景 Web データを処理したいがタグつきデータ・辞書がない 辞書やコーパスに正しく情報(品詞・単語境界)振るのは(一般の人には)難しい 日本語書き言葉コーパス マダー?? (・ω・` ) ipadic クラスの辞書( ゚Д゚)ホスィ・・・ 辞書やコーパスに正しく情報(品詞・単語境界)振るのは(一般の人には)難しい (できるだけ)品詞情報を用いないで処理したい 気分的には SKK で行きたい、ipadic 作るのはツライ 2007.10.10

研究目的 大規模データを用いた未知語処理を組み込んだ仮名漢字変換 品詞情報を用いない頑健な仮名漢字変換 できるだけ人手をかけないでメンテナンス Web 5億文(河原ら 2007)・Wikipedia・はてな・ココログ・etc… Terascale Knowledge Acquisition 勉強会ヨロシク 品詞情報を用いない頑健な仮名漢字変換 大規模データだから表記の情報だけでもけっこう行けるはず 2007.10.10

確率的モデルによる仮名漢字変換 森ら(1998)の提案 P(x|y) の降順に変換可能文字列 (x1, x2, …) を提示する =P(y|x)P(x)の降順に提示する P(y|x): 確率的仮名漢字モデル P(x): 確率的言語モデル(単語n-gram) 解析済みコーパスから推定 2007.10.10

先行研究 自動未知語獲得による仮名漢字変換システムの精度向上(森ら 2007) 確率的単語分割コーパス(森ら 2007)を用いた言語モデル テキストコーパスの全ての部分文字列を語彙とした仮名漢字モデル=サブワードモデル(森 2006) コーパスに一定頻度以上表れる未登録語を準登録語として記憶→サブワードモデル更新および言語モデル再推定 2007.10.10

確率的言語モデル+未知語 文を単語列(w1w2…wh)と見なして文頭から予測(wi(i<1)は文頭、wh+1は文末記号) 未知語は特殊記号UWで表され、単語n-gramがUWを予測し、そしてその表記(文字列)xを文字n-gramにより予測 2007.10.10

サブワードモデル+未知語 ある表記w=x1x2…xmに対応する入力記号列を各文字xiの入力記号列yiの連接、各文字に対応する入力記号列が一様として計算 未知語処理は準登録語を用いたコーパスからの最尤推定との線形補完 2007.10.10

森ら(2007)の問題点 低頻度の未知語を扱うことができない(部分的にはサブワードモデルで解決) 未知語が全て同一クラスに属する →CRF による周辺確率を用いた未知語検出 →単語分割のみ行ったあと、未知語に対して string similarity による代替候補の提示 未知語が全て同一クラスに属する →登録語・準登録語に対して pLSI を使ったクラス付与(素性は周辺の bag of words) 2007.10.10

Shift-reduceによる仮名漢字変換 岡野原ら(2007)による形態素解析の応用 文節ごとに変換する人も文全体を変換する人も自然に使える 未知語に遭遇したときも計算量が爆発しない 解析済みテキスト この はしわたるべからず Shift? Reduce? 橋/端 2007.10.10

Future work 辞書・コーパス登録サイト・コミュニティ創生 気分としては SKK の辞書登録 CGI。品詞とか気にしないで登録するのみ(リビューする人がいる) 人手で単語分割したコーパス用の例文を登録してもらう→確信度の高いところだけ固定して処理するモデル(坪井さん話) 2007.10.10