大規模データによる未知語処理を統合したスケーラブルな仮名漢字変換 奈良先端大 松本研( D1 )小町守 (協力:京大学術情報メディアセンター 森信介) Special Thanks to 浅原さん ※ときどき一部の方には不快な語句が含まれる場合が ありますのであらかじめご了承ください 2007.10.10
研究の動機 Webの拡大→ユーザ入力文書(CGM)増大 新語や新表現の変換はストレスフル 新しくなって本当に使いづらい・・・前に戻してもらいたいです。慣れれなのかな〜 どぅゃら、風邪をひぃてしまぃました。 頭重ぃし、鼻水がズールズル… でも仕事休めなぃしー カラダだるぃしー もぅ嫌ャーッ!!! ねぇよ こどもやばす wwwwwwwwww 天丼ww おいおい かあいいww ちょww... 2007.10.10
研究背景 Web データを処理したいがタグつきデータ・辞書がない 辞書やコーパスに正しく情報(品詞・単語境界)振るのは(一般の人には)難しい 日本語書き言葉コーパス マダー?? (・ω・` ) ipadic クラスの辞書( ゚Д゚)ホスィ・・・ 辞書やコーパスに正しく情報(品詞・単語境界)振るのは(一般の人には)難しい (できるだけ)品詞情報を用いないで処理したい 気分的には SKK で行きたい、ipadic 作るのはツライ 2007.10.10
研究目的 大規模データを用いた未知語処理を組み込んだ仮名漢字変換 品詞情報を用いない頑健な仮名漢字変換 できるだけ人手をかけないでメンテナンス Web 5億文(河原ら 2007)・Wikipedia・はてな・ココログ・etc… Terascale Knowledge Acquisition 勉強会ヨロシク 品詞情報を用いない頑健な仮名漢字変換 大規模データだから表記の情報だけでもけっこう行けるはず 2007.10.10
確率的モデルによる仮名漢字変換 森ら(1998)の提案 P(x|y) の降順に変換可能文字列 (x1, x2, …) を提示する =P(y|x)P(x)の降順に提示する P(y|x): 確率的仮名漢字モデル P(x): 確率的言語モデル(単語n-gram) 解析済みコーパスから推定 2007.10.10
先行研究 自動未知語獲得による仮名漢字変換システムの精度向上(森ら 2007) 確率的単語分割コーパス(森ら 2007)を用いた言語モデル テキストコーパスの全ての部分文字列を語彙とした仮名漢字モデル=サブワードモデル(森 2006) コーパスに一定頻度以上表れる未登録語を準登録語として記憶→サブワードモデル更新および言語モデル再推定 2007.10.10
確率的言語モデル+未知語 文を単語列(w1w2…wh)と見なして文頭から予測(wi(i<1)は文頭、wh+1は文末記号) 未知語は特殊記号UWで表され、単語n-gramがUWを予測し、そしてその表記(文字列)xを文字n-gramにより予測 2007.10.10
サブワードモデル+未知語 ある表記w=x1x2…xmに対応する入力記号列を各文字xiの入力記号列yiの連接、各文字に対応する入力記号列が一様として計算 未知語処理は準登録語を用いたコーパスからの最尤推定との線形補完 2007.10.10
森ら(2007)の問題点 低頻度の未知語を扱うことができない(部分的にはサブワードモデルで解決) 未知語が全て同一クラスに属する →CRF による周辺確率を用いた未知語検出 →単語分割のみ行ったあと、未知語に対して string similarity による代替候補の提示 未知語が全て同一クラスに属する →登録語・準登録語に対して pLSI を使ったクラス付与(素性は周辺の bag of words) 2007.10.10
Shift-reduceによる仮名漢字変換 岡野原ら(2007)による形態素解析の応用 文節ごとに変換する人も文全体を変換する人も自然に使える 未知語に遭遇したときも計算量が爆発しない 解析済みテキスト この はしわたるべからず Shift? Reduce? 橋/端 2007.10.10
Future work 辞書・コーパス登録サイト・コミュニティ創生 気分としては SKK の辞書登録 CGI。品詞とか気にしないで登録するのみ(リビューする人がいる) 人手で単語分割したコーパス用の例文を登録してもらう→確信度の高いところだけ固定して処理するモデル(坪井さん話) 2007.10.10