大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換 CICP2007 CICP リーダー: 自然言語処理学講座 D1 小町守 / 協力: 京大 森信介, Yahoo! Japan 徳永拓之 品詞情報を用いない頑健な仮名漢字変換 大規模データから変換確率を推定 一般の開発者向けのフレームワークを提案 大規模コーパスによる統計的自然言語処理の応用 できるだけ人手をかけないでメンテナンス Google 日本語 N グラム・Wikipedia・etc… 自動的にユーザの手に馴染むテキスト入力環境の構築 統計的仮名漢字変換 P(仮名漢字|入力)の降順に変換候補を提示 =P(入力|仮名漢字)P(仮名漢字)の降順に変換候補を提示(∵ベイズ則) 仮名漢字モデル P(入力|仮名漢字) の学習 解析済みコーパスから頻度を計算して最尤推定 毎日新聞13年分を形態素解析器MeCabで解析 言語モデル P(仮名漢字) の学習 文を単語列と見なして文頭から予測するNグラム言語モデル Google 日本語Nグラムデータ(200億文)から単語の1,2グラムを計算(異なり1グラム数:250万;異なり2グラム数:8,000万) 仮名漢字モデル 言語モデル 今年 の 流行 語 CKY …… wi 克明 かつあき? こくめい? 関連ソフトウェア Anthy 解析済みコーパスから変換パラメータ推定 機械学習とヒューリスティックのハイブリッド メンテナンスに品詞や文節の知識が必要 Sumibi 生コーパスから自動的に連接コストを推定 単語分かち書きが必要 辞書にない単語は変換できない AjaxIME 解析済みコーパスから 変換・連接コスト推定 言語モデルが小さい 仮名漢字モデルが貧弱 課題と今後の予定 未知語に対する洗練されたモデルを検討中 3グラム以上の言語モデルを使う(サイズが巨大) 単語入力履歴(変換ログ)やトピック情報を用いた変換を今後研究