Presentation is loading. Please wait.

Presentation is loading. Please wait.

大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換

Similar presentations


Presentation on theme: "大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換"— Presentation transcript:

1 大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
CICP2007 CICP リーダー: 自然言語処理学講座 D1 小町守 / 協力: 京大 森信介, Yahoo! Japan 徳永拓之 品詞情報を用いない頑健な仮名漢字変換 大規模データから変換確率を推定 一般の開発者向けのフレームワークを提案 大規模コーパスによる統計的自然言語処理の応用 できるだけ人手をかけないでメンテナンス Google 日本語 N グラム・Wikipedia・etc… 自動的にユーザの手に馴染むテキスト入力環境の構築 統計的仮名漢字変換 P(仮名漢字|入力)の降順に変換候補を提示 =P(入力|仮名漢字)P(仮名漢字)の降順に変換候補を提示(∵ベイズ則) 仮名漢字モデル P(入力|仮名漢字) の学習 解析済みコーパスから頻度を計算して最尤推定 毎日新聞13年分を形態素解析器MeCabで解析 言語モデル P(仮名漢字) の学習 文を単語列と見なして文頭から予測するNグラム言語モデル Google 日本語Nグラムデータ(200億文)から単語の1,2グラムを計算(異なり1グラム数:250万;異なり2グラム数:8,000万) 仮名漢字モデル 言語モデル 今年 流行 CKY …… wi 克明 かつあき? こくめい? 関連ソフトウェア Anthy 解析済みコーパスから変換パラメータ推定 機械学習とヒューリスティックのハイブリッド メンテナンスに品詞や文節の知識が必要 Sumibi 生コーパスから自動的に連接コストを推定 単語分かち書きが必要 辞書にない単語は変換できない AjaxIME 解析済みコーパスから 変換・連接コスト推定 言語モデルが小さい 仮名漢字モデルが貧弱 課題と今後の予定 未知語に対する洗練されたモデルを検討中 3グラム以上の言語モデルを使う(サイズが巨大) 単語入力履歴(変換ログ)やトピック情報を用いた変換を今後研究


Download ppt "大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換"

Similar presentations


Ads by Google