大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換

大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
CICP2007 CICP リーダー: 自然言語処理学講座 D1 小町守 / 協力: 京大森信介, Yahoo! Japan 徳永拓之品詞情報を用いない頑健な仮名漢字変換大規模データから変換確率を推定一般の開発者向けのフレームワークを提案大規模コーパスによる統計的自然言語処理の応用できるだけ人手をかけないでメンテナンス Google 日本語 N グラム・Wikipedia・etc… 自動的にユーザの手に馴染むテキスト入力環境の構築統計的仮名漢字変換 P(仮名漢字|入力)の降順に変換候補を提示 =P(入力|仮名漢字)P(仮名漢字)の降順に変換候補を提示(∵ベイズ則) 仮名漢字モデル P(入力|仮名漢字) の学習解析済みコーパスから頻度を計算して最尤推定毎日新聞13年分を形態素解析器MeCabで解析言語モデル P(仮名漢字) の学習文を単語列と見なして文頭から予測するNグラム言語モデル Google 日本語Nグラムデータ(200億文)から単語の1,2グラムを計算(異なり1グラム数:250万;異なり2グラム数:8,000万) 仮名漢字モデル言語モデル今年の流行語 CKY …… wi 克明かつあき？こくめい？関連ソフトウェア Anthy 解析済みコーパスから変換パラメータ推定機械学習とヒューリスティックのハイブリッドメンテナンスに品詞や文節の知識が必要 Sumibi 生コーパスから自動的に連接コストを推定単語分かち書きが必要辞書にない単語は変換できない AjaxIME 解析済みコーパスから変換・連接コスト推定言語モデルが小さい仮名漢字モデルが貧弱課題と今後の予定未知語に対する洗練されたモデルを検討中 3グラム以上の言語モデルを使う(サイズが巨大) 単語入力履歴（変換ログ）やトピック情報を用いた変換を今後研究

大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換

Similar presentations

Presentation on theme: "大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換

Similar presentations

Presentation on theme: "大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換"— Presentation transcript:

Similar presentations

About project

フィードバック