大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換

Slides:



Advertisements
Similar presentations
小町守( NAIST ) 森信介(京大)・徳永拓之( PFI ) 情報処理学会 夏のプログラミング・シンポジウム 2008 年 9 月 7 越後湯沢.
Advertisements

近代文語文を対象とした形態素 解析辞書・近代文語UniDic 小木曽智信・小椋秀樹・近藤明日子 (国立国語研究所) 日本語学会春季大会(於 日本大学)
音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
東京工科大学 コンピュータサイエンス学部 亀田弘之
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
最大エントロピーモデルに基づく形態素解析と辞書による影響
平成22年11月15日(月) 東京工科大学 コンピュータサイエンス学部 亀田弘之
整数計画法を用いたフレーズ対応最適化による翻訳システムの改良
形態素周辺確率を用いた 分かち書きの一般化とその応用
言語モデル(200億文のGoogle日本語Nグラムから計算)
言語体系とコンピュータ 第5回.
国内線で新千歳空港を利用している航空会社はどこですか?
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
情報学類 吉田光男 アドバイザー教官: 山本幹雄 先生
言語の統計 統計の対象量 単語 NグラムとKWIC HMMと形態素解析への応用.
Software Freedom Day2012 野首貴嗣
奈良先端科学技術大学院大学 情報科学研究科 松本裕治
人工知能概論 第12回 言語と論理(1) 自然言語処理
実験 関数・記号付き文型パターンを用いた機械翻訳の試作と評価 石上真理子 水田理夫 徳久雅人 村上仁一 池原悟 (鳥取大) ◎評価方法1
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
ことばとコンピュータ 2007年度1学期 第3回.
OSC京都 2016 おーぷん万葉プロジェクト 京橋 ひよわ
テキストマイニング, データマイニングと 社会活動のトレース
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
部分形態素解析を用いた コーパスの品詞体系変換
4Y-4 印象に残りやすい日本語パスワードの合成法
ベイズ的ロジスティックモデル に関する研究
まずオープンソース開発者に対する支援から!
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
東京工科大学 コンピュータサイエンス学部 亀田弘之
形態素解析および係り受け解析・主語を判別
DixChange プロジェクト ~辞書共通化の試み~
最尤推定によるロジスティック回帰 対数尤度関数の最大化.
Semi-Supervised QA with Generative Domain-Adaptive Nets
日本語解析済みコーパス管理ツール 「茶器」
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
平成22年6月15日 図書系職員のための アプリケーション開発講習会
情報管理論 2018/11/9 情報分析の道具 2018/11/9 情報分析の道具 情報分析の道具.
自然言語処理及び実習 第11回 形態素解析.
機械翻訳勉強会 論文紹介 mamoru-k 小町守 2018/11/9.
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
小町守(NAIST) 森信介(京大)・徳永拓之(PFI) 第一回入力メソッドワークショップ
ChaIME: 大規模コーパスを 用いた統計的仮名漢字変換
東京大学OPAC Plus “言選Web” -関連学術用語による日本語文献情報への 簡易ナビゲーションシステム-
自然言語処理2015 2015年11月23日(月) Tokyo University of Technology
雑音環境下における 非負値行列因子分解を用いた声質変換
顧客維持に関するモデル.
大規模データによる未知語処理を統合したスケーラブルな仮名漢字変換
東京工科大学 コンピュータサイエンス学部 亀田弘之
12. 意味・意図の解析 12.1 意味表現とは 12.2 規則による意味解析処理 12.3 統計的な意味解析処理 12.4 スマートフォンでの音声サービス ニューラルネットワークによる意味解析.
<日本語教育とAI:研究実践例と今後の課題 > 読解支援システムへのAI活用の可能性と留意点
東京工科大学 コンピュータサイエンス学部 亀田弘之
形態素解析ドライバモデルの実装と コーパスの品詞体系変換への応用
音声認識・翻訳 Android アプリケーション制作
テキストマイニング, データマイニングと 社会活動のトレース
東京工科大学 コンピュータサイエンス学部 亀田弘之
早稲田大学大学院 基幹理工学研究科 情報理工学専攻 後藤研究室 修士1年 魏 元
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
ブースティングとキーワードフィルタリング によるシステム要求検出
構造的類似性を持つ半構造化文書における頻度分析
自然言語処理2015 Natural Language Processing 2015
ソフトウェア理解支援を目的とした 辞書の作成法
シソーラス情報を用いた童話文章登場人物の 感情情報読み取りシステム
形態素解析と構文解析 金子邦彦.
自然言語処理2016 Natural Language Processing 2016
mi-8. 自然言語処理 人工知能を演習で学ぶシリーズ(8)
東京工科大学 コンピュータサイエンス学部 亀田弘之
 タイピング  情報教育の効果を高めるために 慶應義塾大学 環境情報学部教授 大岩 元.
Presentation transcript:

大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換 CICP2007 CICP リーダー: 自然言語処理学講座 D1 小町守 / 協力: 京大 森信介, Yahoo! Japan 徳永拓之 品詞情報を用いない頑健な仮名漢字変換 大規模データから変換確率を推定 一般の開発者向けのフレームワークを提案 大規模コーパスによる統計的自然言語処理の応用 できるだけ人手をかけないでメンテナンス Google 日本語 N グラム・Wikipedia・etc… 自動的にユーザの手に馴染むテキスト入力環境の構築 統計的仮名漢字変換 P(仮名漢字|入力)の降順に変換候補を提示 =P(入力|仮名漢字)P(仮名漢字)の降順に変換候補を提示(∵ベイズ則) 仮名漢字モデル P(入力|仮名漢字) の学習 解析済みコーパスから頻度を計算して最尤推定 毎日新聞13年分を形態素解析器MeCabで解析 言語モデル P(仮名漢字) の学習 文を単語列と見なして文頭から予測するNグラム言語モデル Google 日本語Nグラムデータ(200億文)から単語の1,2グラムを計算(異なり1グラム数:250万;異なり2グラム数:8,000万) 仮名漢字モデル 言語モデル 今年 の 流行 語 CKY …… wi 克明 かつあき? こくめい? 関連ソフトウェア Anthy 解析済みコーパスから変換パラメータ推定 機械学習とヒューリスティックのハイブリッド メンテナンスに品詞や文節の知識が必要 Sumibi 生コーパスから自動的に連接コストを推定 単語分かち書きが必要 辞書にない単語は変換できない AjaxIME 解析済みコーパスから 変換・連接コスト推定 言語モデルが小さい 仮名漢字モデルが貧弱 課題と今後の予定 未知語に対する洗練されたモデルを検討中 3グラム以上の言語モデルを使う(サイズが巨大) 単語入力履歴(変換ログ)やトピック情報を用いた変換を今後研究