言語モデル(200億文のGoogle日本語Nグラムから計算)

Slides:



Advertisements
Similar presentations
英作文支援システムの 構築に関する研究 平成 15 年 11 月 18 日 ( 火 ) A1 グループ M2 永易 稔 中間発表.
Advertisements

言語情報を利用したテキストマイニ ング 奈良先端科学技術大学院大学 情報科学研究科 工藤 拓 山本 薫 坪井 裕太 松本 裕治.
言語情報を利用したテキストマイニ ング 奈良先端科学技術大学院大学 情報科学研究科 工藤 拓 山本 薫 坪井 裕太 松本 裕治.
小町守( NAIST ) 森信介(京大)・徳永拓之( PFI ) 情報処理学会 夏のプログラミング・シンポジウム 2008 年 9 月 7 越後湯沢.
音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
東京工科大学 コンピュータサイエンス学部 亀田弘之
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
テキストデータベースからの 構文構造のマイニング
最大エントロピーモデルに基づく形態素解析と辞書による影響
整数計画法を用いたフレーズ対応最適化による翻訳システムの改良
形態素周辺確率を用いた 分かち書きの一般化とその応用
国内線で新千歳空港を利用している航空会社はどこですか?
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
情報学類 吉田光男 アドバイザー教官: 山本幹雄 先生
Software Freedom Day2012 野首貴嗣
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
実験 関数・記号付き文型パターンを用いた機械翻訳の試作と評価 石上真理子 水田理夫 徳久雅人 村上仁一 池原悟 (鳥取大) ◎評価方法1
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
動詞と格要素の共起と 名詞の出現パターンを用いた 事態性名詞の項構造解析
OSC京都 2016 おーぷん万葉プロジェクト 京橋 ひよわ
テキストマイニング, データマイニングと 社会活動のトレース
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
部分形態素解析を用いた コーパスの品詞体系変換
4Y-4 印象に残りやすい日本語パスワードの合成法
まずオープンソース開発者に対する支援から!
述語項構造に基づいた統計 翻訳における語句の並べ替え
SWAT I18N 概要 付け足した機能(実行時に言語の切り替え-i18nの範囲で) 問題点(細かい技術的問題、根本的問題) 今後
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
形態素解析および係り受け解析・主語を判別
DixChange プロジェクト ~辞書共通化の試み~
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
平成22年6月15日 図書系職員のための アプリケーション開発講習会
検索エンジンを利用した Covert Channelの検出
情報管理論 2018/11/9 情報分析の道具 2018/11/9 情報分析の道具 情報分析の道具.
自然言語処理及び実習 第11回 形態素解析.
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
Office IME 2010 を使う.
Entity-Centricな述語項構造解析・ 共参照解析の同時学習
小町守(NAIST) 森信介(京大)・徳永拓之(PFI) 第一回入力メソッドワークショップ
機械翻訳勉強会 NTCIR-7について 2007年10月16日 奈良先端大D1小町守.
ChaIME: 大規模コーパスを 用いた統計的仮名漢字変換
卒論の書き方: 参考文献について 2017年9月27日 小尻智子.
大規模データによる未知語処理を統合したスケーラブルな仮名漢字変換
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
12. 意味・意図の解析 12.1 意味表現とは 12.2 規則による意味解析処理 12.3 統計的な意味解析処理 12.4 スマートフォンでの音声サービス ニューラルネットワークによる意味解析.
予測に用いる数学 2004/05/07 ide.
ソースコードの特徴量を用いた機械学習による メソッド抽出リファクタリング推薦手法
<日本語教育とAI:研究実践例と今後の課題 > 読解支援システムへのAI活用の可能性と留意点
言語XBRLで記述された 財務諸表の分析支援ツールの試作
形態素解析ドライバモデルの実装と コーパスの品詞体系変換への応用
音声認識・翻訳 Android アプリケーション制作
Happinessの歴史と 日本語処理のエピソード (株)平和情報センター 沓澤 尚明.
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
テキストマイニング, データマイニングと 社会活動のトレース
ブラウザを快適に操作するツールの開発 藤村研究室 1DS04179M 阪上 翔伍.
東京工科大学 コンピュータサイエンス学部 亀田弘之
超大規模ウェブコーパスを用いた 分布類似度計算
物体検出による視覚補助システム T215085 若松大仁 白井研究室.
データモデリング エンティティの切り出し.
早稲田大学大学院 基幹理工学研究科 情報理工学専攻 後藤研究室 修士1年 魏 元
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
ブースティングとキーワードフィルタリング によるシステム要求検出
大規模コーパスに基づく同義語・多義語処理
シソーラス情報を用いた童話文章登場人物の 感情情報読み取りシステム
形態素解析と構文解析 金子邦彦.
mi-8. 自然言語処理 人工知能を演習で学ぶシリーズ(8)
1.2 言語処理の諸観点 (1)言語処理の利用分野
 タイピング  情報教育の効果を高めるために 慶應義塾大学 環境情報学部教授 大岩 元.
Presentation transcript:

言語モデル(200億文のGoogle日本語Nグラムから計算) 大規模ウェブデータを用いた統計的自然言語処理 自然言語処理学講座 助教 小町守 / 協力: 京都大学 森信介, PFI 徳永拓之, NTT 研究所 永田昌明 大規模コーパスによる統計的自然言語処理の研究 できるだけ人手をかけないでメンテナンス Google 日本語 N グラム・Wikipedia・etc… 頑健な深い自然言語処理解析技術の開発 大規模ウェブデータから、文の構造や意味を解析するための知識獲得・統計的モデルの学習 意味解析のツールを大規模なウェブテキストに適用 統計的かな漢字変換 ChaIME P(かな漢字|入力)の降順に変換候補を提示 =P(入力|かな漢字)P(かな漢字)の降順に変換候補を提示(∵ベイズ則) かな漢字モデル 言語モデル(200億文のGoogle日本語Nグラムから計算) 克明 かつあき? こくめい? 名前 手法 コーパス 利点 欠点 ChaIME 単語表記2グラム Google 日本語Nグラム Google 日本語Nグラムに出現する単語なら自動で変換できる。コーパスが巨大なのでデータの過疎性の影響を受けにくい。自動単語分割を行うため、ユーザが単語分かち書きする必要がない。ブラウザ・uim から利用可能。 単語の表記で2グラムを作成しているので辞書サイズが巨大(2GB)になる。 Anthy 最大エントロピー法 独自コーパス(1万文) 機械学習による高精度な変換。文節の概念がある。ユーザの入力履歴からの予測入力が可能。Windows, Mac, Linux などさまざまなプラットホームで動作する。Linux でのユーザが多く、現在デファクトスタンダード。Emacs・uim・SCIM・ibus から利用可能。 モデルが複雑でありパラメータ推定がヒューリスティックである。コーパスの質・量ともに不十分たなめ、変換精度が悪い。 AjaxIME 品詞クラス2グラム 京大コーパス(4万文) 識別モデルによる高精度な変換。1文の変換結果のN-best解から文全体の変換結果を選択。ブラウザから使うことができるので、IMEがインストールされていない海外でも利用可能。uim でも動作。 コーパスのサイズが小さく、単語(文節)単位での変換をサポートしていない。かな漢字モデルが考慮されていない。学習しない。 Sumibi Webデータ(数GB) ユーザが単語の分かち書きを指定するため、原理上単語分割ミスがない。分かち書きされたデータがあれば、任意のデータを学習に使うことができる。ブラウザ・Emacs・uim から利用可能。 連文節変換がサポートされておらず、単語分割を明示的に指定する必要がある。辞書にない単語は変換できない。学習しない。 Mana 確率的言語モデルによる高精度な変換。単語単位での変換をサポート。ChaSen のコードを参考にしている。Emacs・uim から利用可能。 コーパスのサイズが小さい。辞書の情報が形態素解析用のままで、かな漢字変換用にチューニングされていない。学習しない。 Google 日本語入力 Mozc Google Web データ (200億文以上) 大規模なウェブデータを用いたかな漢字変換。ウェブから抽出した圧倒的な語彙。予測入力も可能。Windows と Mac でリリースされ、オープンソース版の Mozc は Linux でも ibus を用いることにより動作。 ウェブから学習しているので思いがけない単語が予測・変換される。長距離の単語の共起を扱えない(ただし上記のIMも同様)。 かな漢字モデル 吾輩 は 猫 で ある …… wi 言語モデル ChaIME ATOK 2007 Anthy 9100c AjaxIME Google 日本語入力 (Mozc) せいきゅうしょのしはらいにちじ 請求書の支払日時 請求書の市は来日時 請求書の支払い日時 請求書の支払いに知事 ちかくしじょうちょうさをおこなう。 近く市場調査を行う。 知覚し冗長さを行う。 そのごさいとないで その後サイト内で その五歳都内で その後再都内で きょねんにくらべたかいすいじゅんだ。 去年に比べ高い水準だ。 去年に比べた海水順だ。 去年に比べたかい水準だ。 ひるいちまでにしょるいつくっといて。 昼イチまでに書類作っといて。 昼一までに書類津くっといて。 昼一までに書類作っといて。 肥留市までに書類作っといて。 そんなはなししんじっこないよね。 そんな話信じっこないよね。 そんな話心十個内よね。 そんなはな視診時っこないよね。 そんな話神事っ子ないよね。 そんな話しんじっこないよね。 はじめっからもってけばいいのに。 初めっからもってけばいいのに。 恥メッカら持って毛羽いいのに。 恥メッカ羅持ってケバ飯野に。 始っから持ってけば良いのに。 はじめっから持ってけばいいのに。 あつあつのにくまんにぱくついた。 熱々の肉まんにぱくついた。 熱々の肉まん二泊着いた。 あつあつの肉まん2泊付いた。 熱熱の肉まんにぱくついた。 ATOK 2007 の誤変換例から抜粋 統計的機械翻訳 P(英語|日本語)の降順に翻訳候補を提示(※日英翻訳の場合) =P(日本語|英語)P(日本語)の降順に翻訳候補を提示 →対数線形モデルを用いると、     の降順に翻訳候補を提示 住所 を ここ に 書い て ください 。 書い て ください 住所 を ここ に 。 翻訳モデル 言語モデル Please write down your address here . Wikipedia からの対訳辞書構築 言語間リンクがある→対訳候補 専門用語をシードとして与えて分野適応 述語項構造解析を用いた語順の並べ替え 述語項構造解析器により日本語を SVO に並べ 替え、句ベースの統計的機械翻訳器で学習