ChaIME: 大規模コーパスを 用いた統計的仮名漢字変換

Slides:



Advertisements
Similar presentations
言語情報を利用したテキストマイニ ング 奈良先端科学技術大学院大学 情報科学研究科 工藤 拓 山本 薫 坪井 裕太 松本 裕治.
Advertisements

言語情報を利用したテキストマイニ ング 奈良先端科学技術大学院大学 情報科学研究科 工藤 拓 山本 薫 坪井 裕太 松本 裕治.
小町守( NAIST ) 森信介(京大)・徳永拓之( PFI ) 情報処理学会 夏のプログラミング・シンポジウム 2008 年 9 月 7 越後湯沢.
音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
顔表情クラスタリングによる 映像コンテンツへのタギング
Conditional Random Fields を用いた 日本語形態素解析
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
テキストデータベースからの 構文構造のマイニング
最大エントロピーモデルに基づく形態素解析と辞書による影響
NFCを利用した登山者間DTNの構築 Building DTN for Climbers by using NFC
形態素周辺確率を用いた 分かち書きの一般化とその応用
言語モデル(200億文のGoogle日本語Nグラムから計算)
言語体系とコンピュータ 第5回.
国内線で新千歳空港を利用している航空会社はどこですか?
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
キーボードでの指の位置と入力範囲 ◎左手の指のホームポジション(入力しないときの位置): 小指-「A」 薬指-「S」 中指-「D」 人差し指-「F」(突起あり) ◎右手の指のホームポジション: 人差し指-「J」 (突起あり) 中指-「K」 薬指-「L」 小指-「;」 ◎親指は「スペース」キーの上に置く。
言語の統計 統計の対象量 単語 NグラムとKWIC HMMと形態素解析への応用.
Software Freedom Day2012 野首貴嗣
奈良先端科学技術大学院大学 情報科学研究科 松本裕治
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
部分木に基づくマルコフ確率場と言語解析への適用
2 プログラムの基本 本時のねらい 「① プロラムのはたらきを知ろう。」 「② 仕事の流れを図に表そう。」
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
OSC京都 2016 おーぷん万葉プロジェクト 京橋 ひよわ
テキストマイニング, データマイニングと 社会活動のトレース
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
部分形態素解析を用いた コーパスの品詞体系変換
4Y-4 印象に残りやすい日本語パスワードの合成法
雑音重み推定と音声 GMMを用いた雑音除去
まずオープンソース開発者に対する支援から!
キーボードでの指の位置と入力範囲 ◎左手の指のホームポジション(入力しないときの位置): 小指-「A」 薬指-「S」 中指-「D」 人差し指-「F」(突起あり) ◎右手の指のホームポジション: 人差し指-「J」 (突起あり) 中指-「K」 薬指-「L」 小指-「;」 ◎親指は「スペース」キーの上に置く。
DixChange プロジェクト ~辞書共通化の試み~
京都大学 化学研究所 バイオインフォマティクスセンター
Semi-Supervised QA with Generative Domain-Adaptive Nets
日本語解析済みコーパス管理ツール 「茶器」
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
自然言語処理及び実習 第11回 形態素解析.
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
Office IME 2010 を使う.
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
小町守(NAIST) 森信介(京大)・徳永拓之(PFI) 第一回入力メソッドワークショップ
大規模データによる未知語処理を統合したスケーラブルな仮名漢字変換
12. 意味・意図の解析 12.1 意味表現とは 12.2 規則による意味解析処理 12.3 統計的な意味解析処理 12.4 スマートフォンでの音声サービス ニューラルネットワークによる意味解析.
形態素解析ドライバモデルの実装と コーパスの品詞体系変換への応用
音声認識・翻訳 Android アプリケーション制作
系列ラベリングのための前向き後ろ向きアルゴリズムの一般化
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析
テキストマイニング, データマイニングと 社会活動のトレース
Number of random matrices
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
オブジェクトの協調動作を用いた オブジェクト指向プログラム実行履歴分割手法
AdaBoostを用いた システムへの問い合わせと雑談の判別
ブースティングとキーワードフィルタリング によるシステム要求検出
コーパス管理システム 『ChaKi.NET』
構造的類似性を持つ半構造化文書における頻度分析
発表32 レポート評価支援について (剽窃部分と指導箇所の検出)
大規模コーパスに基づく同義語・多義語処理
アルゴリズムとデータ構造 --- 理論編 --- 山本 真基
欠陥検出を目的とした類似コード検索法 吉田則裕,石尾隆,松下誠,井上克郎 大阪大学 大学院情報科学研究科
Webページタイプによるクラスタ リングを用いた検索支援システム
形態素解析と構文解析 金子邦彦.
mi-8. 自然言語処理 人工知能を演習で学ぶシリーズ(8)
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
ランダムプロジェクションを用いた音響モデルの線形変換
 タイピング  情報教育の効果を高めるために 慶應義塾大学 環境情報学部教授 大岩 元.
第4回講座(2/21)のまとめ 2019/11/1.
Presentation transcript:

ChaIME: 大規模コーパスを 用いた統計的仮名漢字変換 CICP中間報告 ChaIME: 大規模コーパスを 用いた統計的仮名漢字変換 奈良先端大 松本研( D1 )小町守 (協力:京都大学 森さん・Y! Japan 徳永さん) Special Thanks to 浅原さん・工藤さん 2008年2月27日(水)

開発の動機 Webの拡大→ユーザ入力文書増大 新語や新表現の変換はストレスフル 新しくなって本当に使いづらい・・・前に戻してもらいたいです。慣れれなのかな〜 どぅゃら、風邪をひぃてしまぃました。 頭重ぃし、鼻水がズールズル… でも仕事休めなぃしー カラダだるぃしー もぅ嫌ャーッ!!! ねぇよ こどもやばす wwwwwwwwww 天丼ww おいおい かあいいww ちょww... 2

開発の背景 Web データを処理したいがタグつきデータ・辞書がない(特にフリーで使えるもの) 祝 NAIST-jdic リリース Google日本語Nグラム 辞書やコーパスに正しく情報(品詞・単語境界)振るのは(一般の人には)難しい (できるだけ)品詞情報を用いないで処理したい NLPにおける文節とIMEにおける文節の違い 3

開発の目的 大規模コーパスによる統計的仮名漢字変換 品詞情報を用いない頑健な仮名漢字変換 できるだけ人手をかけないでメンテナンス Google 日本語 N グラム Webコーパス5億文 Wikipedia・etc… 品詞情報を用いない頑健な仮名漢字変換 大規模コーパスだから表記の情報だけでもけっこう行けるはず 4

統計的仮名漢字変換 森ら(1998)の提案 P(x|y) の降順に変換可能文字列 (x1, x2, …) を提示する  =P(y|x)P(x)の降順に提示する P(y|x): 確率的仮名漢字モデル P(x): 確率的言語モデル(単語ngram) 仮名漢字モデル × 言語モデル 5

言語モデル 文を単語列 と見なすngram言語モデル(i<1は文頭、i=h+1は文末) Google 日本語Nグラムデータ(200億文)から表記の1-2グラムを計算して使用 異なり1グラム数:250万 異なり2グラム数:8,000万 6

仮名漢字モデル 確率は読みが振られたコーパスから最尤推定 毎日新聞95年分1年に MeCab で分かち書き・読みを付与して使用 コーパス 中の頻度 7

デモ 未知語に対する洗練されたモデルが必要 3グラム以上は使っていない(言語モデルが巨大、1-2グラムだけですでに1.7GB) http://ash.naist.jp/~mamoru-k/chaime/ N-best 探索(前向きDP後ろ向きA*サーチ)が書けなかったのでビームサーチ(ビーム幅200) 未知語に対する洗練されたモデルが必要 3グラム以上は使っていない(言語モデルが巨大、1-2グラムだけですでに1.7GB) 生成モデルでは単語履歴などの素性を追加していくのが困難

関連ソフトウェア(1) Anthy http://anthy.sourceforge.jp/ HMM → MEMM による識別モデル(の亜種) 文節分割された読みつきコーパスから学習 表記の素性を用いていない 文法体系が難しい(文節・品詞の判断) Social IME http://social-ime.com/ 複数人による辞書共有機能 アルゴリズムは Anthy と同じ

関連ソフトウェア(2) AjaxIME http://ajaxime.chasen.org/ MeCab-skkserv による連文節仮名漢字変換 読みが振られたコーパスから変換コストを推定 コーパスが小さい・素性がスパース Sumibi http://www.sumibi.org/ 単語分かち書きによる仮名漢字変換 生コーパスから連接コストを推定(言語モデル) 辞書にない単語の変換ができない 連文節変換ではない

今後の予定 N-best の探索を書く 未知語モデルを入れる 単語2グラムでクラスタリングをする(クラスタ2グラム) クラスタ2グラムで単語分割・仮名漢字変換を動かす 識別モデルに移行? 14

謝辞と宣伝 本プロジェクトの一部は奈良先端科学技術大学院大学 Creative and International Competitiveness Project (CICP 2007) の支援を受けています 他のCICPプロジェクト(音楽情報・言語教育)を含めたポスター&デモがスプリングセミナー2日目(3月7日)にあります。学生は人気投票に参加できませんが、セミナー受講者と教員は投票できるらしいですよ