中澤 敏明 科学技術振興機構(JST)/京都大学

Slides:



Advertisements
Similar presentations
英作文支援システムの 構築に関する研究 平成 15 年 11 月 18 日 ( 火 ) A1 グループ M2 永易 稔 中間発表.
Advertisements

言語情報を利用したテキストマイニ ング 奈良先端科学技術大学院大学 情報科学研究科 工藤 拓 山本 薫 坪井 裕太 松本 裕治.
1 1)外部の図書館の利用のしかた ①国立国会図書館 ( 東京本館・・・千代田区永田町 ) 国会議事堂の近く。 ● 満 18 歳以上であれば、だれでも施設・資料を利用することができる。 ● インターネットによる複写サービスもある。 ●NDL-OPAC というシステムから、インターネットを使ってどこからでも.
音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
ジャパンリンクセンター(JaLC)のご紹介
LZ符号化 森田 岳史.
最大エントロピーモデルに基づく形態素解析と辞書による影響
整数計画法を用いたフレーズ対応最適化による翻訳システムの改良
国内線で新千歳空港を利用している航空会社はどこですか?
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
参照共起分析の Webディレクトリへの適用
KeyGraphを活用した 食品安全リスクの 早期警告支援
共起用例と名詞の出現パターンを用いた動作性名詞の項構造解析
実験 関数・記号付き文型パターンを用いた機械翻訳の試作と評価 石上真理子 水田理夫 徳久雅人 村上仁一 池原悟 (鳥取大) ◎評価方法1
Super-Functionに基づく日英機械翻訳
テキストマイニング, データマイニングと 社会活動のトレース
NIIメタデータデータベースの構想 国立情報学研究所 開発・事業部 コンテンツ課 米 澤 誠
Webサイト運営 09fi118 橋倉伶奈 09fi131 本間昂 09fi137 三上早紀.
共同ローカリゼーション フレームワーク 井上 謙次.
京都大学大学院 情報学研究科 社会情報学専攻 (財)科学技術振興事業団 (株) NTT コミュニケーション科学基礎研究所
述語項構造に基づいた統計 翻訳における語句の並べ替え
情報検索演習 第2回 前から4列目までに着席すること 2005年10月05日 後期 水曜5限 江草由佳 国立教育政策研究所
情報検索演習の基礎 1.どういう検索をするのか コンピュータを用いた検索である
中国網の紹介     中国網は国務院ニュース弁公室管轄の、中国外文出版発行事務局(中国国際出版集団)が管理する国家重点ニュースサイトである。1997年に設立した中国網は、簡体字中国語、繁体字中国語、英語、フランス語、ドイツ語、日本語、スペイン語、アラブ語、ロシア語、韓国語およびその他外国語の10ヶ国語(11字体バージョン)を以って情報を公開する「スーパーネットワーク・プラットフォーム」である。その読者ユーザは世界200ヶ国(地域)以上に分布している。
第12回 情報論的学習理論ワークショップ (IBIS 2009) IBIS 2009のプログラムについて
教育系サブジェクトリポジトリとしての展開
小樽商科大学学術成果コレクション (Barrel) - ねらいとお願い
整合性尺度を用いた 構造的対訳文アラインメント
Semi-Supervised QA with Generative Domain-Adaptive Nets
日本語解析済みコーパス管理ツール 「茶器」
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
平成22年6月15日 図書系職員のための アプリケーション開発講習会
JST/中国総合研究センターの活動紹介 ~日中の科学技術分野における相互理解促進のための基盤~
2016年11月25日 大阪開発センター 技術1部 深田 健太 アプライアンス&デジタルソリューション株式会社
機械翻訳勉強会 論文紹介 mamoru-k 小町守 2018/11/9.
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
複数の言語情報を用いたCRFによる音声認識誤りの検出
画像ピボットパラフレーズ抽出に向けて 大阪大学 NAIST Chenhui Chu,1 大谷 まゆ,2 中島 悠太1
Javaソースコード蓄積・ 検索システムSPARS-Jの概要
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
機械翻訳勉強会 NTCIR-7について 2007年10月16日 奈良先端大D1小町守.
東京大学OPAC Plus “言選Web” -関連学術用語による日本語文献情報への 簡易ナビゲーションシステム-
環境リスクマネジメントに関する 検索システム
只見町 インターネット・エコミュージアムの「キーワード」検索の改善
雑音環境下における 非負値行列因子分解を用いた声質変換
ネットショップデザイン入門Ⅰ・ⅡSEO 2013/12/18 Webデザイン入門 SEOの基本.
大規模データによる未知語処理を統合したスケーラブルな仮名漢字変換
情報検索(6) メディア検索の仕組み 教員 岩村 雅一
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
ソースコードの特徴量を用いた機械学習による メソッド抽出リファクタリング推薦手法
ディスカバリーサービス プリモ ~ Discovery & Delivery ~
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
テキストマイニング, データマイニングと 社会活動のトレース
超大規模ウェブコーパスを用いた 分布類似度計算
背景 課題 目的 手法 作業 期待 成果 有限体積法による汎用CFDにおける 流体構造連成解析ソルバーの計算効率の検証
  JSTChina         中国文献データベース.
Peer-to-Peerシステムにおける動的な木構造の生成による検索の高速化
コーディングパターンの あいまい検索の提案と実装
Data Clustering: A Review
設計情報の再利用を目的とした UML図の自動推薦ツール
大規模コーパスに基づく同義語・多義語処理
自然言語処理2015 Natural Language Processing 2015
人文、社会、自然、医療、理工等、総合分野を網羅した学術機関向けの 全文データベース (2014年4月1日より開始)
Webページタイプによるクラスタ リングを用いた検索支援システム
自然言語処理2016 Natural Language Processing 2016
オブジェクト指向言語における セキュリティ解析アルゴリズムの提案と実現
識別子の読解を目的とした名詞辞書の作成方法の一試案
アップデート.
Presentation transcript:

中澤 敏明 科学技術振興機構(JST)/京都大学 アジア言語を中心とした 機械翻訳研究 中澤 敏明 科学技術振興機構(JST)/京都大学 2014年11月28日 第3回特許情報シンポジウム

国際特許出願件数 アメリカ 日本 中国 ドイツ 韓国 フランス イギリス http://www.globalnote.jp/post-5380.html

世界の特許文献 http://www.meti.go.jp/press/2014/11/20141112003/20141112003.html

世界の科学技術論文数 アメリカ 中国 日本 韓国 ※ トムソンロイターのWeb of Scienceのデータを元にJSTが集計

Frontrunner 5000 中国科学技术信息研究所(ISTIC)が発表 http://f5000.istic.ac.cn 中国科学技术信息研究所(ISTIC)が発表 およそ4600ある中国の科学技術論 文誌から、優れた315論文誌を選出 中でも各分野で最も優れた論文 (およそ)5000論文を集めた 論文概要は英語1000語以内で書かれているが、本文は中国語 国外からのアクセスが期待できない

情報アクセスの促進 英語以外の言語で書かれた文書量の増大 その中にも重要な情報は含まれている 他言語の重要な情報への容易なアクセスには機械翻訳技術は必要不可欠 JPOによる中・韓特許文献翻訳・検索システム JSTによる日中・中日機械翻訳実用化プロジェクト

目次 日中・中日機械翻訳実用化プロジェクト 1st Workshop on Asian Translation (WAT2014) まとめ 言語資源の構築 機械翻訳エンジンの開発 1st Workshop on Asian Translation (WAT2014) 概要説明 評価手法 評価結果 まとめ

日中・中日機械翻訳 実用化プロジェクト

プロジェクト概要 期間: 2013年から5年間 参加機関 機械翻訳技術により日中間の言語障壁を取り除き、科学技術交流の促進を目指す 日本: JST, 京大(協力機関: 筑波大, NICT) 中国: ISTIC, CAS, BJTU, HIT 機械翻訳技術により日中間の言語障壁を取り除き、科学技術交流の促進を目指す http://foresight.jst.go.jp/jazh_zhja_mt/

プロジェクトの目標 言語資源の構築 言語解析器の精度向上 機械翻訳エンジンの開発 単語分割 専門用語辞書 400万語 対訳コーパス 特に中国語 开发机器翻译技术 Japanese Chinese 機械翻訳 机器翻译 アルゴリズム 算法 蓄積 积累 アセトン 丙酮 … … ja: 原言語の意味を正しく目的言語に再現するためには,原言語表現の意味に適した訳語の選択が必要である。 zh: 为了能够正确的再现原来语言的意思,选择适合表现原来语言意思的译语是很重要的。 开发 机器 翻译 技术 単語分割 开发 机器 専門用語辞書 400万語 対訳コーパス 500万文対 依存構造解析 翻译 技术 機械翻訳エンジンの開発 単語分割: ACL2014 IJCNLP2013 依存構造解析: PACLIC2012 用例ベース機械翻訳システム

日中言語資源の構築

専門用語対訳辞書の構築 中英、英日の既存の言語資源から、英語を介して構築 現時点での辞書サイズ 中英:論文抄録6M、論文タイトル1M 英日:自動獲得 8,079,137ペア 中英日:自動獲得 1,843,959ペア

组织蕊片(tissue chip)又称组织微阵列(tissue microarray)是将数十个、 言語横断文書検索 マイクロアレイ 検索 単言語検索 微阵列 キーワード翻訳 マイクロアレイ 検索 Doc1 Doc8 Doc11 Doc33 …… 组织蕊片(tissue chip)又称组织微阵列(tissue microarray)是将数十个、数百个甚至上千个小的组织切片整齐地排列在某一载体 组织蕊片(tissue chip)又称组织微阵列(tissue microarray)是将数十个、 Doc3 組織 チップ 組織 自動構築対訳辞書 マイクロアレイ 組織 切片 支持体

言語横断文書検索 細胞 老化 细胞 衰老 xì bāo shuāi lǎo

日中対訳コーパス構築 日本側 中国側 既存の対訳抄録からの対訳文の自動獲得 中国語文献の人手による日本語への翻訳 現状2.4M文ペア 中国語文献の人手による日本語への翻訳 現状7,000記事、さらに7,000記事を今年度中に翻訳 中国側 翻訳支援ツールを使用した(Computer-assisted Translation: CAT)日英コーパスの中国語への翻訳

機械翻訳の後編集インターフェース Input: MT output: Modified Translation:

後編集ツールの翻訳速度への影響 x m 10 = 15 x h x m 11 x m = 12 x h m ≒ 0.85 h ≒ 0.78 翻訳者 Y 10 15 11 12 10 = 15 x h x m 11 x m = 12 x h m ≒ 0.85 h ≒ 0.78 w/ PE w/o PE 環境分野 情報分野 医療分野 翻訳者 A 翻訳者 B 翻訳者 C 翻訳者 D 翻訳者 E 翻訳者 F 実験1 (5文書, 30文) 3:32:04 1:48:00 0:38:05 1:41:19 1:23:59 3:39:00 2:48:53 1:16:53 0:34:00 1:17:00 2:18:00 2:43:02 速度向上率 5.5% 7.7% 32.7% 実験2 3:57:59 1:50:00 0:30:30 1:05:32 1:56:00 2:34:00 2:23:49 1:55:00 0:16:30 0:21:05 2:45:00 -31.5% 22.9% -6.3%

文構造の可視化 调查了 考虑到 我们 我々は 我々は 计算 , 概率 , 確率 , 確率 体检中发现肾上腺偶发肿瘤的 [Kishimoto et. al, 2014 WPTP3] 中国語構文解析 考虑到 计算 的重要性 一般人口中发生肾上腺偶发肿瘤的概率 , 调查了 中国語語順での日本語翻訳 我们 概率 体检中发现肾上腺偶发肿瘤的 。 を考慮して を計算する 一般人口に副腎偶発腫が発生する確率 の重要性 , を調査した 我々は 確率 検診に副腎偶発腫を発現する 。 を考慮して を計算する 一般人口に副腎偶発腫が発生する確率 の重要性 , を調査した 我々は 確率 検診に副腎偶発腫を発現する 。 日本語翻訳結果

機械翻訳エンジンの開発

動機 近年のコーパスベース機械翻訳の成功 言語構造や語順の大きく異なる言語対で高精度な翻訳精度を達成するには構造情報の利用が必須 特に英仏など言語構造の似た言語対 ルールベース翻訳よりも高精度なことも 言語構造や語順の大きく異なる言語対で高精度な翻訳精度を達成するには構造情報の利用が必須 日英翻訳や日中翻訳など

アプローチ 依存構造木上での単語アライメント (⇔ GIZA++) 依存構造木同士の翻訳 (⇔ Phrase-based SMT) [Nakazawa+, COLING2012], [Nakazawa+, IJCNLP2011] 依存構造木同士の翻訳 (⇔ Phrase-based SMT) [John+, ACL2014] 高速なオンライン用例検索 [Cromieres, EMNLP2011] ラティス構造を利用した効率的なデコード [Cromieres+, EMNLP2014]

KyotoEBMTの概要

高速なオンライン用例検索 対訳コーパス全体から、入力文の翻訳に使える部分(部分木)を高速に検索 事前に全ての翻訳知識を作り出す必要がない 転置インデックスを使い、小さな部分木の出現の積集合を繰り返し計算 C C Occ( ) ∩ Occ( ) = Occ( ) C A Occ( ) ∩ Occ( ) = Occ( ) C B A B C C C Occ( ) ∩ Occ( ) = Occ( ) A B A B

ラティス構造によるデコード KyotoEBMTでの翻訳の難しさ ラティス構造の利用 アライメント時に対応のない語の扱い(図中の*) 用例の組み合わせ方の曖昧性(図中のZ) 非局所的な素性(言語モデルなど)の利用 ラティス構造の利用 X(ウイスキー) is produced from Y (オオムギ) Z1 (まず) Z2 (まず) Z3 (まず) at* 局所的な素性のスコア from Y Z3 produced 0.3 0.2 0.3 is at 0.3 X Z2 from Y 0.2 0.2 0.1 are 0.2 0.1 0.2 ε Z1 produced 0.3 0.1 0.1 0.1

翻訳精度 ISTICによる日→中翻訳の自動評価 中国国内の翻訳サービスと比較 System A System B

Next Step 入力文の構文”森”化 木構造言語モデルの利用 Deep Learning技術の利用 構文解析誤りの影響を低減 出力木構造の情報を利用 Deep Learning技術の利用 最近いたるところで流行っている 単語、文構造の単なる置き換え作業から 意味の翻訳へ

1st Workshop on Asian translation (WAT2014)

アジア言語を対象とした機械翻訳評価ワークショップ (2014年は日本語、中国語、英語のみ) 科学技術論文を翻訳対象として採用 http://lotus.kuee.kyoto-u.ac.jp/WAT/ アジア言語を対象とした機械翻訳評価ワークショップ (2014年は日本語、中国語、英語のみ) 科学技術論文を翻訳対象として採用 日⇔中翻訳を言語対として採用 テストセットが段落単位になっており、文脈を考慮した機械翻訳の可能性を検討可能 テストセットを含む全てのデータを一般公開 ASPECを利用 機械翻訳研究の継続的な発展に貢献

2006年度から2010年度に日本で実施された、科学技術振興調整費による重点課題解決型研究「日中・中日言語処理技術の開発研究」の成果の一部 http://lotus.kuee.kyoto-u.ac.jp/ASPEC/ 2006年度から2010年度に日本で実施された、科学技術振興調整費による重点課題解決型研究「日中・中日言語処理技術の開発研究」の成果の一部 日英科学技術論文抄録コーパス(ASPEC-JE) JSTが所有する約200万件の学術論文日英抄録から抽出された300万文対 日中科学技術論文抜粋コーパス(ASPEC-JC) JSTの運営する電子ジャーナルサイトJ-STAGE登載の和文論文を、出版学会の許諾を得て中国語に翻訳して作成した68万文対

機械翻訳タスクの参加チーム Team ID J->E E->J J->C C->J NAIST ✓ EIWA Kyoto-U WEBLIO-EJ1 TMU BJTUNLP Team ID J->E E->J J->C C->J NII ✓ SAS_MT Sense NICT TOSHIBA WASUIPS ✓* * 自動評価にのみデータを提出 会社 国外

当日の参加者は50名以上! 2014年10月4日撮影

WAT2014での自動評価 自動評価サーバーを用意 現在も稼働中 複数の単語分割ツール、BLEUとRIBESで評価 いつでも最新の翻訳結果を継続評価可能 評価結果の閲覧: http://lotus.kuee.kyoto-u.ac.jp/WAT/evaluation/ 翻訳結果の提出(無料の利用登録が必要): http://lotus.kuee.kyoto-u.ac.jp/WAT/submission/

機械翻訳の人手評価 お金も時間もかかる 評価者ごとに基準が異なり、結果が不安定 様々な方法が存在 Adequacy/Fluency (IWSLT) Ranking (WMT, IWSLT) Acceptability (NTCIR) 特許審査評価 (NTCIR) 特許文献機械翻訳の品質評価手順 (JPO)

WAT2014での人手評価 お金も時間もかかる 評価者ごとに基準が異なり、結果が不安定 様々な方法が存在 クラウドソーシングを利用することで低減 評価者ごとに基準が異なり、結果が不安定 複数人の評価を用いて総合判断 様々な方法が存在 HUMANスコアを利用

Next Step WATは毎年開催の予定 言語資源の共有 文脈を利用した機械翻訳の重要性を検討 より多くの言語、ドメインを含める インドネシア語-英語の新聞記事の翻訳 日本語-中国語の特許文献の翻訳 言語資源の共有 単言語/対訳コーパス、辞書など 文脈を利用した機械翻訳の重要性を検討

まとめ 英語以外の言語で書かれた文書数の増大 日中・中日機械翻訳実用化プロジェクト 近年のアジア諸国の発展 他言語の情報への容易なアクセス方法が必要 日中・中日機械翻訳実用化プロジェクト 両国間の科学技術交流を促進 近年のアジア諸国の発展 日中韓とASEANなどが一体となり、さらに発展 日本での機械翻訳技術の活用は遅れている 研究者と利用者(翻訳者)との歩み寄り 効率的な人手翻訳、言語資源の蓄積

ありがとうござました

中国語-英語 英語-日本語 中英 単語アライメント&句ペアの抽出 句ペア 中英 句ペア 中英 データ 英語を基準とした結合 フィルタリング1 翻訳 機械 翻訳 自動 翻訳 機械 翻訳 の 机器 翻译 机器 翻译 中 的 机器 翻译 machine translation 中英 句ペア 単語アライメント&句ペアの抽出 フィルタリング1 中英 データ 中英 句ペア 英語を基準とした結合 フィルタリング2 中英日 句ペア 中英日 専門 用語 辞書 日英 データ 日英 句ペア 日英 句ペア

データセット 中国語−英語対訳コーパス及び辞書 英語−日本語対訳コーパス及び辞書 LCAS 論文抄録: 6M文ペア Wikipedia記事タイトル: 151Kペア 英語−日本語対訳コーパス及び辞書 J-GLOBAL 論文タイトル: 22.6Mペア JICST 論文抄録: 19.9M文ペア LCAS 論文抄録: 3.5M文ペア JST 科学技術用語辞書: 550Kペア Wikipedia記事タイトル: 361Kペア

フィルタリングルール ヒューリスティクス 共起回数が3回未満 翻訳確率が0.1未満 双方向の翻訳確率の積が最も高いペアだけを利用 例: 先頭/末尾が句読点や中国語の“的”, “中”や日本語の助詞 共起回数が3回未満 翻訳確率が0.1未満 双方向の翻訳確率の積が最も高いペアだけを利用 高精度だがルールが厳しすぎる

現状の辞書サイズ 中国語−英語 英語−日本語 中国語−英語−日本語 自動獲得句ペア: 823,356 中国側から提供された辞書: 3Mエントリー 英語−日本語 自動獲得句ペア: 8,079,137 中国語−英語−日本語 1,843,959

Next Step 精度の向上とエントリー数の拡充 結合後の句ペアに対するフィルタリング 構築した辞書のアプリケーションでの利用 機械学習の手法を利用したフィルタリング 同義表現、言い換え表現などの獲得 結合後の句ペアに対するフィルタリング 英語が多義語の場合 構築した辞書のアプリケーションでの利用

欧米での翻訳後編集