中澤敏明科学技術振興機構（JST）/京都大学

Slides:

Advertisements

Similar presentations

英作文支援システムの構築に関する研究平成 15 年 11 月 18 日 ( 火 ) A1 グループ M2 永易稔中間発表.

Advertisements

言語情報を利用したテキストマイニング奈良先端科学技術大学院大学情報科学研究科工藤拓山本薫坪井裕太松本裕治.

1 １）外部の図書館の利用のしかた ①国立国会図書館 ( 東京本館・・・千代田区永田町 ) 国会議事堂の近く。 ● 満 18 歳以上であれば、だれでも施設・資料を利用することができる。 ● インターネットによる複写サービスもある。 ●NDL-OPAC というシステムから、インターネットを使ってどこからでも.

音声翻訳における機械翻訳・音声合成の性能評価および分析 ☆橋本佳，山岸順一， William Byrne ， Simon King ，徳田恵一名工大 University of Edinburgh Cambridge University

大規模コーパスから獲得した名詞の出現パターンを用いた事態名詞の項構造解析

ジャパンリンクセンター（JaLC）のご紹介

LZ符号化森田岳史.

最大エントロピーモデルに基づく形態素解析と辞書による影響

整数計画法を用いたフレーズ対応最適化による翻訳システムの改良

国内線で新千歳空港を利用している航空会社はどこですか？

知識情報演習Ⅲ（後半第1回）辻慶太（水）

参照共起分析の Webディレクトリへの適用

KeyGraphを活用した食品安全リスクの早期警告支援

共起用例と名詞の出現パターンを用いた動作性名詞の項構造解析

実験関数・記号付き文型パターンを用いた機械翻訳の試作と評価石上真理子水田理夫徳久雅人村上仁一池原悟（鳥取大） ◎評価方法１

Super-Functionに基づく日英機械翻訳

テキストマイニング，データマイニングと社会活動のトレース

NIIメタデータデータベースの構想国立情報学研究所　開発・事業部コンテンツ課　米澤誠

Webサイト運営 09fi118 橋倉伶奈 09fi131 本間昂 09fi137 三上早紀.

共同ローカリゼーションフレームワーク井上　謙次.

京都大学大学院情報学研究科社会情報学専攻 (財)科学技術振興事業団 (株) NTT コミュニケーション科学基礎研究所

述語項構造に基づいた統計翻訳における語句の並べ替え

情報検索演習第2回前から4列目までに着席すること 2005年10月05日後期水曜5限江草由佳国立教育政策研究所

情報検索演習の基礎１．どういう検索をするのかコンピュータを用いた検索である

中国網の紹介　　　　中国網は国務院ニュース弁公室管轄の、中国外文出版発行事務局（中国国際出版集団）が管理する国家重点ニュースサイトである。1997年に設立した中国網は、簡体字中国語、繁体字中国語、英語、フランス語、ドイツ語、日本語、スペイン語、アラブ語、ロシア語、韓国語およびその他外国語の10ヶ国語（11字体バージョン）を以って情報を公開する「スーパーネットワーク・プラットフォーム」である。その読者ユーザは世界200ヶ国（地域）以上に分布している。

第12回情報論的学習理論ワークショップ（IBIS 2009） IBIS 2009のプログラムについて

教育系サブジェクトリポジトリとしての展開

小樽商科大学学術成果コレクション（Barrel）－ねらいとお願い

整合性尺度を用いた構造的対訳文アラインメント

Semi-Supervised QA with Generative Domain-Adaptive Nets

日本語解析済みコーパス管理ツール「茶器」

動詞の共起パターンを用いた動作性名詞の述語項構造解析

平成２２年６月１５日図書系職員のためのアプリケーション開発講習会

JST／中国総合研究センターの活動紹介～日中の科学技術分野における相互理解促進のための基盤～

２０１６年１１月２５日大阪開発センター技術１部深田健太アプライアンス&デジタルソリューション株式会社

機械翻訳勉強会　論文紹介 mamoru-k 小町守 2018/11/9.

大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換

複数の言語情報を用いたCRFによる音声認識誤りの検出

画像ピボットパラフレーズ抽出に向けて大阪大学 NAIST Chenhui Chu,1 大谷まゆ,2 中島悠太1

Javaソースコード蓄積・検索システムSPARS-Jの概要

定兼邦彦今井浩東京大学理学系研究科情報科学専攻

機械翻訳勉強会 NTCIR-7について 2007年10月16日奈良先端大D1小町守.

東京大学OPAC Plus “言選Web” -関連学術用語による日本語文献情報への簡易ナビゲーションシステム-

環境リスクマネジメントに関する検索システム

只見町インターネット・エコミュージアムの「キーワード」検索の改善

雑音環境下における非負値行列因子分解を用いた声質変換

ネットショップデザイン入門Ⅰ・ⅡSEO 2013/12/18 Webデザイン入門　SEOの基本.

大規模データによる未知語処理を統合したスケーラブルな仮名漢字変換

情報検索(６) メディア検索の仕組み教員岩村雅一

深層学習を用いた音声認識システム工学部　電気電子工学科　白井研究室 T213069　林健吉.

ソースコードの特徴量を用いた機械学習によるメソッド抽出リファクタリング推薦手法

ディスカバリーサービスプリモ～ Discovery & Delivery ～

Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水洋志.

テキストマイニング，データマイニングと社会活動のトレース

超大規模ウェブコーパスを用いた分布類似度計算

背景課題目的手法作業期待成果有限体積法による汎用CFDにおける流体構造連成解析ソルバーの計算効率の検証

　　JSTChina 　　　　　　　　中国文献データベース.

Peer-to-Peerシステムにおける動的な木構造の生成による検索の高速化

コーディングパターンのあいまい検索の提案と実装

Data Clustering: A Review

設計情報の再利用を目的とした UML図の自動推薦ツール

大規模コーパスに基づく同義語・多義語処理

自然言語処理2015 Natural Language Processing 2015

人文、社会、自然、医療、理工等、総合分野を網羅した学術機関向けの全文データベース (2014年4月1日より開始)

Webページタイプによるクラスタリングを用いた検索支援システム

自然言語処理2016 Natural Language Processing 2016

オブジェクト指向言語におけるセキュリティ解析アルゴリズムの提案と実現

識別子の読解を目的とした名詞辞書の作成方法の一試案

アップデート.

Presentation transcript:

中澤敏明科学技術振興機構（JST）/京都大学アジア言語を中心とした機械翻訳研究中澤敏明科学技術振興機構（JST）/京都大学 2014年11月28日第3回特許情報シンポジウム

国際特許出願件数アメリカ日本中国ドイツ韓国フランスイギリス http://www.globalnote.jp/post-5380.html

世界の特許文献 http://www.meti.go.jp/press/2014/11/20141112003/20141112003.html

世界の科学技術論文数アメリカ中国日本韓国 ※ トムソンロイターのWeb of Scienceのデータを元にJSTが集計

Frontrunner 5000 中国科学技术信息研究所（ISTIC）が発表 http://f5000.istic.ac.cn 中国科学技术信息研究所（ISTIC）が発表およそ4600ある中国の科学技術論文誌から、優れた315論文誌を選出中でも各分野で最も優れた論文（およそ）5000論文を集めた論文概要は英語1000語以内で書かれているが、本文は中国語国外からのアクセスが期待できない

情報アクセスの促進英語以外の言語で書かれた文書量の増大その中にも重要な情報は含まれている他言語の重要な情報への容易なアクセスには機械翻訳技術は必要不可欠 JPOによる中・韓特許文献翻訳・検索システム JSTによる日中・中日機械翻訳実用化プロジェクト

目次日中・中日機械翻訳実用化プロジェクト 1st Workshop on Asian Translation (WAT2014) まとめ言語資源の構築機械翻訳エンジンの開発 1st Workshop on Asian Translation (WAT2014) 概要説明評価手法評価結果まとめ

日中・中日機械翻訳実用化プロジェクト

プロジェクト概要期間: 2013年から5年間参加機関機械翻訳技術により日中間の言語障壁を取り除き、科学技術交流の促進を目指す日本: JST, 京大（協力機関: 筑波大, NICT）中国: ISTIC, CAS, BJTU, HIT 機械翻訳技術により日中間の言語障壁を取り除き、科学技術交流の促進を目指す http://foresight.jst.go.jp/jazh_zhja_mt/

プロジェクトの目標言語資源の構築言語解析器の精度向上機械翻訳エンジンの開発単語分割専門用語辞書 400万語対訳コーパス特に中国語开发机器翻译技术 Japanese Chinese 機械翻訳机器翻译アルゴリズム算法蓄積积累アセトン丙酮 … … ja: 原言語の意味を正しく目的言語に再現するためには，原言語表現の意味に適した訳語の選択が必要である。 zh: 为了能够正确的再现原来语言的意思，选择适合表现原来语言意思的译语是很重要的。开发机器翻译技术単語分割开发机器専門用語辞書 400万語対訳コーパス 500万文対依存構造解析翻译技术機械翻訳エンジンの開発単語分割: ACL2014 IJCNLP2013 依存構造解析: PACLIC2012 用例ベース機械翻訳システム

日中言語資源の構築

専門用語対訳辞書の構築中英、英日の既存の言語資源から、英語を介して構築現時点での辞書サイズ中英：論文抄録6M、論文タイトル1M 英日：自動獲得 8,079,137ペア中英日：自動獲得 1,843,959ペア

组织蕊片(tissue chip)又称组织微阵列(tissue microarray)是将数十个、言語横断文書検索マイクロアレイ検索単言語検索微阵列キーワード翻訳マイクロアレイ検索 Doc1 Doc8 Doc11 Doc33 …… 组织蕊片(tissue chip)又称组织微阵列(tissue microarray)是将数十个、数百个甚至上千个小的组织切片整齐地排列在某一载体组织蕊片(tissue chip)又称组织微阵列(tissue microarray)是将数十个、 Doc3 組織チップ組織自動構築対訳辞書マイクロアレイ組織切片支持体

言語横断文書検索細胞　老化细胞　衰老 xì bāo shuāi lǎo

日中対訳コーパス構築日本側中国側既存の対訳抄録からの対訳文の自動獲得中国語文献の人手による日本語への翻訳現状2.4M文ペア中国語文献の人手による日本語への翻訳現状7,000記事、さらに7,000記事を今年度中に翻訳中国側翻訳支援ツールを使用した（Computer-assisted Translation: CAT）日英コーパスの中国語への翻訳

機械翻訳の後編集インターフェース Input: MT output: Modified Translation:

後編集ツールの翻訳速度への影響 x m 10 = 15 x h x m 11 x m = 12 x h m ≒ 0.85 h ≒ 0.78 翻訳者 Y 10 15 11 12 10 = 15 x h x m 11 x m = 12 x h m ≒ 0.85 h ≒ 0.78 w/ PE w/o PE 環境分野情報分野医療分野翻訳者 A 翻訳者 B 翻訳者 C 翻訳者 D 翻訳者 E 翻訳者 F 実験1 (5文書, 30文) 3:32:04 1:48:00 0:38:05 1:41:19 1:23:59 3:39:00 2:48:53 1:16:53 0:34:00 1:17:00 2:18:00 2:43:02 速度向上率 5.5% 7.7% 32.7% 実験2 3:57:59 1:50:00 0:30:30 1:05:32 1:56:00 2:34:00 2:23:49 1:55:00 0:16:30 0:21:05 2:45:00 -31.5% 22.9% -6.3%

文構造の可視化调查了考虑到我们我々は我々は计算，概率，確率，確率体检中发现肾上腺偶发肿瘤的 [Kishimoto et. al, 2014 WPTP3] 中国語構文解析考虑到计算的重要性一般人口中发生肾上腺偶发肿瘤的概率，调查了中国語語順での日本語翻訳我们概率体检中发现肾上腺偶发肿瘤的。を考慮してを計算する一般人口に副腎偶発腫が発生する確率の重要性，を調査した我々は確率検診に副腎偶発腫を発現する。を考慮してを計算する一般人口に副腎偶発腫が発生する確率の重要性，を調査した我々は確率検診に副腎偶発腫を発現する。日本語翻訳結果

機械翻訳エンジンの開発

動機近年のコーパスベース機械翻訳の成功言語構造や語順の大きく異なる言語対で高精度な翻訳精度を達成するには構造情報の利用が必須特に英仏など言語構造の似た言語対ルールベース翻訳よりも高精度なことも言語構造や語順の大きく異なる言語対で高精度な翻訳精度を達成するには構造情報の利用が必須日英翻訳や日中翻訳など

アプローチ依存構造木上での単語アライメント (⇔ GIZA++) 依存構造木同士の翻訳 (⇔ Phrase-based SMT) [Nakazawa+, COLING2012], [Nakazawa+, IJCNLP2011] 依存構造木同士の翻訳 (⇔ Phrase-based SMT) [John+, ACL2014] 高速なオンライン用例検索 [Cromieres, EMNLP2011] ラティス構造を利用した効率的なデコード [Cromieres+, EMNLP2014]

KyotoEBMTの概要

高速なオンライン用例検索対訳コーパス全体から、入力文の翻訳に使える部分（部分木）を高速に検索事前に全ての翻訳知識を作り出す必要がない転置インデックスを使い、小さな部分木の出現の積集合を繰り返し計算 C C Occ( ) ∩ Occ( ) = Occ( ) C A Occ( ) ∩ Occ( ) = Occ( ) C B A B C C C Occ( ) ∩ Occ( ) = Occ( ) A B A B

ラティス構造によるデコード KyotoEBMTでの翻訳の難しさラティス構造の利用アライメント時に対応のない語の扱い（図中の*）用例の組み合わせ方の曖昧性（図中のZ）非局所的な素性（言語モデルなど）の利用ラティス構造の利用 X(ウイスキー) is produced from Y (オオムギ) Z1 (まず) Z2 (まず) Z3 (まず) at* 局所的な素性のスコア from Y Z3 produced 0.3 0.2 0.3 is at 0.3 X Z2 from Y 0.2 0.2 0.1 are 0.2 0.1 0.2 ε Z1 produced 0.3 0.1 0.1 0.1

翻訳精度 ISTICによる日→中翻訳の自動評価中国国内の翻訳サービスと比較 System A System B

Next Step 入力文の構文”森”化木構造言語モデルの利用 Deep Learning技術の利用構文解析誤りの影響を低減出力木構造の情報を利用 Deep Learning技術の利用最近いたるところで流行っている単語、文構造の単なる置き換え作業から意味の翻訳へ

1st Workshop on Asian translation (WAT2014)

アジア言語を対象とした機械翻訳評価ワークショップ (2014年は日本語、中国語、英語のみ) 科学技術論文を翻訳対象として採用 http://lotus.kuee.kyoto-u.ac.jp/WAT/ アジア言語を対象とした機械翻訳評価ワークショップ (2014年は日本語、中国語、英語のみ) 科学技術論文を翻訳対象として採用日⇔中翻訳を言語対として採用テストセットが段落単位になっており、文脈を考慮した機械翻訳の可能性を検討可能テストセットを含む全てのデータを一般公開 ASPECを利用機械翻訳研究の継続的な発展に貢献

2006年度から2010年度に日本で実施された、科学技術振興調整費による重点課題解決型研究「日中・中日言語処理技術の開発研究」の成果の一部 http://lotus.kuee.kyoto-u.ac.jp/ASPEC/ 2006年度から2010年度に日本で実施された、科学技術振興調整費による重点課題解決型研究「日中・中日言語処理技術の開発研究」の成果の一部日英科学技術論文抄録コーパス（ASPEC-JE） JSTが所有する約200万件の学術論文日英抄録から抽出された300万文対日中科学技術論文抜粋コーパス（ASPEC-JC） JSTの運営する電子ジャーナルサイトJ-STAGE登載の和文論文を、出版学会の許諾を得て中国語に翻訳して作成した68万文対

機械翻訳タスクの参加チーム Team ID J->E E->J J->C C->J NAIST ✓ EIWA Kyoto-U WEBLIO-EJ1 TMU BJTUNLP Team ID J->E E->J J->C C->J NII ✓ SAS_MT Sense NICT TOSHIBA WASUIPS ✓* * 自動評価にのみデータを提出会社国外

当日の参加者は50名以上！ 2014年10月4日撮影

WAT2014での自動評価自動評価サーバーを用意現在も稼働中複数の単語分割ツール、BLEUとRIBESで評価いつでも最新の翻訳結果を継続評価可能評価結果の閲覧: http://lotus.kuee.kyoto-u.ac.jp/WAT/evaluation/ 翻訳結果の提出（無料の利用登録が必要）: http://lotus.kuee.kyoto-u.ac.jp/WAT/submission/

機械翻訳の人手評価お金も時間もかかる評価者ごとに基準が異なり、結果が不安定様々な方法が存在 Adequacy/Fluency (IWSLT) Ranking (WMT, IWSLT) Acceptability (NTCIR) 特許審査評価 (NTCIR) 特許文献機械翻訳の品質評価手順 (JPO)

WAT2014での人手評価お金も時間もかかる評価者ごとに基準が異なり、結果が不安定様々な方法が存在クラウドソーシングを利用することで低減評価者ごとに基準が異なり、結果が不安定複数人の評価を用いて総合判断様々な方法が存在 HUMANスコアを利用

Next Step WATは毎年開催の予定言語資源の共有文脈を利用した機械翻訳の重要性を検討より多くの言語、ドメインを含めるインドネシア語-英語の新聞記事の翻訳日本語-中国語の特許文献の翻訳言語資源の共有単言語/対訳コーパス、辞書など文脈を利用した機械翻訳の重要性を検討

まとめ英語以外の言語で書かれた文書数の増大日中・中日機械翻訳実用化プロジェクト近年のアジア諸国の発展他言語の情報への容易なアクセス方法が必要日中・中日機械翻訳実用化プロジェクト両国間の科学技術交流を促進近年のアジア諸国の発展日中韓とASEANなどが一体となり、さらに発展日本での機械翻訳技術の活用は遅れている研究者と利用者（翻訳者）との歩み寄り効率的な人手翻訳、言語資源の蓄積

ありがとうござました

中国語-英語英語-日本語中英単語アライメント＆句ペアの抽出句ペア中英句ペア中英データ英語を基準とした結合フィルタリング１翻訳機械翻訳自動翻訳機械翻訳の机器翻译机器翻译中的机器翻译 machine translation 中英句ペア単語アライメント＆句ペアの抽出フィルタリング１中英データ中英句ペア英語を基準とした結合フィルタリング２中英日句ペア中英日専門用語辞書日英データ日英句ペア日英句ペア

データセット中国語−英語対訳コーパス及び辞書英語−日本語対訳コーパス及び辞書 LCAS 論文抄録: 6M文ペア Wikipedia記事タイトル: 151Kペア英語−日本語対訳コーパス及び辞書 J-GLOBAL 論文タイトル: 22.6Mペア JICST 論文抄録: 19.9M文ペア LCAS 論文抄録: 3.5M文ペア JST 科学技術用語辞書: 550Kペア Wikipedia記事タイトル: 361Kペア

フィルタリングルールヒューリスティクス共起回数が3回未満翻訳確率が0.1未満双方向の翻訳確率の積が最も高いペアだけを利用例: 先頭/末尾が句読点や中国語の“的”, “中”や日本語の助詞共起回数が3回未満翻訳確率が0.1未満双方向の翻訳確率の積が最も高いペアだけを利用高精度だがルールが厳しすぎる

現状の辞書サイズ中国語−英語英語−日本語中国語−英語−日本語自動獲得句ペア: 823,356 中国側から提供された辞書: 3Mエントリー英語−日本語自動獲得句ペア: 8,079,137 中国語−英語−日本語 1,843,959

Next Step 精度の向上とエントリー数の拡充結合後の句ペアに対するフィルタリング構築した辞書のアプリケーションでの利用機械学習の手法を利用したフィルタリング同義表現、言い換え表現などの獲得結合後の句ペアに対するフィルタリング英語が多義語の場合構築した辞書のアプリケーションでの利用

欧米での翻訳後編集