星泉,町田和彦,上田広美,岡田知子 東京外国語大学 アジア・アフリカ言語文化研究所

Slides:



Advertisements
Similar presentations
IBMユーザ研究会九州研T3 3.Web2.0を実際に使ってみた. Web2.0を実際に使ってみました 研究会をプロジェクトに見立 てて “ Google SpreadSheet ” で会議を開く “ SNS ” でコミュニケーションを補助する “ Wiki ” で成果物を共有する.
Advertisements

ActionScript を用いた 新世紀型物理教育のための シミュレーション教材開発 日本物理学会 2005 年春季大会 ePhysics プロジェクト.
Word で XML マニュアルを編集 し、 XML を自動組版する 1. XML の自動組版概要 2. Word での原稿入力 アンテナハウス株式会社 2004/09/03.
教育と発達. 能力とは何か(まとめ) 能力=何かできること 教育との関連での条件 – 価値ある能力であること – 訓練で発達可能であること – 教えることが可能であること ふたつの階層性 – 価値的な階層 – 発達の規定性としての階層.
MOSA プログラミングセミナー Mac OS X プログラミング 事始め 新居雅行( MOSA 理事) 2002/4/28.
T2V 技術 Web 製作ラボ 3/ hayashiLabo 2. T2V 技術 PC 操作 念のため・・・
入門B・ミクロ基礎 (第4回) 第2章 2014年10月13日 2014/10/13.
Rubyでニコニコをごにょごにょ MH35.
応用コース:ワープロを活用する WORD2000 1回目 基礎コースの復習(第1章と付録) 2回目 文字の入力(第2章と第4章)
プログラミングとは Q.プログラムとは何か? A.コンピュータを制御するための,コンピュータに対する命令(指示)の集まり.
資料3-7 NIEM等 海外調査報告 経済産業省 CIO補佐官 平本健二.
コンピュータプラクティス I 再現性 水野嘉明
ブラウザの基本操作 前のページに戻る ブラウザの左上にある 「戻る」ボタンで、自分がたどってきた一つ前のページに戻ることができます。
HG/PscanServシリーズ Acrobatとなにが違うのか?
オープンソースGIS入門コース PostGIS+QGISで始める空間データ解析
初めてのパソコン目次へ パソコンでできること
Java I 第2回 (4/18)
JEPA「文字図形共有基盤」調査検討分科会 黒田信二郎 2011年11月17日
通信情報化社会の進展.
5秒以上見続けたくなるYouTubeの動画広告に関する研究
コードの歴史 ASCII(American Standard Code for Information Interchange)  ANSI ISO 646 = 95文字のラテン文字 アルファベット+数字+特殊文字 制御コード: LF, CR などの表示制御と   ACK,DEL などの通信制御 、など.
Linked e-Stat インディゴ株式会社 STAT DASH グランプリ 2016 行政サービス開拓部門 2016/3/5
プログラミングとは Q.プログラムとは何か? A.コンピュータを制御するための,コンピュータに対する命令(指示)の集まり.
Webサイト運営 09fi118 橋倉伶奈 09fi131 本間昂 09fi137 三上早紀.
drmest 著作権管理ソリューション ・・・
Webサイト制作の流れ CEC公開授業 ~テーマ決定からサイト公開まで~ 2007年11月20日 於:東京都立板橋有徳高校
2016年3月10日(木) 内閣官房 情報通信技術(IT)総合戦略室
図書館システムの歴史と 日本語処理を考える
標準空間情報の整備及び 異種データベース間のデータ交換手法 に関する研究開発
インターネット活用法 ~ブラウザ編~ 09016 上野喬.
ASPを利用して最適なSEOを Plus be corpo.
ま と め メディアコミュニケーション論Ⅲ 第15回.
OpenOffice.orgの日本語処理 中本 崇志.
XSL-FO + MathML MathML表示、PDF生成、SVG生成
複言語・複文化状況における日本語教育 -ことばの教室で私たちがめざすもの
C-2 導入プレゼン1 国際交流って何?.
MPIによる行列積計算 情報論理工学研究室 渡邉伊織 情報論理工学研究室 渡邉伊織です。
2003年度 データベース論 安藤 友晴.
シミュレーション論 Ⅱ 第15回 まとめ.
動画ファイル形式 コンピュータでは、文字や画像、動画、音声といった様々な種類の情報を扱うことができるが、記憶装置に記録されるデータそのものは0と1の情報でしかない。動画ファイルの形式としてはMPEGやAVIです。
事務所における情報化の問題点 データが所内で共有されていない、各課ごとに個別に利用されている
ケータイ について. ケータイ について ケータイ メール について みなさんに聞きます。 ケータイで 通話 したことがありますか。
この項は 『日本語構造伝達文法(05版)』 の第30章,第31章の内容に基づいています。より詳しくはその章をお読みください。
WEBアプリケーションの開発 2002年度春学期 大岩研究会2.
ユーザ・インタフェース 小テスト 第5回.
情報通信ネットワークの 仕組み.
オープンソース開発支援のための リビジョン情報と電子メールの検索システム
一人暮らしの男性のための料理検索システムの設計
音声分析 フーリエ解析の定性的理解のために.
東京工科大学 コンピュータサイエンス学部 亀田弘之
コンピュータ リテラシー 担当教官  河中.
理論研究:言語文化研究 担当:細川英雄.
資料2-2 平成26年度 第2回技術委員会資料 次年度検討テーマ案
地方公共団体オープンデータ推進ガイドラインの概要
基礎技術ー3 : Webページの標準規格について
東邦大学理学部情報科学科 白柳研究室 五味渕真也
構造的類似性を持つ半構造化文書における頻度分析
大学図書館における研究開発 「ライブラリシステム研究会」について 三田図書館・情報学会月例会 2002年9月21日
1. API機能による統計データの高度利用環境の構築
自然言語処理2015 Natural Language Processing 2015
資料3-2 平成26年度 第3回技術委員会資料 次年度テーマの検討
MPIを用いた並列処理計算 情報論理工学研究室 金久 英之
Googleマップを活用した 生物調査データベースの構築
第10回 質問(3) メール講座 Next Stage:翻訳力アップ自己トレ(1)
情報処理Ⅱ 2007年12月3日(月) その1.
イラストで学ぶ 音声認識 荒木雅弘 著 講談社 2015.
自然言語処理2016 Natural Language Processing 2016
2008年度 情報数理 ~ 授業紹介 ~.
2012年度 情報数理 ~ 授業紹介 ~.
 タイピング  情報教育の効果を高めるために 慶應義塾大学 環境情報学部教授 大岩 元.
Presentation transcript:

星泉,町田和彦,上田広美,岡田知子 東京外国語大学 アジア・アフリカ言語文化研究所 多言語処理技術の基盤整備 星泉,町田和彦,上田広美,岡田知子 東京外国語大学 アジア・アフリカ言語文化研究所

プロジェクトの概要 なぜインド系文字か? インド系文字処理の現状 インド系文字汎用システム 成果(検証と実験) 今後に向けて 今後に向けて  間を等間隔にする

1. なぜインド系文字か? 本題に入る前にインド系文字について五分ほど説明させてください。このプロジェクトの意義でもありますので。 多言語 漢字系そこそこ,アラビア系そこそこできている。多言語処理の最後の問題はインド系文字といっても過言ではない。 人口が多い ニーズがある 豊かである インド系文字はデジタル化の対応が遅れている 漢字の処理はラテン系文字の処理と同じ考え方 インド系文字は基本文字と記号を決めただけでどう実現されるかについてはいっさい規定がない

インド系文字分布図 国々にわたっている 政治的中立ということが大事 日本人がやる意味がある 自分たちのことしか見ない 違う地域,違う言語をやっている人間が統一的に見る

インド系文字のカキクケコ ヨコが文字別の字形のバラエティ タテがそれぞれの文字におけるカキクケコ 同じ祖先から多様な形に変容 ヨコが文字別の字形のバラエティ タテがそれぞれの文字におけるカキクケコ   同じ祖先から多様な形に変容 しかし構造は同じ 3つの文字を選んだ 他にも3つ。

インド系文字の複雑な構造 もう少し複雑な問題もある 単語のレベルになると 左から右に読みます もう少し複雑な問題もある 単語のレベルになると 左から右に読みます 文字によって規則 表示に関しては(現象面をとらえれば)形も違う,付き方も違う,こんなにたくさんの子音が重なることがある 母音の付き方も文字によって違う

インド系文字の特徴 アラビアはただ増やしていくだけ 漢字 インド系文字は一つ一つの文字が形を変化させていったという特徴がある ただし構造は同じ 核の問題(構造に関するところ)とシェイプの問題を別に考える,われわれは核の部分に取り組んだ。基盤の部分。 3つのタイプの異なる文字を選んだ,という話を少しする

インド系文字 まとめ 南アジア,東南アジア一帯で使用 豊かで多様な文字文化 たった一つの祖先 遠心的な分化→多様性 構造の保持 インド系文字 まとめ 南アジア,東南アジア一帯で使用 豊かで多様な文字文化 たった一つの祖先 遠心的な分化→多様性 構造の保持 構造の保持を手がかりに

2. インド系文字処理の現状 ユニコード 事実上の国際標準 あらゆる文字に対応する姿勢 問題点 固有の文字文化への配慮がない   事実上の国際標準   あらゆる文字に対応する姿勢 問題点   固有の文字文化への配慮がない   規格化されたが実用化は遠い ユニコードができたことにより基盤が整っている 固有の文字分化 文字を使う人たちの声の反映がない 人文科学の意見が反映されていない  正しい文字とは何かということは誰も知らずに作っている 標準などない しかしニーズはいろいろある いろいろな形 ニーズにきめ細かに応える 核を共通だとして,実験をした,これが我々のやったこと  インド系文字として統一的な観点から見ることができていない しかし,国際標準から出発せざるを得ない 新たな規格を建てるのではなく,「実用化は遠い」という部分を解決したい われわれがやったこと結合文字に関する統計的な調査をしたことプロトタイプを作ったこと フォントを比較して標準とは何か見極め 標準はなかった 活版印刷以来の文字文化の継承はできていないということがわかった OTFやレンダリングエンジンまではいかなかったが

多様な結合の例 問題点の実例 文字の実現形についてはユニコードは一切規定していない 3つのうちのどれが標準なのかまではユニコードは規定していない フォントのほうで勝手に処理している 3つとも必要なのに,現在のワープロではいずれかの形しか出ない 3つとも意味がある。 レベルという概念も導入した(文字文化を尊重した)人文科学の人間しか貢献できないこと。文字の形は一つではないのだ。

本プロジェクトの意義 人文科学と情報学との連携 インド系文字汎用システム 一つのエンジンによる統一的な処理 ユニコードにも対応   一つのエンジンによる統一的な処理   ユニコードにも対応 OSやブラウザの種類に依存しないシステム    Linux, Windows , Macintosh,iモード いつでも,どこでも,誰でも,   アジアの固有の文字による情報送受信 コンテンツの蓄積

3. インド系文字汎用システム 処理単位(音節文字) 機械可読の転写方式 汎インド系文字転写方式 各文字体系ローカルな転写方式   汎インド系文字転写方式   各文字体系ローカルな転写方式 統計調査にもとづくレベルの設定 グリフサーバーによる表示システム   OS,ブラウザに依存しない web上での検索など,   様々な文字列処理を可能にする

システム概要

様々なインド系文字に対応 デーヴァナーガリー文字(ヒンディー語,サンスクリット,マラーティー語,ネパール語) クメール文字(カンボジア語) チベット文字(チベット語) グルムキー文字(パンジャービー語) シンハラ文字(シンハラ語) カンナダ文字(カンナダ語) ※ウルドゥー語(アラビア文字)にも対応

4. 成果(検証と実験) インド系文字汎用システム コンテンツの構築と公開 一つのエンジンによる統一的な処理   一つのエンジンによる統一的な処理   OSやブラウザの種類に依存しないシステム コンテンツの構築と公開 単に動く,ということでなく,使い物になるものを作りました。実用化になるものも一部作り上げたということ。

Webサイトへの応用例 電子辞書 語学学習サイト 書誌情報検索 携帯電話端末 アジアの言語と文字による情報発信のページ

電子辞書への応用例

言語学習サイトへの応用例

書誌情報検索への応用例

書誌情報検索(OPAC)への応用例

携帯電話端末への応用例 http://nedo.aa.tufs.ac.jp/mojimojiphone/i/

アジアの言語と文字による情報発信ページ

5. 今後に向けて 国際標準準拠と文字文化の継承 オープンソースによる レンダリングエンジンの開発 インプットメソッドの開発   レンダリングエンジンの開発 インプットメソッドの開発 オープンタイプフォントの開発 組版,ソーティング,スペルチェッカー 標準と継承を両立させたい IM いろいろなものに対応 OTFいろいろな字体,レベルを実現しいろいろなニーズに応えられるような出力