星泉,町田和彦,上田広美,岡田知子 東京外国語大学 アジア・アフリカ言語文化研究所 多言語処理技術の基盤整備 星泉,町田和彦,上田広美,岡田知子 東京外国語大学 アジア・アフリカ言語文化研究所
プロジェクトの概要 なぜインド系文字か? インド系文字処理の現状 インド系文字汎用システム 成果(検証と実験) 今後に向けて 今後に向けて 間を等間隔にする
1. なぜインド系文字か? 本題に入る前にインド系文字について五分ほど説明させてください。このプロジェクトの意義でもありますので。 多言語 漢字系そこそこ,アラビア系そこそこできている。多言語処理の最後の問題はインド系文字といっても過言ではない。 人口が多い ニーズがある 豊かである インド系文字はデジタル化の対応が遅れている 漢字の処理はラテン系文字の処理と同じ考え方 インド系文字は基本文字と記号を決めただけでどう実現されるかについてはいっさい規定がない
インド系文字分布図 国々にわたっている 政治的中立ということが大事 日本人がやる意味がある 自分たちのことしか見ない 違う地域,違う言語をやっている人間が統一的に見る
インド系文字のカキクケコ ヨコが文字別の字形のバラエティ タテがそれぞれの文字におけるカキクケコ 同じ祖先から多様な形に変容 ヨコが文字別の字形のバラエティ タテがそれぞれの文字におけるカキクケコ 同じ祖先から多様な形に変容 しかし構造は同じ 3つの文字を選んだ 他にも3つ。
インド系文字の複雑な構造 もう少し複雑な問題もある 単語のレベルになると 左から右に読みます もう少し複雑な問題もある 単語のレベルになると 左から右に読みます 文字によって規則 表示に関しては(現象面をとらえれば)形も違う,付き方も違う,こんなにたくさんの子音が重なることがある 母音の付き方も文字によって違う
インド系文字の特徴 アラビアはただ増やしていくだけ 漢字 インド系文字は一つ一つの文字が形を変化させていったという特徴がある ただし構造は同じ 核の問題(構造に関するところ)とシェイプの問題を別に考える,われわれは核の部分に取り組んだ。基盤の部分。 3つのタイプの異なる文字を選んだ,という話を少しする
インド系文字 まとめ 南アジア,東南アジア一帯で使用 豊かで多様な文字文化 たった一つの祖先 遠心的な分化→多様性 構造の保持 インド系文字 まとめ 南アジア,東南アジア一帯で使用 豊かで多様な文字文化 たった一つの祖先 遠心的な分化→多様性 構造の保持 構造の保持を手がかりに
2. インド系文字処理の現状 ユニコード 事実上の国際標準 あらゆる文字に対応する姿勢 問題点 固有の文字文化への配慮がない 事実上の国際標準 あらゆる文字に対応する姿勢 問題点 固有の文字文化への配慮がない 規格化されたが実用化は遠い ユニコードができたことにより基盤が整っている 固有の文字分化 文字を使う人たちの声の反映がない 人文科学の意見が反映されていない 正しい文字とは何かということは誰も知らずに作っている 標準などない しかしニーズはいろいろある いろいろな形 ニーズにきめ細かに応える 核を共通だとして,実験をした,これが我々のやったこと インド系文字として統一的な観点から見ることができていない しかし,国際標準から出発せざるを得ない 新たな規格を建てるのではなく,「実用化は遠い」という部分を解決したい われわれがやったこと結合文字に関する統計的な調査をしたことプロトタイプを作ったこと フォントを比較して標準とは何か見極め 標準はなかった 活版印刷以来の文字文化の継承はできていないということがわかった OTFやレンダリングエンジンまではいかなかったが
多様な結合の例 問題点の実例 文字の実現形についてはユニコードは一切規定していない 3つのうちのどれが標準なのかまではユニコードは規定していない フォントのほうで勝手に処理している 3つとも必要なのに,現在のワープロではいずれかの形しか出ない 3つとも意味がある。 レベルという概念も導入した(文字文化を尊重した)人文科学の人間しか貢献できないこと。文字の形は一つではないのだ。
本プロジェクトの意義 人文科学と情報学との連携 インド系文字汎用システム 一つのエンジンによる統一的な処理 ユニコードにも対応 一つのエンジンによる統一的な処理 ユニコードにも対応 OSやブラウザの種類に依存しないシステム Linux, Windows , Macintosh,iモード いつでも,どこでも,誰でも, アジアの固有の文字による情報送受信 コンテンツの蓄積
3. インド系文字汎用システム 処理単位(音節文字) 機械可読の転写方式 汎インド系文字転写方式 各文字体系ローカルな転写方式 汎インド系文字転写方式 各文字体系ローカルな転写方式 統計調査にもとづくレベルの設定 グリフサーバーによる表示システム OS,ブラウザに依存しない web上での検索など, 様々な文字列処理を可能にする
システム概要
様々なインド系文字に対応 デーヴァナーガリー文字(ヒンディー語,サンスクリット,マラーティー語,ネパール語) クメール文字(カンボジア語) チベット文字(チベット語) グルムキー文字(パンジャービー語) シンハラ文字(シンハラ語) カンナダ文字(カンナダ語) ※ウルドゥー語(アラビア文字)にも対応
4. 成果(検証と実験) インド系文字汎用システム コンテンツの構築と公開 一つのエンジンによる統一的な処理 一つのエンジンによる統一的な処理 OSやブラウザの種類に依存しないシステム コンテンツの構築と公開 単に動く,ということでなく,使い物になるものを作りました。実用化になるものも一部作り上げたということ。
Webサイトへの応用例 電子辞書 語学学習サイト 書誌情報検索 携帯電話端末 アジアの言語と文字による情報発信のページ
電子辞書への応用例
言語学習サイトへの応用例
書誌情報検索への応用例
書誌情報検索(OPAC)への応用例
携帯電話端末への応用例 http://nedo.aa.tufs.ac.jp/mojimojiphone/i/
アジアの言語と文字による情報発信ページ
5. 今後に向けて 国際標準準拠と文字文化の継承 オープンソースによる レンダリングエンジンの開発 インプットメソッドの開発 レンダリングエンジンの開発 インプットメソッドの開発 オープンタイプフォントの開発 組版,ソーティング,スペルチェッカー 標準と継承を両立させたい IM いろいろなものに対応 OTFいろいろな字体,レベルを実現しいろいろなニーズに応えられるような出力