JEPA「文字図形共有基盤」調査検討分科会 黒田信二郎 2011年11月17日 「文字図形共有基盤」に 期待される役割 JEPA「文字図形共有基盤」調査検討分科会 黒田信二郎 2011年11月17日
印刷・出版・フォント業界の現場で 起きていること 文字セットが作業環境によって異なるので、「外字・異体字」が文字化け・ゲタ文字となる恐れがあり、その防止のための作業工程を常に必要としている。 「ない文字」は、クライアントの要求に応じてその都度「図形」(フォント/画像)を作るが、その管理が系統的に行われていない。個別に(各社あるいは各コンテンツごとに)外字や異体字の判定及びデータ化を行って、互換性を保てないリスクを生むと同時に、高コストの要因となっている。 これらの問題は、「印刷出版」の場合内在していたが、「電子出版」に なって顕在化した。従来の印刷書籍用と電子書籍用文字情報の対応 が取れる、統一的な情報共有化が必要となっている。
問題解決につながるソリューション 「文字図形共有基盤」 現場で必要なものは、印刷・表示する「文字図形」 ※UNICODEの拡張が進んだが、使われる環境にフォントが実装されて いるわけではないので、現場処理としては「外字」となる。 ※各符号化文字集合のルールでは(JIS の包摂規準やUCSの統合 ルール等)、もともと字形の差異があるにもかかわらず、同一符号と 見なされる「異体字」がある(⇒UNICODEではIVS/IVDという方式が 出現)。また例示字形が変更される。 ※これらの関係性を正確にハンドリングし、デバイスが違っても 表示文字が揺らがない仕組みを実現するための業界インフラが 必要である。
問題解決につながるソリューション「文字図形共有基盤」 「文字図形」(フォント/画像)が、図形として一意に共通的に認識できることが必須要件 ※漢字全般を理解する人材の減少(各社ローカル処理の限界) ※校正業務等作業の効率化(文字図形の指定が番号でできる) ※既存資産の活用 ・文字図形と番号が定まっている「大漢和番号」「文字鏡番号」等 ・各社のローカル文字について番号を中間的なキーとした 「データ変換テーブル」作成
問題解決につながるソリューション「文字図形共有基盤」 (1)JEPAは基盤文字セットとして、 文字コード:JISX0213:2004(UNICODE対応)を推奨 ・入力系・編集処理系(IME、DTP、CTS) ・表示閲覧系(各読書用端末機器) ・再入力、再処理系(OCR、TTS) (2)文字コードでカバーできない「外字・異体字」は業界 で共通に使える「文字図形番号」で処理 ・「データに必ず一意の番号がついた形式」の1文字処理で対応 (⇒SVG、WOFF等の処理技術と実装) (仮に「画像」で扱う場合にも番号を保持できるように)
基盤(字形判定情報)運用に求められる ふたつの方向性 基盤(字形判定情報)運用に求められる ふたつの方向性 日本の出版文化の保存と活用を支える基盤として (1)現場が運用上区別する必要のある文字の共有化→基盤拡張 ※多漢字(文字)のニーズ(日本の出版物で使われている規模を整備する) ・歴史的・学術的資料のアーカイブ ・「創り手の意図が読者に伝わる」(著作者が表現上の意図をもって 使いたい文字) ・新しい表現への対応(「文字は生きている」) (2)現場が運用上区別する必要のない文字の集約化→効率化支援 ※字体差・字形差・デザイン差の確認により、無用な外字(フォント)作成を 抑制 ※翻刻や活字版からのデータ化の際の使用文字(通用文字)選択のガイド・ ライン ※「読み上げソフト」では「読み情報」が必須であり、外字・異体字について 「読み情報がある親字」を指定する情報を提供
基盤(字形判定情報)運用の 今後の課題 現場として、この基盤にいけば「文字の問題は何とかなる」というものをめざす 基盤(字形判定情報)運用の 今後の課題 現場として、この基盤にいけば「文字の問題は何とかなる」というものをめざす ※どの程度の規模(文字種・文字数)があればよいか ※「字体差」「字形差」「デザイン差」など異体字判定のルールは どのようなものがよいか ※どういう団体がどういう運営をすればよいか
文字は文化の基盤である ご清聴ありがとうございました