芝野耕司 ISO/IEC JTC1/SC2 (Coded Character Sets)委員長 東京外国語大学 符号化文字集合規格の体系とその進化 芝野耕司 ISO/IEC JTC1/SC2 (Coded Character Sets)委員長 東京外国語大学
内容 符号化文字集合の種類 SC2規格の進化Old BibleからNew Bibleへ The Old Bible: ISO R 646 文字集合の拡張 文字の同定 The New Bible: ISO/IEC 10646
符号化文字集合規格の種類 図形文字 符号拡張 制御機能 ISO/IEC 646 ISO/IEC 8859 ISO/IEC 10646
ISO符号化文字集合の進化 From Old Bible to New Bible CCITT#2 ASCII63 ISO R 646-1967 82 字の共通文字 12 字の各国又は適用業務向け文字 版の適合性 BS、CR、SPを用いた文字合成 32 字の制御文字 情報処理交換用 小文字を除く ISO 6937 ISO 8859 ヨーロッパ用 字送りなしのアクセントによる合成 合成なし Latin 1 – 西ヨーロッパ Latin 2 – 東ヨーロッパ ISO 2022 646の版をもとした符号拡張 1文字を取り替えるシングルシフト 表を全部取り替えるロッキングシフト ISO/IEC 10646 New Bible
基本ラテン文字の符号化 情報処理と情報交換の共通コード 図形文字の一意な符号化 各国又は適用業務毎の版 BS、CR、SPによる合成 The Old Bible: ISO R646-1967 6 and 7 bits coded character sets for Information Processing interchange 基本ラテン文字の符号化 94 字の図形文字、 82 字が共通 情報処理と情報交換の共通コード 図形文字の一意な符号化 各国又は適用業務毎の版 BS、CR、SPによる合成 異なった文字をも統合
文字集合の拡張 Set of 94 Characters is too small ほとんどのヨーロッパの言語にとっても94字は少なすぎる! 文字合成が必要 符号拡張が必要
文字合成 タイプライタから活版へ タイプライタモデル 活字モデル 646 6937 10646 BS, SP, CRを用いた重ね打ちによる合成 6937 字送りなしのアクセント文字による合成 アクセント、親字の順 活字モデル 10646 親字,アクセントの順 複数のアクセントをつけることが可能
ISO 2022 符号拡張法 ISO 646の版のための符号拡張法を規定 1バイト2バイトの混在環境では必須 シングルシフトでの1文字の切り替え 版を取り替えるロッキングシフト 1バイト2バイトの混在環境では必須 2022 は,混在を許すが保証はしない 適合性で共通のエスケープシーケンスの利用を規定 最小のエスケープシーケンスを推奨 複雑で実装コストが高い 完全な実装は殆どない
ISO 8859 From 8859 Brief History ISO 646の版の問題 8859の設計原理 8859 限界 They do not provide all graphic characters which may be needed, for some characters, specifically for accented letters, it is necessary to resort to BACKSPACE sequences,which creates problems when processing data containing such composite characters, interchange among different versions is practically limited to the 82 common characters. 8859の設計原理 The same for all users of a given area, provide single-byte coding of all graphic characters thus permitting easy processing, takes into account character sets used in the industry. 8859 限界
The New Bible: ISO/IEC 10646 ヨーロッパの8859 世界の10646 8859と同じ設計原理 RLGなどが開発に参画 SC2が全分野の符号化文字集合の開発を担当 1997年にISO TC46(Documentation)からSC2に符号化文字集合を移管
10646の適用範囲 この規格群は,は国際符号化文字集合(UCS)を規定する。この規格群は,世界の言語(用字)を書き表した形(表記形)及び記号の表現・伝送・交換・処理・蓄積・入力・表示に利用できる。 ISO/IEC 10646 specifies the Universal Multiple-Octet Coded Character Set (UCS). It is applicable to the representation, transmission, interchange, processing, storage, input, and presentation of the written form of the languages of the world as well as of additional symbols.
10646の全体構造
BMPの構造
10646の適合性 文字合成に関する水準 集合の部分化 水準1 合成なし 水準2 合成でなければ表せない文字が表現可能に 水準1 合成なし 水準2 合成でなければ表せない文字が表現可能に 水準3 すべての合成が可能 集合の部分化