Download presentation
Presentation is loading. Please wait.
Published byAndré Lagos Benevides Modified 約 6 年前
1
芝野耕司 ISO/IEC JTC1/SC2 (Coded Character Sets)委員長 東京外国語大学
符号化文字集合規格の体系とその進化 芝野耕司 ISO/IEC JTC1/SC2 (Coded Character Sets)委員長 東京外国語大学
2
内容 符号化文字集合の種類 SC2規格の進化Old BibleからNew Bibleへ The Old Bible: ISO R 646
文字集合の拡張 文字の同定 The New Bible: ISO/IEC 10646
3
符号化文字集合規格の種類 図形文字 符号拡張 制御機能 ISO/IEC 646 ISO/IEC 8859 ISO/IEC 10646
4
ISO符号化文字集合の進化 From Old Bible to New Bible
CCITT#2 ASCII63 ISO R 82 字の共通文字 12 字の各国又は適用業務向け文字 版の適合性 BS、CR、SPを用いた文字合成 32 字の制御文字 情報処理交換用 小文字を除く ISO 6937 ISO 8859 ヨーロッパ用 字送りなしのアクセントによる合成 合成なし Latin 1 – 西ヨーロッパ Latin 2 – 東ヨーロッパ ISO 2022 646の版をもとした符号拡張 1文字を取り替えるシングルシフト 表を全部取り替えるロッキングシフト ISO/IEC 10646 New Bible
5
基本ラテン文字の符号化 情報処理と情報交換の共通コード 図形文字の一意な符号化 各国又は適用業務毎の版 BS、CR、SPによる合成
The Old Bible: ISO R and 7 bits coded character sets for Information Processing interchange 基本ラテン文字の符号化 94 字の図形文字、 82 字が共通 情報処理と情報交換の共通コード 図形文字の一意な符号化 各国又は適用業務毎の版 BS、CR、SPによる合成 異なった文字をも統合
6
文字集合の拡張 Set of 94 Characters is too small
ほとんどのヨーロッパの言語にとっても94字は少なすぎる! 文字合成が必要 符号拡張が必要
7
文字合成 タイプライタから活版へ タイプライタモデル 活字モデル 646 6937 10646
BS, SP, CRを用いた重ね打ちによる合成 6937 字送りなしのアクセント文字による合成 アクセント、親字の順 活字モデル 10646 親字,アクセントの順 複数のアクセントをつけることが可能
8
ISO 2022 符号拡張法 ISO 646の版のための符号拡張法を規定 1バイト2バイトの混在環境では必須
シングルシフトでの1文字の切り替え 版を取り替えるロッキングシフト 1バイト2バイトの混在環境では必須 2022 は,混在を許すが保証はしない 適合性で共通のエスケープシーケンスの利用を規定 最小のエスケープシーケンスを推奨 複雑で実装コストが高い 完全な実装は殆どない
9
ISO 8859 From 8859 Brief History ISO 646の版の問題 8859の設計原理 8859 限界
They do not provide all graphic characters which may be needed, for some characters, specifically for accented letters, it is necessary to resort to BACKSPACE sequences,which creates problems when processing data containing such composite characters, interchange among different versions is practically limited to the 82 common characters. 8859の設計原理 The same for all users of a given area, provide single-byte coding of all graphic characters thus permitting easy processing, takes into account character sets used in the industry. 8859 限界
10
The New Bible: ISO/IEC 10646 ヨーロッパの8859 世界の10646 8859と同じ設計原理
RLGなどが開発に参画 SC2が全分野の符号化文字集合の開発を担当 1997年にISO TC46(Documentation)からSC2に符号化文字集合を移管
11
10646の適用範囲 この規格群は,は国際符号化文字集合(UCS)を規定する。この規格群は,世界の言語(用字)を書き表した形(表記形)及び記号の表現・伝送・交換・処理・蓄積・入力・表示に利用できる。 ISO/IEC specifies the Universal Multiple-Octet Coded Character Set (UCS). It is applicable to the representation, transmission, interchange, processing, storage, input, and presentation of the written form of the languages of the world as well as of additional symbols.
12
10646の全体構造
13
BMPの構造
14
10646の適合性 文字合成に関する水準 集合の部分化 水準1 合成なし 水準2 合成でなければ表せない文字が表現可能に
水準1 合成なし 水準2 合成でなければ表せない文字が表現可能に 水準3 すべての合成が可能 集合の部分化
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.