平成 10 年 5 月 25 日 Windows NT 漢字処理技術協議会 WG2 (コード & キャラクターセット)リーダー NEC オフィスシステム 伊藤 英俊 漢字コードについ て
内 容内 容 コード問題についての整理 JIS 漢字コード拡張計画の進捗状況 ・ コード系のおさらい ・ 漢字コードについての世の中の議論 ・ いわゆる第 3 ・第 4 水準の標準化 作業の現状
コード系のおさらい ・ ISO 2022 系 複数の 1 バイト 7 ビットコード/ 8 ビットコード 2バイト 7 ビットコード/ 8 ビットコードを 「指示」(エクスケープシーケンス)と 「呼出し」(シフトコード)を用いて 同一システムで混在使用 ISO 2022 Code Extention Technique JIS X 0202 符号拡張技法
ISO 2022系 コード 1バイトコード b7b6b5b4b3b2b1 図形キャラクタ 仮 名仮 名 DEL SP SO SI 7単位 b7 ~ b5 b4 ~ b 図形キャラクタ ローマ文字 DEL SP
ISO 2022系 コード 1バイトコード b8b7b6b5b4b3b2 8単位 b1 図形キャラクタ ローマ文字 DEL SP b8 ~ b5 b4 ~ b (CO) 図形キャラクタ 仮 名仮 名 未定義 (GR)(GL)
ISO 2022系 2バイト コード b8b1b8b1 図形キャラクタ GL 94×94 =8836 図形キャラクタ GR b8=0 b8=1 第1バイト 第2バイト 制御コード スペース 未定義 b8 0 1 b7 ~ b5b4 ~ b1 未定義 デリート
JIS X 0208-1990 情報交換用漢字符号 非漢字524字 (未定義) 第1水準漢字 2965字 第2水準漢字 3390字 (未定義) 点 区
JIS X 0212-1990 情報交換用漢字符号-補助漢 字 非漢字 245字 漢字 5801字 (未定義) 点 区 ( 1 区、 3 ~ 5 区、 8 区、 12 ~ 15 区は未定義)
ISO 2022 コード拡張技法の 概念図 GLGRG0G1G2G3 X0208X0212X0201 呼出し (シフトコード) 指示 (エスケープシーケンス) F:ファイナルキャラクタ=図形文字セットのID LS0 LS1 LS3 LS2LS1R LS2R LS3R ESC I F ESC I 1 I 2 F 概念であって 厳密でないので注意
コード系のおさらい ・ シフト JIS ISO 2022 系のコードで 1 バイトコードと 2 バイトコードを「指示/呼出し」なしで 混在使用するため 1 バイトエリアと 2 バイトエリアが重ならないよう 2 バイトエリアをシフトしたもの 簡便だが拡張性に乏しい ( ex.X0212 補助漢字は使えない)
シフトJIS コード 217E 21 7E 81 9F 40FC 40 E0 FC 1バイト見て、1バイトエリアか2バイトエリアか知る 2バイトのエリアなら次のバイトと合わせて1字のコード 1バイト エリア 2バイト エリア 1バイト エリア 2バイト エリア
コード系のおさらい ・ ISO UCS 、 Unicode 従来の ISO 2022 とは異なり 2 オクテット ( は 2 および 4 オクテット)の 単一コード系 ISO 2022 との互換はない 非漢字は各国文字に個別コードを付与 漢字は C 、 J 、 K 、各国漢字を統合化
ISO/IEC 10646-1:19 93 UCS (JIS X 0221-1995) 点 256 区 256 面 00 群 00 群 01 群 7F
ISO/IEC 10646-1:1 993 UCS (JIS X 0221-1995) 群面区点 UCS4 群 00 /面 00 : BMP(基本多言語面)=UCS2 Unicode
BMP(基本多言語面) A領域 I領域 O領域 R領域 (アルファベット記号類) (CJK統合漢字) (未定義) (PUA、互換文字等) A0 E0 FF20,992 19,903 PUA (私用領域)は E000 ~ F8FF の 6400 字分
CJK統合漢字
コード系についての世の中の議論 ・ Unicode 批判を客観的に整理 1.使える文字が限定される 1.コード枠に制限がある (注. UTF16 の回避策) 2.漢字を統合したのが問題 3.制定の経緯が気にくわない 民主主義(多数決論理)の悪用に よる多国籍企業の横暴 4.従来の国内規格との互換性がない 欧米企業には都合よい規格 (現代の黒船、日本への経済侵略) ′
批判についての私の意見 1.使える文字が限定 文字についての把え方の議論が不足 異なり字(親字)か異体字の不足か? 解決策は別 1.コード枠に制限 学術研究用(例:古代文字も必要)には 別の規格でよい 一般用規格のスーパーセットならなお可 2.漢字統合の問題 やり直せるならやり直せば! やり直せないようなら利用方法を考えよう! ′
批判についての私の意見 3.制定の経緯の問題 感情論を言ってても仕方ない 4.従来規格と非互換 承知で(多数決)で決めたのだから仕方ない フル変換は覚悟の上だろう 5.その他 皆、自分の立場でしか意見を言っていない 解決策の提言がない
漢字コードについての私の意見、提言 分野によってニーズは異なる ・学術研究分野:古代文字までコード化が必要 ・戸籍処理:誤字、俗字の類いの異り字、 異体字も DB 上で区別が必要 異体字はプレゼンテーションレベルの問題 という考えは違う ・一般 OA :たまに使う異り字、異体字は 外字処理で可能 経済性も大事
漢字コードについての私の意見、提言 異体字を指定できるスキームが必要 例えば異体字ファンクションと異体字番号で指定 ex. 渡辺 渡邊 異体字は登録制で台帳管理 フォントを実装すれば渡邊が出るし フォントがなくても渡辺の異体字で あることは明白 異体字かどうかの判断規準(現在の包摂規準 とは目的が別)作りと常設管理機関が必要 異体字ファンクション 異体字番号
JIS 第 3 、第 4 水準標準化の進捗状況 スケジュール ・昨年度( 1997 )初めから検討開始 本年度中( 1998 )に JIS 原案完成目標 ・本年 9 月~ 12 月に公開レビュー予定で準備中 ・現在の状況は下記Webで公開中
JIS 第 3 、第 4 水準標準化の進捗状況 目的 ・現代日本語を符号化するために十分な 文字集合を提供すること ・ JIS X 0208 と同時に用い、 JIS X 0208 を 補完するものであること 目標は約 5000 字の漢字と記号類 ・現状の使用環境で直ちに実装できること
JIS 第 3 、第 4 水準標準化の進捗状況 現状( Web 公開内容から再編集) ・漢字 資料を入手し資料間の 1 字毎の照合を実施中 既にかなりの部分は終っており、 その異り字数は約 7200 字 分野 NTT ハローページ( 1997/2 )、 NTT 契約者名簿 町字ファイル外字(国土地理協会)、 町字ファイル書き換え文字 1 万分の 1 地図/ 2 万 5 千分の 1 地図(国土地理院) 典拠資料/調査対象資料 現行法律・政令・省令外字 地名 人名 法例
JIS 第 3 、第 4 水準標準化の進捗状況 分野 典拠資料/調査対象資料 学術 一般 その他 ( 不明 ) 新首字、熟語専用字の一方だけ X0208 にあるもの 日本国語大辞典(新版)外字(小学館) 広辞苑外字(岩波書店)、大辞林外字(三省堂) 共同通信社外字 文部省学術用語集、切韻印目(鉅宋広韻による)、 韻鏡三十六字母 小・中・高校検定済全教科書 1500 冊 新潮文庫の 100 冊 / 明治の文豪 / 大正の文豪(新潮社) 大正新修大蔵経所収漢字(大蔵出版社) 中国医学古典用外字(日本内経医学会) IBM 選定文字、 JIPS (日本電気)拡張文字、 JEF (富士通)拡張文字
JIS 第 3 、第 4 水準標準化の進捗状況 ・非漢字 資料を入手し検討中 ・アイヌ語表記の仮名 ・鼻濁音表記の仮名 ・歯科記号
JIS 第 3 、第 4 水準についての問題点 人名漢字が増えても 戸籍処理上の問題解決にはならない シフト JIS に適用すると ・現在の AP のほとんどは動作しないと思われる 中国で GBK が実装されて大騒動発生と 同じパターン ・ユーザー外字が使えない
終 漢字コードについ て