平成 10 年 5 月 25 日 Windows NT 漢字処理技術協議会 WG2 （ｺｰﾄﾞ & ｷｬﾗｸﾀｰｾｯﾄ）ﾘｰﾀﾞｰ NEC オフィスシステム伊藤英俊漢字コードについて.

平成 10 年 5 月 25 日 Windows NT 漢字処理技術協議会 WG2 （ｺｰﾄﾞ & ｷｬﾗｸﾀｰｾｯﾄ）ﾘｰﾀﾞｰ NEC オフィスシステム伊藤英俊漢字コードについて

内容内容コード問題についての整理 JIS 漢字コード拡張計画の進捗状況・コード系のおさらい・漢字コードについての世の中の議論・いわゆる第 3 ・第 4 水準の標準化作業の現状

コード系のおさらい・ ISO 2022 系複数の 1 バイト 7 ビットコード／ 8 ビットコード２バイト 7 ビットコード／ 8 ビットコードを「指示」（エクスケープシーケンス）と「呼出し」（シフトコード）を用いて同一システムで混在使用 ISO 2022 Code Extention Technique JIS X 0202 符号拡張技法

ＩＳＯ２０２２系コード１バイトコード b7b6b5b4b3b2b1 図形ｷｬﾗｸﾀ仮名仮名 DEL SP SO SI ７単位 b7 ～ b5 b4 ～ b1 0 0 1 1 図形ｷｬﾗｸﾀﾛｰﾏ文字 DEL SP 0 100 010 00 1 1 11 1 1 0 100 010 00 1 1 11 1 1

ＩＳＯ２０２２系コード１バイトコード b8b7b6b5b4b3b2 ８単位 b1 図形ｷｬﾗｸﾀﾛｰﾏ文字 DEL SP b8 ～ b5 b4 ～ b1 0 0 1 1 (CO) 図形ｷｬﾗｸﾀ仮名仮名未定義 (GR)(GL) 0 1 00 0 10 0 0 11 11 11 11

ＩＳＯ２０２２系２バイトコード b8b1b8b1 図形ｷｬﾗｸﾀ GL 94×94 =8836 図形ｷｬﾗｸﾀ GR b8=0 b8=1 第１バイト 000 111 000 111 第２バイト制御コード 0000 1111 0000 1111 スペース未定義 b8 0 1 b7 ～ b5b4 ～ b1 未定義デリート

ＪＩＳＸ０２０８－１９９０情報交換用漢字符号非漢字５２４字（未定義）第１水準漢字２９６５字第２水準漢字３３９０字（未定義）点区 1 8 9 15 16 47 48 84 85 94 1

ＪＩＳＸ０２１２－１９９０情報交換用漢字符号－補助漢字非漢字２４５字漢字５８０１字（未定義）点区 1 15 16 77 78 85 84 94 1 （ 1 区、 3 ～ 5 区、 8 区、 12 ～ 15 区は未定義）

ＩＳＯ２０２２コード拡張技法の概念図 GLGRG0G1G2G3 X0208X0212X0201 呼出し（シフトコード）指示（ｴｽｹｰﾌﾟｼｰｹﾝｽ）Ｆ：ファイナルキャラクタ＝図形文字セットのＩＤ LS0 LS1 LS3 LS2LS1R LS2R LS3R ESC I F ESC I 1 I 2 F 概念であって厳密でないので注意

コード系のおさらい・シフト JIS ISO 2022 系のコードで 1 バイトコードと 2 バイトコードを「指示／呼出し」なしで混在使用するため 1 バイトエリアと 2 バイトエリアが重ならないよう 2 バイトエリアをシフトしたもの簡便だが拡張性に乏しい（ ex.X0212 補助漢字は使えない）

シフトＪＩＳコード 217E 21 7E 81 9F 40FC 40 E0 FC １バイト見て、１バイトエリアか２バイトエリアか知る２バイトのエリアなら次のバイトと合わせて１字のコード１バイトエリア２バイトエリア１バイトエリア２バイトエリア

コード系のおさらい・ ISO 10646 UCS 、 Unicode 従来の ISO 2022 とは異なり 2 オクテット（ 10646 は 2 および 4 オクテット）の単一コード系 ISO 2022 との互換はない非漢字は各国文字に個別コードを付与漢字は C 、 J 、 K 、各国漢字を統合化

ＩＳＯ／ＩＥＣ１０６４６－１：１９９３ＵＣＳ（ＪＩＳＸ０２２１－１９９５）点 256 区 256 面 00 群 00 群 01 群 7F

ＩＳＯ／ＩＥＣ１０６４６－１：１９９３ＵＣＳ（ＪＩＳＸ０２２１－１９９５）群面区点 UCS4 群 00 ／面 00 ：ＢＭＰ（基本多言語面）＝ＵＣＳ２ Unicode

ＢＭＰ（基本多言語面）Ａ領域Ｉ領域Ｏ領域Ｒ領域（ｱﾙﾌｧﾍﾞｯﾄ記号類）（ＣＪＫ統合漢字）（未定義）（ＰＵＡ、互換文字等） 00 40 A0 E0 FF20,992 19,903 PUA （私用領域）は E000 ～ F8FF の 6400 字分

ＣＪＫ統合漢字

コード系についての世の中の議論・ Unicode 批判を客観的に整理１．使える文字が限定される１．コード枠に制限がある（注． UTF16 の回避策）２．漢字を統合したのが問題３．制定の経緯が気にくわない民主主義（多数決論理）の悪用による多国籍企業の横暴４．従来の国内規格との互換性がない欧米企業には都合よい規格（現代の黒船、日本への経済侵略） ′

批判についての私の意見１．使える文字が限定文字についての把え方の議論が不足異なり字（親字）か異体字の不足か？解決策は別１．コード枠に制限学術研究用（例：古代文字も必要）には別の規格でよい一般用規格のスーパーセットならなお可２．漢字統合の問題やり直せるならやり直せば！やり直せないようなら利用方法を考えよう！ ′

批判についての私の意見３．制定の経緯の問題感情論を言ってても仕方ない４．従来規格と非互換承知で（多数決）で決めたのだから仕方ないフル変換は覚悟の上だろう５．その他皆、自分の立場でしか意見を言っていない解決策の提言がない

漢字コードについての私の意見、提言分野によってニーズは異なる・学術研究分野：古代文字までコード化が必要・戸籍処理：誤字、俗字の類いの異り字、異体字も DB 上で区別が必要異体字はプレゼンテーションレベルの問題という考えは違う・一般 OA ：たまに使う異り字、異体字は外字処理で可能経済性も大事

漢字コードについての私の意見、提言異体字を指定できるスキームが必要例えば異体字ファンクションと異体字番号で指定 ex. 渡辺渡邊異体字は登録制で台帳管理フォントを実装すれば渡邊が出るしフォントがなくても渡辺の異体字であることは明白異体字かどうかの判断規準（現在の包摂規準とは目的が別）作りと常設管理機関が必要異体字ﾌｧﾝｸｼｮﾝ異体字番号

JIS 第 3 、第 4 水準標準化の進捗状況スケジュール・昨年度（ 1997 ）初めから検討開始本年度中（ 1998 ）に JIS 原案完成目標・本年 9 月～ 12 月に公開レビュー予定で準備中・現在の状況は下記Ｗｅｂで公開中 http://jcs.aa.tufs.ac.jp/jcs/new-jis/

JIS 第 3 、第 4 水準標準化の進捗状況目的・現代日本語を符号化するために十分な文字集合を提供すること・ JIS X 0208 と同時に用い、 JIS X 0208 を補完するものであること目標は約 5000 字の漢字と記号類・現状の使用環境で直ちに実装できること

JIS 第 3 、第 4 水準標準化の進捗状況現状（ Web 公開内容から再編集）・漢字資料を入手し資料間の 1 字毎の照合を実施中既にかなりの部分は終っており、その異り字数は約 7200 字分野 NTT ハローページ（ 1997/2 ）、 NTT 契約者名簿町字ファイル外字（国土地理協会）、町字ファイル書き換え文字 1 万分の 1 地図／ 2 万 5 千分の 1 地図（国土地理院）典拠資料／調査対象資料現行法律・政令・省令外字地名人名法例

JIS 第 3 、第 4 水準標準化の進捗状況分野典拠資料／調査対象資料学術一般その他 ( 不明 ) 新首字、熟語専用字の一方だけ X0208 にあるもの日本国語大辞典（新版）外字（小学館）広辞苑外字（岩波書店）、大辞林外字（三省堂）共同通信社外字文部省学術用語集、切韻印目（鉅宋広韻による）、韻鏡三十六字母小・中・高校検定済全教科書 1500 冊新潮文庫の 100 冊 / 明治の文豪 / 大正の文豪（新潮社）大正新修大蔵経所収漢字（大蔵出版社）中国医学古典用外字（日本内経医学会） IBM 選定文字、 JIPS （日本電気）拡張文字、 JEF （富士通）拡張文字

JIS 第 3 、第 4 水準標準化の進捗状況・非漢字資料を入手し検討中・アイヌ語表記の仮名・鼻濁音表記の仮名・歯科記号

JIS 第 3 、第 4 水準についての問題点人名漢字が増えても戸籍処理上の問題解決にはならないシフト JIS に適用すると・現在の AP のほとんどは動作しないと思われる中国で GBK が実装されて大騒動発生と同じパターン・ユーザー外字が使えない

終漢字コードについて

平成 10 年 5 月 25 日 Windows NT 漢字処理技術協議会 WG2 （ｺｰﾄﾞ & ｷｬﾗｸﾀｰｾｯﾄ）ﾘｰﾀﾞｰ NEC オフィスシステム伊藤英俊漢字コードについて.

Similar presentations

Presentation on theme: "平成 10 年 5 月 25 日 Windows NT 漢字処理技術協議会 WG2 （ｺｰﾄﾞ & ｷｬﾗｸﾀｰｾｯﾄ）ﾘｰﾀﾞｰ NEC オフィスシステム伊藤英俊漢字コードについて."— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

平成 10 年 5 月 25 日 Windows NT 漢字処理技術協議会 WG2 （ｺｰﾄﾞ & ｷｬﾗｸﾀｰｾｯﾄ）ﾘｰﾀﾞｰ NEC オフィスシステム 伊藤 英俊 漢字コードについ て.

Similar presentations

Presentation on theme: "平成 10 年 5 月 25 日 Windows NT 漢字処理技術協議会 WG2 （ｺｰﾄﾞ & ｷｬﾗｸﾀｰｾｯﾄ）ﾘｰﾀﾞｰ NEC オフィスシステム 伊藤 英俊 漢字コードについ て."— Presentation transcript:

Similar presentations

About project

フィードバック

平成 10 年 5 月 25 日 Windows NT 漢字処理技術協議会 WG2 （ｺｰﾄﾞ & ｷｬﾗｸﾀｰｾｯﾄ）ﾘｰﾀﾞｰ NEC オフィスシステム伊藤英俊漢字コードについて.

Presentation on theme: "平成 10 年 5 月 25 日 Windows NT 漢字処理技術協議会 WG2 （ｺｰﾄﾞ & ｷｬﾗｸﾀｰｾｯﾄ）ﾘｰﾀﾞｰ NEC オフィスシステム伊藤英俊漢字コードについて."— Presentation transcript: