平成 10 年 5 月 25 日 Windows NT 漢字処理技術協議会 WG2 （ｺｰﾄﾞ & ｷｬﾗｸﾀｰｾｯﾄ）ﾘｰﾀﾞｰ NEC オフィスシステム伊藤英俊漢字コードについて.

Slides:

Advertisements

Similar presentations

Web-GIS の開発と地盤情報の高度利用に関する共同研究について－具体的な共同研究テーマ ( 案 ) －「地質・地盤情報協議会」・「 Web-GIS コンソーシアム」説明会資料全国地質調査業会連合会・情報化委員会.

Advertisements

5 月 28 日説明会 1 Kiwi-W コンソーシアム設立説明会 Kiwi-W コンソーシアム設立準備委員会アイシン・エイ・ダブリュ株式会社インクリメント P 株式会社株式会社ザナヴィ・インフォマティクス株式会社ゼンリン株式会社デンソー株式会社本田技術研究所三菱電機株式会社株式会社トヨタマップマスター.

Outlook メール文字化けの原因と対策 Exchange Server 環境編. 目次はじめに文字化けのよくある原因と回避策 1. A：半角英数字、ヨーロッパ言語などが混在した文字化け B : 送信済みメールの宛先や CC の文字化け 2. 返信、転送時の、ユーザー名や件名の文字化け 3. 日本語が半角英数字に文字化け.

Jw_cad 基本操作（ 5 ）文字入力 2011/11/23 SystemKOMACO Jw_cad 基本操作（ 5 ） Ver.1 1.

基本編の用語説明その２エディタと日本語入力エディタ  エディタ (editor) ：文書を作成、編集するアプリケーションソフトウェア  教育用計算機システムのエディタは、テキストエディットテキストエディット  基本的な編集方法はここここ  カーソル：文字が入力される位置を表している目印.

Copyright © the University of Tokyo 文字化けの背景を知る. Copyright © the University of Tokyo 課題の概要日本語の文字コードについて理解を深める  MacOS( テキストエディット ) で利用可能なエンコーディング ( コード化方式.

Copyright © the University of Tokyo 文字化けの背景を知る. Copyright © the University of Tokyo 課題の概要日本語の文字コードについて理解を深める  MacOS( テキストエディット ) で利用可能なエンコーディング ( コード化方式.

プログラミング言語論第10回（演習）情報工学科　木村昌臣　篠埜　功.

２００３年９月１９日株式会社リコーソリューション計画センター宮本崇夫

『基礎理論』（C）Copyright, Toshiomi KOBAYASHI,

MARC21による国内交換フォーマットの提案

「情報」　（中村）オリジナルＰＰＴ (2010/05/07) 1 1.

2006年11月22日植田龍男 Webサービス II (第９回) 年11月22日植田龍男.

情報処理の基礎私たちとコンピュータの扱うデータの違い明治学院大学法学部消費情報環境法学科鶴貝達政

WebDAVでOpenOffice.org の文章を共有する

エリアメールの比較従来の方式との差異について　鳥居秀徳.

学習目標 1．欧米の精神医療の変遷について概観し，それぞれの時代における特色を理解する． 2．日本の精神医療の変遷について概観し，それぞれの時代における特色を理解する． 3．世界の精神医療の現状と問題点について理解する． SAMPLE 学習目標 1．欧米の精神医療の変遷について概観し，それぞれの時代における特色を理解する．

JEPA「文字図形共有基盤」調査検討分科会黒田信二郎 2011年11月17日

知識情報演習Ⅲ（後半第1回）辻慶太（水）

文字情報基盤 IPAmj 行政機関で使う文字の問題はこれで解決参考６

文字のディジタル化 Copyright(C)2009 Tsutomu Ohara All rights reserved.

電子マネーの現状と今後について１DS05196G　豊田　真大 1DS05213M　渡邉　光寿.

資料1-4 平成27年度　第１回技術委員会 2015年度技術委員会の目標と検討項目（案）

マイクロソフトの産業別標準化活動の取り組み

　授業を設計する(その4) 情報科教育法　後期5回 2004/11/6 太田　剛.

コードの歴史 ASCII(American Standard Code for Information Interchange)  ANSI ISO 646 = 95文字のラテン文字アルファベット＋数字＋特殊文字制御コード：　LF, CR などの表示制御と　　　ACK,DEL などの通信制御　、など.

文字のディジタル化 Copyright(C)2009 Tsutomu Ohara All rights reserved.

地理情報システム論第３回コンピュータシステムおけるデータ表現(1)

第2章ソフトウェアの基礎知識電子制御設計製図Ⅰ 　　　2010年5月11日　Ⅲ限目.

2016年3月10日（木）内閣官房情報通信技術（IT）総合戦略室

文字化けの背景を知る.

プログラミング言語論プログラミング言語論プログラミング言語論演習１解答と解説演習１解答と解説 1 1.

図書館システムの歴史と日本語処理を考える

13回目複合情報検索 13-1 課題の概要 13-2 EBSCOhost の使用方法 13-3 ProQuestの使用方法

要員管理要員の質、量、配置、作業状況を管理する一般的な注意点を下記に示す（１）組織・組織構成を明快にする－指示命令系統

Outlook メール文字化けの原因と対策

WebGIS自動生成システムの現状と今後の可能性

報告4：蔵書評価における文字コード問題について

９．講習の振り返り・お役立ち情報 Version1.2

文字化けの背景を知る.

文字化けの背景を知る.

マイクロソフト株式会社 SAP/Microsoft コンピテンスセンター

GIS等インターフェースの標準化について

第23回ＭＲ認定試験自己採点システムの運用について

図書館システムの歴史と日本語処理紅林徹也～大規模目録データベース～株式会社日立製作所公共システム事業部

芝野耕司 ISO/IEC JTC1/SC2 (Coded Character Sets)委員長東京外国語大学

リコー「LIMEDIO」の紹介 LIMEDIOにおけるZ39.50の適用事例

文字コード情報処理3 今井孝明.

KAGEシステムによる漢字フォント制作支援

文字の表現.

事務所における情報化の問題点データが所内で共有されていない、各課ごとに個別に利用されている

国内におけるICカード検討・委員会マップ

第4回コンピューティングの要素と構成平成22年5月10日(月)

文字エンコーディング 2010年7月.

ありうべき日本語処理とは by 中博俊.

７-０．SWORD Client for WEKO インストールマニュアル Version 2.2

文字のディジタル化 Copyright(C)2009 Tsutomu Ohara All rights reserved.

情報スキル活用　第４週基礎技術－４　:　その１（タグのまとめ）.

　　JSTChina 　　　　　　　　中国文献データベース.

地理情報システム論第８回 GISによる処理技法（１）データの入手と座標系の変換ベクタ形式における空間的演算（１）

第２章空間データの取得と作成７．空間データの品質

地理情報システム論（総）／国民経済計算論（商）

ISO23950による分散検索の課題とその解決案に関する検討

@MD-NET Web-EDI導入について～説明会資料～

日本語独特のL10N問題とは? 各社仕様の拡張文字複数の符号化規格の混乱など Unicodeとのマッピング

オープンデータに関する経済産業省の取組と提言

オペレーティングシステム作成 T21R003 荏原寛太.

電子化基準策定小委員会活動成果報告土木CAD製図基準の策定土木学会　情報利用技術委員会電子化基準策定小委員会.

CADシステムとソフトウェア電子制御設計製図Ⅰ 　　　２００9年4月28日　Ⅲ限目.

データの改竄を防ぐ仕組み 2002/9/12 牧之内研究室「インターネット実習」Webページ

Presentation transcript:

平成 10 年 5 月 25 日 Windows NT 漢字処理技術協議会 WG2 （ｺｰﾄﾞ & ｷｬﾗｸﾀｰｾｯﾄ）ﾘｰﾀﾞｰ NEC オフィスシステム伊藤英俊漢字コードについて

内容内容コード問題についての整理 JIS 漢字コード拡張計画の進捗状況・コード系のおさらい・漢字コードについての世の中の議論・いわゆる第 3 ・第 4 水準の標準化作業の現状

コード系のおさらい・ ISO 2022 系複数の 1 バイト 7 ビットコード／ 8 ビットコード２バイト 7 ビットコード／ 8 ビットコードを「指示」（エクスケープシーケンス）と「呼出し」（シフトコード）を用いて同一システムで混在使用 ISO 2022 Code Extention Technique JIS X 0202 符号拡張技法

ＩＳＯ２０２２系コード１バイトコード b7b6b5b4b3b2b1 図形ｷｬﾗｸﾀ仮名仮名 DEL SP SO SI ７単位 b7 ～ b5 b4 ～ b 図形ｷｬﾗｸﾀﾛｰﾏ文字 DEL SP

ＩＳＯ２０２２系コード１バイトコード b8b7b6b5b4b3b2 ８単位 b1 図形ｷｬﾗｸﾀﾛｰﾏ文字 DEL SP b8 ～ b5 b4 ～ b (CO) 図形ｷｬﾗｸﾀ仮名仮名未定義 (GR)(GL)

ＩＳＯ２０２２系２バイトコード b8b1b8b1 図形ｷｬﾗｸﾀ GL 94×94 =8836 図形ｷｬﾗｸﾀ GR b8=0 b8=1 第１バイト第２バイト制御コードスペース未定義 b8 0 1 b7 ～ b5b4 ～ b1 未定義デリート

ＪＩＳＸ０２０８－１９９０情報交換用漢字符号非漢字５２４字（未定義）第１水準漢字２９６５字第２水準漢字３３９０字（未定義）点区

ＪＩＳＸ０２１２－１９９０情報交換用漢字符号－補助漢字非漢字２４５字漢字５８０１字（未定義）点区（ 1 区、 3 ～ 5 区、 8 区、 12 ～ 15 区は未定義）

ＩＳＯ２０２２コード拡張技法の概念図 GLGRG0G1G2G3 X0208X0212X0201 呼出し（シフトコード）指示（ｴｽｹｰﾌﾟｼｰｹﾝｽ）Ｆ：ファイナルキャラクタ＝図形文字セットのＩＤ LS0 LS1 LS3 LS2LS1R LS2R LS3R ESC I F ESC I 1 I 2 F 概念であって厳密でないので注意

コード系のおさらい・シフト JIS ISO 2022 系のコードで 1 バイトコードと 2 バイトコードを「指示／呼出し」なしで混在使用するため 1 バイトエリアと 2 バイトエリアが重ならないよう 2 バイトエリアをシフトしたもの簡便だが拡張性に乏しい（ ex.X0212 補助漢字は使えない）

シフトＪＩＳコード 217E 21 7E 81 9F 40FC 40 E0 FC １バイト見て、１バイトエリアか２バイトエリアか知る２バイトのエリアなら次のバイトと合わせて１字のコード１バイトエリア２バイトエリア１バイトエリア２バイトエリア

コード系のおさらい・ ISO UCS 、 Unicode 従来の ISO 2022 とは異なり 2 オクテット（は 2 および 4 オクテット）の単一コード系 ISO 2022 との互換はない非漢字は各国文字に個別コードを付与漢字は C 、 J 、 K 、各国漢字を統合化

ＩＳＯ／ＩＥＣ１０６４６－１：１９９３ＵＣＳ（ＪＩＳＸ０２２１－１９９５）点 256 区 256 面 00 群 00 群 01 群 7F

ＩＳＯ／ＩＥＣ１０６４６－１：１９９３ＵＣＳ（ＪＩＳＸ０２２１－１９９５）群面区点 UCS4 群 00 ／面 00 ：ＢＭＰ（基本多言語面）＝ＵＣＳ２ Unicode

ＢＭＰ（基本多言語面）Ａ領域Ｉ領域Ｏ領域Ｒ領域（ｱﾙﾌｧﾍﾞｯﾄ記号類）（ＣＪＫ統合漢字）（未定義）（ＰＵＡ、互換文字等） A0 E0 FF20,992 19,903 PUA （私用領域）は E000 ～ F8FF の 6400 字分

ＣＪＫ統合漢字

コード系についての世の中の議論・ Unicode 批判を客観的に整理１．使える文字が限定される１．コード枠に制限がある（注． UTF16 の回避策）２．漢字を統合したのが問題３．制定の経緯が気にくわない民主主義（多数決論理）の悪用による多国籍企業の横暴４．従来の国内規格との互換性がない欧米企業には都合よい規格（現代の黒船、日本への経済侵略） ′

批判についての私の意見１．使える文字が限定文字についての把え方の議論が不足異なり字（親字）か異体字の不足か？解決策は別１．コード枠に制限学術研究用（例：古代文字も必要）には別の規格でよい一般用規格のスーパーセットならなお可２．漢字統合の問題やり直せるならやり直せば！やり直せないようなら利用方法を考えよう！ ′

批判についての私の意見３．制定の経緯の問題感情論を言ってても仕方ない４．従来規格と非互換承知で（多数決）で決めたのだから仕方ないフル変換は覚悟の上だろう５．その他皆、自分の立場でしか意見を言っていない解決策の提言がない

漢字コードについての私の意見、提言分野によってニーズは異なる・学術研究分野：古代文字までコード化が必要・戸籍処理：誤字、俗字の類いの異り字、異体字も DB 上で区別が必要異体字はプレゼンテーションレベルの問題という考えは違う・一般 OA ：たまに使う異り字、異体字は外字処理で可能経済性も大事

漢字コードについての私の意見、提言異体字を指定できるスキームが必要例えば異体字ファンクションと異体字番号で指定 ex. 渡辺渡邊異体字は登録制で台帳管理フォントを実装すれば渡邊が出るしフォントがなくても渡辺の異体字であることは明白異体字かどうかの判断規準（現在の包摂規準とは目的が別）作りと常設管理機関が必要異体字ﾌｧﾝｸｼｮﾝ異体字番号

JIS 第 3 、第 4 水準標準化の進捗状況スケジュール・昨年度（ 1997 ）初めから検討開始本年度中（ 1998 ）に JIS 原案完成目標・本年 9 月～ 12 月に公開レビュー予定で準備中・現在の状況は下記Ｗｅｂで公開中

JIS 第 3 、第 4 水準標準化の進捗状況目的・現代日本語を符号化するために十分な文字集合を提供すること・ JIS X 0208 と同時に用い、 JIS X 0208 を補完するものであること目標は約 5000 字の漢字と記号類・現状の使用環境で直ちに実装できること

JIS 第 3 、第 4 水準標準化の進捗状況現状（ Web 公開内容から再編集）・漢字資料を入手し資料間の 1 字毎の照合を実施中既にかなりの部分は終っており、その異り字数は約 7200 字分野 NTT ハローページ（ 1997/2 ）、 NTT 契約者名簿町字ファイル外字（国土地理協会）、町字ファイル書き換え文字 1 万分の 1 地図／ 2 万 5 千分の 1 地図（国土地理院）典拠資料／調査対象資料現行法律・政令・省令外字地名人名法例

JIS 第 3 、第 4 水準標準化の進捗状況分野典拠資料／調査対象資料学術一般その他 ( 不明 ) 新首字、熟語専用字の一方だけ X0208 にあるもの日本国語大辞典（新版）外字（小学館）広辞苑外字（岩波書店）、大辞林外字（三省堂）共同通信社外字文部省学術用語集、切韻印目（鉅宋広韻による）、韻鏡三十六字母小・中・高校検定済全教科書 1500 冊新潮文庫の 100 冊 / 明治の文豪 / 大正の文豪（新潮社）大正新修大蔵経所収漢字（大蔵出版社）中国医学古典用外字（日本内経医学会） IBM 選定文字、 JIPS （日本電気）拡張文字、 JEF （富士通）拡張文字

JIS 第 3 、第 4 水準標準化の進捗状況・非漢字資料を入手し検討中・アイヌ語表記の仮名・鼻濁音表記の仮名・歯科記号

JIS 第 3 、第 4 水準についての問題点人名漢字が増えても戸籍処理上の問題解決にはならないシフト JIS に適用すると・現在の AP のほとんどは動作しないと思われる中国で GBK が実装されて大騒動発生と同じパターン・ユーザー外字が使えない

終漢字コードについて