平成 10 年 5 月 25 日 Windows NT 漢字処理技術協議会 WG2 (コード & キャラクターセット)リーダー NEC オフィスシステム 伊藤 英俊 漢字コードについ て.

Slides:



Advertisements
Similar presentations
Web-GIS の開発と地盤情報の 高度利用に関する共同研究について -具体的な共同研究テーマ ( 案 ) - 「地質・地盤情報協議会」・ 「 Web-GIS コンソーシアム」説明会資料 全国地質調査業会連合会・情報化委員会.
Advertisements

5 月 28 日 説明会 1 Kiwi-W コンソーシアム 設立説明会 Kiwi-W コンソーシアム設立準備委員会 アイシン・エイ・ダブリュ株式会社 インクリメント P 株式会社 株式会社ザナヴィ・インフォマティク ス 株式会社ゼンリン 株式会社デンソー 株式会社本田技術研究所 三菱電機株式会社 株式会社トヨタマップマスター.
Outlook メール文字化けの原因と対策 Exchange Server 環境編. 目次はじめに文字化けのよくある原因と回避策 1. A:半角英数字、ヨーロッパ言語などが混在した 文字化け B : 送信済みメールの宛先や CC の文字化け 2. 返信、転送時の、ユーザー名や件名の文字化け 3. 日本語が半角英数字に文字化け.
Jw_cad 基本操作( 5 ) 文字入力 2011/11/23 SystemKOMACO Jw_cad 基本操作( 5 ) Ver.1 1.
基本編の用語説明 その2 エディタと日本語入力 エディタ  エディタ (editor) :文書を作成、編集する アプリケーションソフトウェア  教育用計算機システムのエディタは、 テキストエディット テキストエディット  基本的な編集方法はここここ  カーソル:文字が入力される位置を表している目印.
Copyright © the University of Tokyo 文字化けの背景を知る. Copyright © the University of Tokyo 課題の概要 日本語の文字コードについて理解を深める  MacOS( テキストエディット ) で利用可能なエ ンコーディング ( コード化方式.
Copyright © the University of Tokyo 文字化けの背景を知る. Copyright © the University of Tokyo 課題の概要 日本語の文字コードについて理解を深める  MacOS( テキストエディット ) で利用可能なエ ンコーディング ( コード化方式.
プログラミング言語論 第10回(演習) 情報工学科 木村昌臣   篠埜 功.
2003年9月19日 株式会社リコー ソリューション計画センター 宮本 崇夫
『基礎理論』 (C)Copyright, Toshiomi KOBAYASHI,
MARC21による国内交換フォーマットの提案
「情報」 (中村) オリジナル PPT (2010/05/07) 1 1.
2006年11月22日 植田龍男 Webサービス II (第9回) 年11月22日 植田龍男.
情報処理の基礎 私たちとコンピュータの扱うデータの違い 明治学院大学 法学部消費情報環境法学科 鶴貝 達政
WebDAVでOpenOffice.org の文章を共有する
エリアメールの比較 従来の方式との差異について  鳥居秀徳.
学習目標 1.欧米の精神医療の変遷について概観し,それぞれの時代における特色を理解する. 2.日本の精神医療の変遷について概観し,それぞれの時代における特色を理解する. 3.世界の精神医療の現状と問題点について理解する. SAMPLE 学習目標 1.欧米の精神医療の変遷について概観し,それぞれの時代における特色を理解する.
JEPA「文字図形共有基盤」調査検討分科会 黒田信二郎 2011年11月17日
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
文字情報基盤 IPAmj 行政機関で使う文字の問題は これで解決 参考6
文字のディジタル化 Copyright(C)2009 Tsutomu Ohara All rights reserved.
電子マネーの現状と今後について 1DS05196G 豊田 真大 1DS05213M 渡邉 光寿.
資料1-4 平成27年度 第1回技術委員会 2015年度技術委員会の目標と 検討項目(案)
マイクロソフトの産業別標準化活動の取り組み
 授業を設計する(その4) 情報科教育法 後期5回 2004/11/6 太田 剛.
コードの歴史 ASCII(American Standard Code for Information Interchange)  ANSI ISO 646 = 95文字のラテン文字 アルファベット+数字+特殊文字 制御コード: LF, CR などの表示制御と   ACK,DEL などの通信制御 、など.
文字のディジタル化 Copyright(C)2009 Tsutomu Ohara All rights reserved.
地理情報システム論 第3回 コンピュータシステムおける データ表現(1)
第2章 ソフトウェアの基礎知識 電子制御設計製図Ⅰ    2010年5月11日 Ⅲ限目.
2016年3月10日(木) 内閣官房 情報通信技術(IT)総合戦略室
文字化けの背景を知る.
プログラミング言語論 プログラミング言語論 プログラミング言語論 演習1 解答と解説 演習1解答と解説 1 1.
図書館システムの歴史と 日本語処理を考える
13回目 複合情報検索 13-1 課題の概要 13-2 EBSCOhost の使用方法 13-3 ProQuestの使用方法
要員管理 要員の質、量、配置、作業状況を管理する 一般的な注意点を下記に示す (1)組織 ・組織構成を明快にする -指示命令系統
Outlook メール文字化けの原因と対策
WebGIS自動生成システムの 現状と今後の可能性
報告4:蔵書評価における文字コード問題について
9.講習の振り返り・お役立ち情報 Version1.2
文字化けの背景を知る.
文字化けの背景を知る.
マイクロソフト株式会社 SAP/Microsoft コンピテンスセンター
GIS等インターフェースの標準化について
第23回MR認定試験 自己採点システムの運用について
図書館システムの歴史と日本語処理 紅林 徹也 ~ 大規模目録データベース ~ 株式会社 日立製作所 公共システム事業部
芝野耕司 ISO/IEC JTC1/SC2 (Coded Character Sets)委員長 東京外国語大学
リコー「LIMEDIO」の紹介 LIMEDIOにおけるZ39.50の適用事例
文字コード 情報処理3 今井孝明.
KAGEシステムによる 漢字フォント制作支援
文字の表現.
事務所における情報化の問題点 データが所内で共有されていない、各課ごとに個別に利用されている
国内におけるICカード検討・委員会マップ
第4回 コンピューティングの要素と構成 平成22年5月10日(月)
文字エンコーディング 2010年7月.
ありうべき日本語処理とは by 中 博俊.
7-0.SWORD Client for WEKO インストールマニュアル Version 2.2
文字のディジタル化 Copyright(C)2009 Tsutomu Ohara All rights reserved.
情報スキル活用 第4週 基礎技術-4 : その1(タグのまとめ).
  JSTChina         中国文献データベース.
地理情報システム論 第8回 GISによる処理技法(1) データの入手と座標系の変換 ベクタ形式における空間的演算(1)
第2章 空間データの取得と作成 7.空間データの品質
地理情報システム論(総)/ 国民経済計算論(商)
ISO23950による分散検索の課題と その解決案に関する検討
@MD-NET Web-EDI導入について ~ 説明会資料 ~
日本語独特のL10N問題とは? 各社仕様の拡張文字 複数の符号化 規格の混乱など Unicodeとのマッピング
オープンデータに関する 経済産業省の取組と提言
オペレーティングシステム 作成 T21R003 荏原 寛太.
電子化基準策定小委員会 活動成果報告 土木CAD製図基準の策定 土木学会 情報利用技術委員会 電子化基準策定小委員会.
CADシステムとソフトウェア 電子制御設計製図Ⅰ    2009年4月28日 Ⅲ限目.
データの改竄を防ぐ仕組み 2002/9/12 牧之内研究室「インターネット実習」Webページ
Presentation transcript:

平成 10 年 5 月 25 日 Windows NT 漢字処理技術協議会 WG2 (コード & キャラクターセット)リーダー NEC オフィスシステム 伊藤 英俊 漢字コードについ て

内 容内 容 コード問題についての整理 JIS 漢字コード拡張計画の進捗状況 ・ コード系のおさらい ・ 漢字コードについての世の中の議論 ・ いわゆる第 3 ・第 4 水準の標準化 作業の現状

コード系のおさらい ・ ISO 2022 系 複数の 1 バイト 7 ビットコード/ 8 ビットコード 2バイト 7 ビットコード/ 8 ビットコードを 「指示」(エクスケープシーケンス)と 「呼出し」(シフトコード)を用いて 同一システムで混在使用 ISO 2022 Code Extention Technique JIS X 0202 符号拡張技法

ISO 2022系 コード 1バイトコード b7b6b5b4b3b2b1 図形キャラクタ 仮 名仮 名 DEL SP SO SI 7単位 b7 ~ b5 b4 ~ b 図形キャラクタ ローマ文字 DEL SP

ISO 2022系 コード 1バイトコード b8b7b6b5b4b3b2 8単位 b1 図形キャラクタ ローマ文字 DEL SP b8 ~ b5 b4 ~ b (CO) 図形キャラクタ 仮 名仮 名 未定義 (GR)(GL)

ISO 2022系 2バイト コード b8b1b8b1 図形キャラクタ GL 94×94 =8836 図形キャラクタ GR b8=0 b8=1 第1バイト 第2バイト 制御コード スペース 未定義 b8 0 1 b7 ~ b5b4 ~ b1 未定義 デリート

JIS X 0208-1990 情報交換用漢字符号 非漢字524字 (未定義) 第1水準漢字 2965字 第2水準漢字 3390字 (未定義) 点 区

JIS X 0212-1990 情報交換用漢字符号-補助漢 字 非漢字 245字 漢字 5801字 (未定義) 点 区 ( 1 区、 3 ~ 5 区、 8 区、 12 ~ 15 区は未定義)

ISO 2022 コード拡張技法の 概念図 GLGRG0G1G2G3 X0208X0212X0201 呼出し (シフトコード) 指示 (エスケープシーケンス) F:ファイナルキャラクタ=図形文字セットのID LS0 LS1 LS3 LS2LS1R LS2R LS3R ESC I F ESC I 1 I 2 F 概念であって 厳密でないので注意

コード系のおさらい ・ シフト JIS ISO 2022 系のコードで 1 バイトコードと 2 バイトコードを「指示/呼出し」なしで 混在使用するため 1 バイトエリアと 2 バイトエリアが重ならないよう 2 バイトエリアをシフトしたもの 簡便だが拡張性に乏しい ( ex.X0212 補助漢字は使えない)

シフトJIS コード 217E 21 7E 81 9F 40FC 40 E0 FC 1バイト見て、1バイトエリアか2バイトエリアか知る 2バイトのエリアなら次のバイトと合わせて1字のコード 1バイト エリア 2バイト エリア 1バイト エリア 2バイト エリア

コード系のおさらい ・ ISO UCS 、 Unicode 従来の ISO 2022 とは異なり 2 オクテット ( は 2 および 4 オクテット)の 単一コード系 ISO 2022 との互換はない 非漢字は各国文字に個別コードを付与 漢字は C 、 J 、 K 、各国漢字を統合化

ISO/IEC 10646-1:19 93 UCS (JIS X 0221-1995) 点 256 区 256 面 00 群 00 群 01 群 7F

ISO/IEC 10646-1:1 993 UCS (JIS X 0221-1995) 群面区点 UCS4 群 00 /面 00 : BMP(基本多言語面)=UCS2 Unicode

BMP(基本多言語面) A領域 I領域 O領域 R領域 (アルファベット記号類) (CJK統合漢字) (未定義) (PUA、互換文字等) A0 E0 FF20,992 19,903 PUA (私用領域)は E000 ~ F8FF の 6400 字分

CJK統合漢字

コード系についての世の中の議論 ・ Unicode 批判を客観的に整理 1.使える文字が限定される 1.コード枠に制限がある (注. UTF16 の回避策) 2.漢字を統合したのが問題 3.制定の経緯が気にくわない 民主主義(多数決論理)の悪用に よる多国籍企業の横暴 4.従来の国内規格との互換性がない 欧米企業には都合よい規格 (現代の黒船、日本への経済侵略) ′

批判についての私の意見 1.使える文字が限定 文字についての把え方の議論が不足 異なり字(親字)か異体字の不足か? 解決策は別 1.コード枠に制限 学術研究用(例:古代文字も必要)には 別の規格でよい 一般用規格のスーパーセットならなお可 2.漢字統合の問題 やり直せるならやり直せば! やり直せないようなら利用方法を考えよう! ′

批判についての私の意見 3.制定の経緯の問題 感情論を言ってても仕方ない 4.従来規格と非互換 承知で(多数決)で決めたのだから仕方ない フル変換は覚悟の上だろう 5.その他 皆、自分の立場でしか意見を言っていない 解決策の提言がない

漢字コードについての私の意見、提言 分野によってニーズは異なる ・学術研究分野:古代文字までコード化が必要 ・戸籍処理:誤字、俗字の類いの異り字、 異体字も DB 上で区別が必要 異体字はプレゼンテーションレベルの問題 という考えは違う ・一般 OA :たまに使う異り字、異体字は 外字処理で可能 経済性も大事

漢字コードについての私の意見、提言 異体字を指定できるスキームが必要 例えば異体字ファンクションと異体字番号で指定 ex. 渡辺 渡邊 異体字は登録制で台帳管理 フォントを実装すれば渡邊が出るし フォントがなくても渡辺の異体字で あることは明白 異体字かどうかの判断規準(現在の包摂規準 とは目的が別)作りと常設管理機関が必要 異体字ファンクション 異体字番号

JIS 第 3 、第 4 水準標準化の進捗状況 スケジュール ・昨年度( 1997 )初めから検討開始 本年度中( 1998 )に JIS 原案完成目標 ・本年 9 月~ 12 月に公開レビュー予定で準備中 ・現在の状況は下記Webで公開中

JIS 第 3 、第 4 水準標準化の進捗状況 目的 ・現代日本語を符号化するために十分な 文字集合を提供すること ・ JIS X 0208 と同時に用い、 JIS X 0208 を 補完するものであること 目標は約 5000 字の漢字と記号類 ・現状の使用環境で直ちに実装できること

JIS 第 3 、第 4 水準標準化の進捗状況 現状( Web 公開内容から再編集) ・漢字 資料を入手し資料間の 1 字毎の照合を実施中 既にかなりの部分は終っており、 その異り字数は約 7200 字 分野 NTT ハローページ( 1997/2 )、 NTT 契約者名簿 町字ファイル外字(国土地理協会)、 町字ファイル書き換え文字 1 万分の 1 地図/ 2 万 5 千分の 1 地図(国土地理院) 典拠資料/調査対象資料 現行法律・政令・省令外字 地名 人名 法例

JIS 第 3 、第 4 水準標準化の進捗状況 分野 典拠資料/調査対象資料 学術 一般 その他 ( 不明 ) 新首字、熟語専用字の一方だけ X0208 にあるもの 日本国語大辞典(新版)外字(小学館) 広辞苑外字(岩波書店)、大辞林外字(三省堂) 共同通信社外字 文部省学術用語集、切韻印目(鉅宋広韻による)、 韻鏡三十六字母 小・中・高校検定済全教科書 1500 冊 新潮文庫の 100 冊 / 明治の文豪 / 大正の文豪(新潮社) 大正新修大蔵経所収漢字(大蔵出版社) 中国医学古典用外字(日本内経医学会) IBM 選定文字、 JIPS (日本電気)拡張文字、 JEF (富士通)拡張文字

JIS 第 3 、第 4 水準標準化の進捗状況 ・非漢字 資料を入手し検討中 ・アイヌ語表記の仮名 ・鼻濁音表記の仮名 ・歯科記号

JIS 第 3 、第 4 水準についての問題点 人名漢字が増えても 戸籍処理上の問題解決にはならない シフト JIS に適用すると ・現在の AP のほとんどは動作しないと思われる 中国で GBK が実装されて大騒動発生と 同じパターン ・ユーザー外字が使えない

終 漢字コードについ て