芝野耕司 ISO/IEC JTC1/SC2 (Coded Character Sets)委員長 東京外国語大学

Slides:



Advertisements
Similar presentations
英語ゼミ 6/15( 水 ) 金 正福. Part2 Unit8 ~査読者とのやりと り~ 科学技術英語 ロボット工学.
Advertisements

マイクロソフトがホスティングする拡張性に優れたサービス ベース アプリケーション プラットフォーム.
基本編の用語説明 その2 エディタと日本語入力 エディタ  エディタ (editor) :文書を作成、編集する アプリケーションソフトウェア  教育用計算機システムのエディタは、 テキストエディット テキストエディット  基本的な編集方法はここここ  カーソル:文字が入力される位置を表している目印.
だい六か – クリスマスとお正月 ぶんぽう. て form review ► Group 1 Verbs ► Have two or more ひらがな in the verb stem AND ► The final sound of the verb stem is from the い row.
第 5 章 2 次元モデル Chapter 5 2-dimensional model. Contents 1.2 次元モデル 2-dimensional model 2. 弱形式 Weak form 3.FEM 近似 FEM approximation 4. まとめ Summary.
Essay writing rules for Japanese!!. * First ・ There are two directions you can write. ・よこがき / 横書き (same as we write English) ・たてがき / 縦書き (from right to.
VE 01 え form What is え form? え? You can do that many things with え form?
BCD : Physics Options  e , e - e -, GigaZ, fixed target T. Omori 2005 年 12 月 20 日 BCD
SS2-15:A Study on Image Recognition and Understanding
文字列検出ツール "istrings" の使い方
MARC21による国内交換フォーマットの提案
しょ  どう What is Shodo? Shodo is Japanese Calligraphy. Shodo is an art form where an ink-dipped brush is used to artistically write Japanese characters.
JEPA「文字図形共有基盤」調査検討分科会 黒田信二郎 2011年11月17日
五段動詞の歌 ごだんどうしのうた.
Chapter 11 Queues 行列.
参考資料5 世界保健機関憲章前文 (日本WHO協会仮訳)
CSWパラレルイベント報告 ヒューマンライツ・ナウ        後藤 弘子.
ABC社マジック・クアドラントでリーダーの位置づけ
2010年7月9日 統計数理研究所 オープンハウス 確率モデル推定パラメータ値を用いた市場木材価格の期間構造変化の探求 Searching for Structural Change in Market-Based Log Price with Regard to the Estimated Parameters.
Windows Summit /13/2017 © 2010 Microsoft Corporation. All rights reserved. Microsoft, Windows, Windows Vista and other product names are or may be.
コードの歴史 ASCII(American Standard Code for Information Interchange)  ANSI ISO 646 = 95文字のラテン文字 アルファベット+数字+特殊文字 制御コード: LF, CR などの表示制御と   ACK,DEL などの通信制御 、など.
What did you do, mate? Plain-Past
Verb Plain Negativeform
Object Group ANalizer Graduate School of Information Science and Technology, Osaka University OGAN visualizes representative interactions between a pair.
日本人の英語文章の中で「ENJOY」はどういうふうに使われているのか
Noun の 間(に) + Adjective Verb てform + いる間(に) during/while.
Japanese verbs informal forms
Outlook メール文字化けの原因と対策
Tohoku University Kyo Tsukada
Windows Summit /8/2017 © 2010 Microsoft Corporation. All rights reserved. Microsoft, Windows, Windows Vista and other product names are or may be.
V 03 I do NOT eat sushi. I do NOT do sumo.
報告4:蔵書評価における文字コード問題について
by Phil Sonn and John Kim
にほんご JPN101 Sep. 23, 2009 (Wednesday).
Japanese Language Education for Newcomer Children in Japan Public Schools: Sufficient or Insufficient? B15660 Tomomi Koguchi.
十年生の 日本語 Year 10 Writing Portfolio
Unit Book 10_课件_U1_Reading2-8 4 Word power university 1.
Licensing information
Provisioning on Multiple Network(NIC) env
The Sacred Deer of 奈良(なら)
Microsoft Partner Network Office 365 社内使用ライセンスの有効化
ISO 9001:2015 The process approach
Japan /12/2006 Hiragana Quiz #3 Grammar: More on じゃありません
HHIHi.
Important Information
全国粒子物理会 桂林 2019/1/14 Implications of the scalar meson structure from B SP decays within PQCD approach Yuelong Shen IHEP, CAS In collaboration with.
Traits 形質.
Coloured Katakana Jumble Animals
データベース工学 生研 戦略情報融合研究センタ 喜連川 優.
文字の表現.
Term paper, Report (1st, first)
豊田正史(Masashi Toyoda) 福地健太郎(Kentarou Fukuchi)
大規模なこと Large scale.
Windows Summit /24/2019 © 2010 Microsoft Corporation. All rights reserved. Microsoft, Windows, Windows Vista and other product names are or may be.
第24回応用言語学講座公開連続講演会 後援:国際言語文化研究科教育研究プロジェクト経費
文字エンコーディング 2010年7月.
留学生のための就活ガイダンス Ⅰ Job-hunting Support Course I for International Students 日本での就職活動は何から始めれば良い?どんなことに気をつけるべき?と いった基本的なことから、ESや履歴書の書き方など実践的なことまで学ぶ ことができます。
資料 2-6 世界保健機関憲章前文 (日本WHO協会仮訳)
Windows Summit 2010 © 2010 Microsoft Corporation.All rights reserved.Microsoft、Windows、Windows Vista およびその他の製品名は、米国 Microsoft Corporation の米国およびその他の国における登録商標または商標です。
ー生命倫理の授業を通して生徒の意識に何が生じたかー
Created by L. Whittingham
The Facilitative Cues in Learning Complex Recursive Structures
日本語独特のL10N問題とは? 各社仕様の拡張文字 複数の符号化 規格の混乱など Unicodeとのマッピング
Cluster EG Face To Face meeting
Windows Summit /22/2019 © 2010 Microsoft Corporation. All rights reserved. Microsoft, Windows, Windows Vista and other product names are or may be.
Term paper, report (2nd, final)
アノテーションガイドラインの管理を行う アノテーションシステムの提案
Improving Strategic Play in Shogi by Using Move Sequence Trees
ABC社[マーケット・セグメント名を入力]のハイプ・サイクルで「関連プレーヤー」に選定
Windows Azure メディアサービス
Presentation transcript:

芝野耕司 ISO/IEC JTC1/SC2 (Coded Character Sets)委員長 東京外国語大学 符号化文字集合規格の体系とその進化 芝野耕司 ISO/IEC JTC1/SC2 (Coded Character Sets)委員長 東京外国語大学

内容 符号化文字集合の種類 SC2規格の進化Old BibleからNew Bibleへ The Old Bible: ISO R 646 文字集合の拡張 文字の同定 The New Bible: ISO/IEC 10646

符号化文字集合規格の種類 図形文字 符号拡張 制御機能 ISO/IEC 646 ISO/IEC 8859 ISO/IEC 10646

ISO符号化文字集合の進化 From Old Bible to New Bible CCITT#2 ASCII63 ISO R 646-1967 82 字の共通文字 12 字の各国又は適用業務向け文字 版の適合性 BS、CR、SPを用いた文字合成 32 字の制御文字 情報処理交換用 小文字を除く ISO 6937 ISO 8859 ヨーロッパ用 字送りなしのアクセントによる合成 合成なし Latin 1 – 西ヨーロッパ Latin 2 – 東ヨーロッパ ISO 2022 646の版をもとした符号拡張 1文字を取り替えるシングルシフト 表を全部取り替えるロッキングシフト ISO/IEC 10646 New Bible

基本ラテン文字の符号化 情報処理と情報交換の共通コード 図形文字の一意な符号化 各国又は適用業務毎の版 BS、CR、SPによる合成 The Old Bible: ISO R646-1967 6 and 7 bits coded character sets for Information Processing interchange 基本ラテン文字の符号化 94 字の図形文字、 82 字が共通 情報処理と情報交換の共通コード 図形文字の一意な符号化 各国又は適用業務毎の版 BS、CR、SPによる合成 異なった文字をも統合

文字集合の拡張 Set of 94 Characters is too small ほとんどのヨーロッパの言語にとっても94字は少なすぎる! 文字合成が必要 符号拡張が必要

文字合成 タイプライタから活版へ タイプライタモデル 活字モデル 646 6937 10646 BS, SP, CRを用いた重ね打ちによる合成 6937 字送りなしのアクセント文字による合成 アクセント、親字の順 活字モデル 10646 親字,アクセントの順 複数のアクセントをつけることが可能

ISO 2022 符号拡張法 ISO 646の版のための符号拡張法を規定 1バイト2バイトの混在環境では必須 シングルシフトでの1文字の切り替え 版を取り替えるロッキングシフト 1バイト2バイトの混在環境では必須 2022 は,混在を許すが保証はしない 適合性で共通のエスケープシーケンスの利用を規定 最小のエスケープシーケンスを推奨 複雑で実装コストが高い 完全な実装は殆どない

ISO 8859 From 8859 Brief History ISO 646の版の問題 8859の設計原理 8859 限界 They do not provide all graphic characters which may be needed, for some characters, specifically for accented letters, it is necessary to resort to BACKSPACE sequences,which creates problems when processing data containing such composite characters, interchange among different versions is practically limited to the 82 common characters. 8859の設計原理 The same for all users of a given area, provide single-byte coding of all graphic characters thus permitting easy processing, takes into account character sets used in the industry. 8859 限界

The New Bible: ISO/IEC 10646 ヨーロッパの8859 世界の10646 8859と同じ設計原理 RLGなどが開発に参画 SC2が全分野の符号化文字集合の開発を担当 1997年にISO TC46(Documentation)からSC2に符号化文字集合を移管

10646の適用範囲 この規格群は,は国際符号化文字集合(UCS)を規定する。この規格群は,世界の言語(用字)を書き表した形(表記形)及び記号の表現・伝送・交換・処理・蓄積・入力・表示に利用できる。 ISO/IEC 10646 specifies the Universal Multiple-Octet Coded Character Set (UCS). It is applicable to the representation, transmission, interchange, processing, storage, input, and presentation of the written form of the languages of the world as well as of additional symbols.

10646の全体構造

BMPの構造

10646の適合性 文字合成に関する水準 集合の部分化 水準1 合成なし 水準2 合成でなければ表せない文字が表現可能に 水準1 合成なし 水準2 合成でなければ表せない文字が表現可能に 水準3 すべての合成が可能 集合の部分化