コードの歴史 ASCII(American Standard Code for Information Interchange)  ANSI ISO 646 = 95文字のラテン文字 アルファベット+数字+特殊文字 制御コード: LF, CR などの表示制御と   ACK,DEL などの通信制御 、など.

Slides:



Advertisements
Similar presentations
2009/11/10 10 進数と r 進数を相互に変換できる コンピュータのための数を表現できる 2進数の補数を扱える コンピュータにおける負の数の表現を説明で きる コンピュータでの演算方法を説明できる 文字や記号の表現方法を示せる 第7回 今日の目標 § 2.2 数の表現と文字コード.
Advertisements

7章 情報の表現と基礎理論. 数の表現(書き方) 「数」と「数の書き方」をわけて考える 「数の書き方」と,「数そのものの性質」は別のもの 例:13 は素数・・・”13”という書き方とは無関係 ここでは書き方(表現方法)について考える 567.
Outlook メール文字化けの原因と対策 Exchange Server 環境編. 目次はじめに文字化けのよくある原因と回避策 1. A:半角英数字、ヨーロッパ言語などが混在した 文字化け B : 送信済みメールの宛先や CC の文字化け 2. 返信、転送時の、ユーザー名や件名の文字化け 3. 日本語が半角英数字に文字化け.
Jw_cad 基本操作( 5 ) 文字入力 2011/11/23 SystemKOMACO Jw_cad 基本操作( 5 ) Ver.1 1.
1 検索 ● 検索: 特定の文字列を探す ⓪検索を行う範囲を限定するときは、範囲選択をする。 ① 「ホーム」タブ⇒「編集」⇒「検索」タブとクリックする。 ②「検索する文字列」欄に検索したい文字を入力する。 ③「次を検索する」をクリックする。 ③ ‘ 「検索された項目の強調表示」⇒「すべて強調表示」とクリックすると、
2.5 プログラムの構成要素 (1)文字セット ① ASCII ( American Standard Code for Interchange ) JIS コードと同じ ② EBCDIC ( Extended Binary Coded Decimal for Information Code ) 1.
基本編の用語説明 その2 エディタと日本語入力 エディタ  エディタ (editor) :文書を作成、編集する アプリケーションソフトウェア  教育用計算機システムのエディタは、 テキストエディット テキストエディット  基本的な編集方法はここここ  カーソル:文字が入力される位置を表している目印.
プログラミング言語論 第10回(演習) 情報工学科 木村昌臣   篠埜 功.
復習 配列変数の要素 5は配列の要素数 これらの変数をそれぞれ配列の要素と呼ぶ この数字を配列の添え字,またはインデックスと呼ぶ
復習 配列変数の要素 5は配列の要素数 これらの変数をそれぞれ配列の要素と呼ぶ この数字を配列の添え字,またはインデックスと呼ぶ
専門ゼミⅠ 南ゼミ 特別授業 2002年5月24日 金曜日 4限目 今泉 裕隆.
プログラミングとは Q.プログラムとは何か? A.コンピュータを制御するための,コンピュータに対する命令(指示)の集まり.
『基礎理論』 (C)Copyright, Toshiomi KOBAYASHI,
最大エントロピーモデルに基づく形態素解析と辞書による影響
富山大学 公開講座 2008 「QRコードを作ろう!」 ~ QRコードを作ろう! ~.
文字列検出ツール "istrings" の使い方
MARC21による国内交換フォーマットの提案
Webアプリケーション開発の 基本的なポイント
「情報」 (中村) オリジナル PPT (2010/05/07) 1 1.
コンパイラ 2011年10月17日
情報処理基礎 2006年 6月 1日.
JEPA「文字図形共有基盤」調査検討分科会 黒田信二郎 2011年11月17日
情 報 の 表 現(3) 情報社会とコンピュータ 第10回.
キーボードでの指の位置と入力範囲 ◎左手の指のホームポジション(入力しないときの位置): 小指-「A」 薬指-「S」 中指-「D」 人差し指-「F」(突起あり) ◎右手の指のホームポジション: 人差し指-「J」 (突起あり) 中指-「K」 薬指-「L」 小指-「;」 ◎親指は「スペース」キーの上に置く。
第5回 ディジタル回路内の数値表現 瀬戸 ディジタル回路内部で,数を表現する方法(2進数)を学ぶ 10進数⇔2進数⇔16進数の変換ができる
5.チューリングマシンと計算.
5.チューリングマシンと計算.
第2章 ソフトウェアの基礎知識 電子制御設計製図Ⅰ    2010年5月11日 Ⅲ限目.
プログラミングとは Q.プログラムとは何か? A.コンピュータを制御するための,コンピュータに対する命令(指示)の集まり.
4Y-4 印象に残りやすい日本語パスワードの合成法
心理学情報処理法Ⅰ コンピュータにおけるデータ表現 マルチメディアとコンピュータ.
プログラミング言語論 プログラミング言語論 プログラミング言語論 演習1 解答と解説 演習1解答と解説 1 1.
キーボードでの指の位置と入力範囲 ◎左手の指のホームポジション(入力しないときの位置): 小指-「A」 薬指-「S」 中指-「D」 人差し指-「F」(突起あり) ◎右手の指のホームポジション: 人差し指-「J」 (突起あり) 中指-「K」 薬指-「L」 小指-「;」 ◎親指は「スペース」キーの上に置く。
2012年度 情報数理 ~ QRコードを作ろう!(1) ~.
2008年度 情報数理 ~ QRコードを作ろう!(1) ~.
Outlook メール文字化けの原因と対策
コンパイラ 2012年10月15日
報告4:蔵書評価における文字コード問題について
SGMLについて 2年8組  原口 文晃.
2010年度 情報数理 ~ QRコードを作ろう!(1) ~.
1 Macの基本操作 1-5 文字入力(1/4)  (1)Windows風のキー設定
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
芝野耕司 ISO/IEC JTC1/SC2 (Coded Character Sets)委員長 東京外国語大学
プログラミング応用 printfと変数.
文字コード 情報処理3 今井孝明.
独習XML 第2章 XML文書の構成要素 2.1 XMLの文字と文字列 2.2 コメント
文字の表現.
2章 暗号技術 FM15002 友池 絲子.
第4回 コンピューティングの要素と構成 平成22年5月10日(月)
文字エンコーディング 2010年7月.
ありうべき日本語処理とは by 中 博俊.
暗号技術 ~暗号技術の基本原理~ (1週目) 情報工学科  04A1004 石川 真悟.
初心者のための補足 キーボード・マウスの基本操作と 日本語入力
情報スキル活用 第4週 基礎技術-4 : その1(タグのまとめ).
9.通信路符号化手法1 (誤り検出と誤り訂正の原理)
構造的類似性を持つ半構造化文書における頻度分析
5.チューリングマシンと計算.
独習XML ~第1章 XMLの基礎~ 1.1 XML文書の基礎 1.2 XMLとHTML
日本語独特のL10N問題とは? 各社仕様の拡張文字 複数の符号化 規格の混乱など Unicodeとのマッピング
情報処理Ⅱ 2006年11月24日(金).
4.プッシュダウンオートマトンと 文脈自由文法の等価性
情報処理Ⅱ 第7回 2004年11月16日(火).
ca-9. 数の扱い (コンピュータアーキテクチャとプロセッサ)
星泉,町田和彦,上田広美,岡田知子 東京外国語大学 アジア・アフリカ言語文化研究所
オペレーティングシステム 作成 T21R003 荏原 寛太.
コンパイラ 2012年10月11日
2008年度 情報数理 ~ 授業紹介 ~.
2012年度 情報数理 ~ 授業紹介 ~.
岩村雅一 知能情報工学演習I 第7回(後半第1回) 岩村雅一
Presentation transcript:

コードの歴史 ASCII(American Standard Code for Information Interchange)  ANSI ISO 646 = 95文字のラテン文字 アルファベット+数字+特殊文字 制御コード: LF, CR などの表示制御と   ACK,DEL などの通信制御 、など JISX0201ではASCIIの特殊文字の一部が異なる(¥の使用など)

ISO 646 (ASCII) 文字セット 1 2 3 4 5 6 7 8 9 A B C D E F ! “ # $ % & ‘ ( ) 1 2 3 4 5 6 7 8 9 A B C D E F ! “ # $ % & ‘ ( ) * + , . / : ; < = > ? @ G H I J K L M N O P Q R S T U V W X Y Z [ \ ] ^ _ ` a b c d e f g h i j k l m n o p q r s t u v w x y z { | } ~

日本語コードの話 1バイトでは最大256文字 字種の多い言語では多バイトコード 1バイトコードで事足りる欧米言語と多バイトコードが必要なアジアの言語とのバトルグランド 文字コードのような基本的情報インフラの標準化は社会への影響莫大

ISO2022 エスケープシーケンスにより文字を拡張するための各種のメカニズム 各国のISO646 (アメリカならASCII、日本ならJIS X 0201) を別個の文字集合として指定し切り替えて使える。 ちなみに西ヨーロッパの文字では、ISO8859/1

ISO2022 エスケープシーケンス 変化先の文字コード エスケープシーケンス ASCII ESC ( B JIS X0201(ASCII対応部分) ESC ( J JIS カタカナ ESC ( I JIS 0208 ESC $ B

JISコードの歴史 JISX0208(1978) 当時はJISC6226 カタカナ(いわゆる半角カタカナ)および全角英字はいまや無用の長物ないしは有害 半角カタカナと全角英字は97JISでは使わないことに決めた シフトJIS 78JIS  83JIS  90JIS  97JIS

内部状態を持つ文字コードと 持たない文字コード 1バイトコードのASCIIは内部状態なし 2バイトの内部状態なしコードを目指したのがユニコード エスケープシーケンスのある文字コード ISO2022 に則るコードは内部状態を持つ。 内部状態を持つと何がまずいのか?

JISコードにおける漢字 78JISの第1水準 2965文字=都道府県     名、市町村名を全て記述できる。      第2水準 3384文字 JISX 0212 の補助漢字 5801文字

日本語EUC Unixで常用される2バイトコード 上位ビットを見るだけで字種を判別できる 第1バイト最上位ビット=0  JIS X0201(ASCII対応部分) 第1バイト最上位ビット=1 かつ第2バイト最上位ビット=1  JIS漢字 第1バイト=8E かつ第2バイト最上位ビット=1  JISカタカナ 第1バイト=8E かつ第2バイト最上位ビット=1かつ第3バイト最上位ビット=1  JIS補助漢字 上位ビットを見るだけで字種を判別できる

シフトJIS JISX0208で使用していない文字を漢字の1バイト目に使う。すなわち、 1バイト目、 2バイト目は#x40-EF 最上位ビット=0 JIS X0201(英数字など ASCII対応部分) 最上位ビット=1 JISカタカナ #x81-9F(JIS X 0201では未使用), E0-EF(ISO2022の制御符号部分) 漢字 2バイト目は#x40-EF 合計24576文字 台湾、中国、韓国版として Big5, GBK,UHC

シフトJIS(sjis)の漢字領域のシフト 第2バイト 00 21 40 7E 80 JISコード 00 21 5E 5F 7E 81 9F E0 EF JIS漢字 sjis 第1バイト(アスキーコード) この行き来(1バイト文字と2バイト文字の行き来)は特殊文字列(ISO2022エスケープシーケンス)で行う   JISカタカナ   JIS X0201 ここは1バイト文字 シフトJIS(sjis)の漢字領域のシフト SJISコード

漢字の形 「包摂」 とは 異なる字形を同一視の基準のこと。 例えば、「高」や「富」や「国」のふたつの字形など そもそも字形のぶれをきちんと定義できるのか? 計算機技術によって解決できる種類の問題?

文字と文字コードと字形の関係 文字 字形のゆれ 字形  包摂基準で規定 文字と字形の 関係は複雑怪奇 「島」「嶋」 目的に応じて決める  包摂基準で規定 文字と字形の 関係は複雑怪奇 「島」「嶋」 目的に応じて決める 文字コード

情報検索という目的だとどうなるか 人名を検索したいなら「嶋」と「島」は別の文字コードにしておくべき A と a が同じ文字コードでは困ることもあるので別のコードに 字形が増えると文字コードが増える。検索ではいくつかの文字コードを同一視するようなプログラムを書く

用字系と使用言語の関係 「どの言語で書かれたテキストか」と「どの用字系が使われているか」を区別することも多言語処理では重要 同じ字と思しき字でも使われる用字系が違うと異なるコードが割り振られるべき。 ユニコードのCJK(日中韓統一漢字コード)は、3ヶ国語の漢字を字形が似ているという理由で同じコードに割り当てている。

左右 縦横 文を 右から左に書くか、 左から右に書くか 文を縦書きするか、横書きするか このような問題は文字コードの問題か、言語の問題か、用字系の問題か  平文(plain text) vs 構造化文書

Plain Text  vs 構造化文書 Plain text は単なる文字コードの連なり。表示や論理的構造を持たない。 ネットワークエチケットのひとつにメールは Plain text で書くということがある。 構造化文書はタグによって、文書の論理構造や表示の指示、あるいは使用言語などまで指定したもの。 LaTex,SGML、XML、HTMLなど

自動文字コード認識 ISO2022のエスケープシーケンスを探す JIS、SJIS、EUCなどを仮定して復元。日本語らしい言語統計になるのが正しい文字コード 言語統計とは? 文字の頻度統計、N-gram統計、単語の頻度

文字コード変換ツール(UNIX) nkf -変換先コード ファイル名 変換先コードは j、s、e、m

便利な情報リソース 情報通信辞典:http://www.e-words.ne.jp/

使用言語の推定 あるテキストの文字コードが分かると次はそのテキストが記述されている言語を推定 使用言語推定 言語特有の文字コード、文字列パタン、 言語固有の文字出現頻度、 言語固有の文字列 (n-gram)出現頻度 などによって判断