基本編の用語説明その２エディタと日本語入力エディタ  エディタ (editor) ：文書を作成、編集するアプリケーションソフトウェア  教育用計算機システムのエディタは、テキストエディットテキストエディット  基本的な編集方法はここここ  カーソル：文字が入力される位置を表している目印.

基本編の用語説明その２エディタと日本語入力

エディタ  エディタ (editor) ：文書を作成、編集するアプリケーションソフトウェア  教育用計算機システムのエディタは、テキストエディットテキストエディット  基本的な編集方法はここここ  カーソル：文字が入力される位置を表している目印  カッペ、コピペカッペ、コピペ  検索と置換検索と置換  編集結果の保存編集結果の保存  文系のみなさんには興味はないだろうが emacs というエディタもある emacs

さて、いよいよ日本語入力だが。。。  文字コード：コンピュータの内部  対応  画面やキーボードで見える文字（ 2 進数で表現）文字コード（人間に読める：フォント）  フォント：画面にみえる字の形  Unicode: 世界の主な文字を文字集合として 16 ビットの文字コード詳しくはここここ  アスキーコード： 7 ビットで英数字を表す文字コード  ビット： 2 進数 1 桁のこと。計算機で情報を表す最小単位  漢字コード：漢字は 8 ビットでは表現できないので、 16 ビット以上使うコードになる漢字コード  ShiftJIS(SJIS), EUC, JIS などが混在。 ShiftJIS(SJISEUCJIS  これらのコードが混在した状態でいったいどうやって文字コードを認識するのだろうか？

ISO 646 (ASCII) 文字セット 0123456789ABCDEF 2!“ ＃＄ %&‘()*+,./ 30123456789:;<=>? 4 ＠ ABCDEFGHIJKLMNO 5PQRSTUVWXYZ[\]^_ 6`abcdefghijklmno 7pqrstuvwxyz{|}~

JIS 漢字 sjis 00 21 5E 5F 7E 81 9F E0 EF 第 2 バイト 00 21 40 7E 80 JIS カタカナ JIS X0201  ここは 1 バイト文字シフトＪＩＳ ( sjis ) の漢字領域のシフトこの行き来（ 1 バイト文字と２バイト文字の行き来）は特殊文字列（ ISO2022 エスケープシーケンス）で行う JIS コード SJIS コード

MacOS での日本語入力はここここ全角と半角 – 半角カタカナや全角英文字は避けましょう。

ここから先は難しいので、根性の無い人は、これ以上進んではいけません：コードの歴史 ASCII(American Standard Code for Information Interchange)  ANSI ISO 646 = 95 文字のラテン文字アルファベット＋数字＋特殊文字制御コード： LF, CR などの表示制御と ACK,DEL などの通信制御、など JISX0201 では ASCII の特殊文字の一部が異なる（￥の使用など）

日本語コードの話 1 バイトでは最大２５６文字字種の多い言語では多バイトコード 1 バイトコードで事足りる欧米言語と多バイトコードが必要なアジアの言語とのバトルグランド文字コードのような基本的情報インフラの標準化は社会への影響莫大

ISO2022 エスケープシーケンスにより文字を拡張するための各種のメカニズム各国の ISO646 （アメリカなら ASCII 、日本なら JIS X 0201 ）を別個の文字集合として指定し切り替えて使える。ちなみに西ヨーロッパの文字では、 ISO8859/1

ISO2022 エスケープシーケンス変化先の文字コードエスケープシーケンス ASCIIESC ( B JIS X0201 （ ASCII 対応部分） ESC ( J JIS カタカナ ESC ( I JIS 0208ESC ＄ B

ＪＩＳコードの歴史ＪＩＳＸ０２０８（１９７８）当時はＪＩＳＣ６２２６カタカナ（いわゆる半角カタカナ）および全角英字はいまや無用の長物ないしは有害半角カタカナと全角英字は 97JIS では使わないことに決めたシフトＪＩＳ 78JIS  83JIS  90JIS  97JIS

内部状態を持つ文字コードと持たない文字コード 1 バイトコードの ASCII は内部状態なし２バイトの内部状態なしコードを目指したのがユニコードエスケープシーケンスのある文字コード ISO2022 に則るコードは内部状態を持つ。内部状態を持つと何がまずいのか？

JIS コードにおける漢字 78JIS の第１水準２９６５文字＝都道府県名、市町村名を全て記述できる。第２水準３３８４文字 JISX 0212 の補助漢字５８０１文字

日本語ＥＵＣ Unix で常用される 2 バイトコード – 第 1 バイト最上位ビット＝０  JIS X0201 （ ASCII 対応部分） – 第 1 バイト最上位ビット＝１かつ第 2 バイト最上位ビット＝１  JIS 漢字 – 第 1 バイト＝ 8E かつ第 2 バイト最上位ビット＝１  JIS カタカナ – 第 1 バイト＝ 8E かつ第 2 バイト最上位ビット＝１かつ第 3 バイト最上位ビット＝１  JIS 補助漢字上位ビットを見るだけで字種を判別できる

シフトＪＩＳＪＩＳＸ０２０８で使用していない文字を漢字の 1 バイト目に使う。すなわち、 1 バイト目、 – 最上位ビット＝ 0  JIS X0201( 英数字など ASCII 対応部分） – 最上位ビット＝ 1  JIS カタカナ –#x81-9F （ JIS X 0201 では未使用）, E0-EF （ ISO2022 の制御符号部分）  漢字 2 バイト目は #x40-EF 合計２４５７６文字台湾、中国、韓国版として Big5, GBK,UHC

JIS 漢字 00 21 5E 5F 7E 81 9F E0 EF 第 2 バイト 00 21 40 7E 80 JIS カタカナ JIS X0201 シフトＪＩＳの漢字領域のシフト

漢字の形「包摂」とは異なる字形を同一視の基準のこと。例えば、「高」や「富」や「国」のふたつの字形などそもそも字形のぶれをきちんと定義できるのか？計算機技術によって解決できる種類の問題？

文字と文字コードと字形の関係文字文字コード字形字形のゆれ  包摂基準で規定文字と字形の関係は複雑怪奇「島」「嶋」目的に応じて決める

情報検索という目的だとどうなるか人名を検索したいなら「嶋」と「島」は別の文字コードにしておくべき A と a が同じ文字コードでは困ることもあるので別のコードに字形が増えると文字コードが増える。検索ではいくつかの文字コードを同一視するようなプログラムを書く

用字系と使用言語の関係「どの言語で書かれたテキストか」と「どの用字系が使われているか」を区別することも多言語処理では重要同じ字と思しき字でも使われる用字系が違うと異なるコードが割り振られるべき。ユニコードのＣＪＫ（日中韓統一漢字コード）は、３ヶ国語の漢字を字形が似ているという理由で同じコードに割り当てている。

左右縦横文を右から左に書くか、左から右に書くか文を縦書きするか、横書きするかこのような問題は文字コードの問題か、言語の問題か、用字系の問題か  平文（ plain text ）ｖｓ構造化文書

Plain Text ｖｓ構造化文書 Plain text は単なる文字コードの連なり。表示や論理的構造を持たない。ネットワークエチケットのひとつにメールは Plain text で書くということがある。構造化文書はタグによって、文書の論理構造や表示の指示、あるいは使用言語などまで指定したもの。 LaTex ， SGML 、 XML 、 HTML など

自動文字コード認識 ISO2022 のエスケープシーケンスを探す JIS 、 SJIS 、 EUC などを仮定して復元。日本語らしい言語統計になるのが正しい文字コード言語統計とは？文字の頻度統計、 N-gram 統計、単語の頻度

文字コード変換ツール（ UNIX) nkf - 変換先コードファイル名変換先コードは j 、 s 、 e 、 m

便利な情報リソース情報通信辞典： http://www.e-words.ne.jp/ 情報通信辞典：

使用言語の推定あるテキストの文字コードが分かると次はそのテキストが記述されている言語を推定使用言語推定 – 言語特有の文字コード、文字列パタン、 – 言語固有の文字出現頻度、 – 言語固有の文字列 (n-gram) 出現頻度 – などによって判断

Similar presentations

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

Similar presentations

Similar presentations

About project

フィードバック