基本編の用語説明 その2 エディタと日本語入力 エディタ  エディタ (editor) :文書を作成、編集する アプリケーションソフトウェア  教育用計算機システムのエディタは、 テキストエディット テキストエディット  基本的な編集方法はここここ  カーソル:文字が入力される位置を表している目印.

Slides:



Advertisements
Similar presentations
2000/Mar/22 第 136 回自然言語処理研究会 1 Unicode を用いた N-gram 索引の 一実現方式とその評価 原田昌紀・風間一洋・佐藤進也 日本電信電話 ( 株 ) 未来ねっと研究所.
Advertisements

2009/11/10 10 進数と r 進数を相互に変換できる コンピュータのための数を表現できる 2進数の補数を扱える コンピュータにおける負の数の表現を説明で きる コンピュータでの演算方法を説明できる 文字や記号の表現方法を示せる 第7回 今日の目標 § 2.2 数の表現と文字コード.
7章 情報の表現と基礎理論. 数の表現(書き方) 「数」と「数の書き方」をわけて考える 「数の書き方」と,「数そのものの性質」は別のもの 例:13 は素数・・・”13”という書き方とは無関係 ここでは書き方(表現方法)について考える 567.
Windows 環境から SAS を使う 長野 祐一郎 1. データのダウンロード 2. データの加工 3. プログラムの作成 4.TeraTerm によるプログラムの実行 5. 処理結果の確認 6.SAS のデータ処理を概観 今回の授業では、 Windows 環境で作成されたデータを.
Jw_cad 基本操作( 5 ) 文字入力 2011/11/23 SystemKOMACO Jw_cad 基本操作( 5 ) Ver.1 1.
1 検索 ● 検索: 特定の文字列を探す ⓪検索を行う範囲を限定するときは、範囲選択をする。 ① 「ホーム」タブ⇒「編集」⇒「検索」タブとクリックする。 ②「検索する文字列」欄に検索したい文字を入力する。 ③「次を検索する」をクリックする。 ③ ‘ 「検索された項目の強調表示」⇒「すべて強調表示」とクリックすると、
2.5 プログラムの構成要素 (1)文字セット ① ASCII ( American Standard Code for Interchange ) JIS コードと同じ ② EBCDIC ( Extended Binary Coded Decimal for Information Code ) 1.
1 検索 ● 検索:特定の文字列を探す ⓪検索を行う範囲を限定する ときは、範囲選択をする。 ① メニューバーの「編集」 → 「検索」とクリックする。 ②「検索する文字列」欄に検 索したい文字を入力する。 ③「次を検索する」または 「すべて検索」をクリック する。 ※「コピー」&「貼り付け」 でも入力できる。
Windows 入門 2007 年 7 月 17 日 マルチメディアセンター 重歳 憲治. 2007/07/17 Windows 入門 2 講習会概要 Windows XP Professional (ノートパソコ ン)を使って,コンピュータを使用する上で 必要な基礎知識,基本操作について実習形式.
Copyright © the University of Tokyo 文字化けの背景を知る. Copyright © the University of Tokyo 課題の概要 日本語の文字コードについて理解を深める  MacOS( テキストエディット ) で利用可能なエ ンコーディング ( コード化方式.
Copyright © the University of Tokyo 文字化けの背景を知る. Copyright © the University of Tokyo 課題の概要 日本語の文字コードについて理解を深める  MacOS( テキストエディット ) で利用可能なエ ンコーディング ( コード化方式.
プログラミング言語論 第10回(演習) 情報工学科 木村昌臣   篠埜 功.
復習 配列変数の要素 5は配列の要素数 これらの変数をそれぞれ配列の要素と呼ぶ この数字を配列の添え字,またはインデックスと呼ぶ
復習 配列変数の要素 5は配列の要素数 これらの変数をそれぞれ配列の要素と呼ぶ この数字を配列の添え字,またはインデックスと呼ぶ
プログラミングとは Q.プログラムとは何か? A.コンピュータを制御するための,コンピュータに対する命令(指示)の集まり.
『基礎理論』 (C)Copyright, Toshiomi KOBAYASHI,
コンピュータの予備知識 ネットワークシステムⅠ 第4回.
富山大学 公開講座 2008 「QRコードを作ろう!」 ~ QRコードを作ろう! ~.
文字列検出ツール "istrings" の使い方
MARC21による国内交換フォーマットの提案
Webアプリケーション開発の 基本的なポイント
「情報」 (中村) オリジナル PPT (2010/05/07) 1 1.
情報処理の基礎 私たちとコンピュータの扱うデータの違い 明治学院大学 法学部消費情報環境法学科 鶴貝 達政
コンパイラ 2011年10月17日
JEPA「文字図形共有基盤」調査検討分科会 黒田信二郎 2011年11月17日
情 報 の 表 現(3) 情報社会とコンピュータ 第10回.
文字のディジタル化 Copyright(C)2009 Tsutomu Ohara All rights reserved.
音声と図解 初めてのパソコン 2013年度公開講座 4月27日, 5月11日 跡見学園女子大学文学部准教授 福田 博同 初めてのパソコン
キーボードでの指の位置と入力範囲 ◎左手の指のホームポジション(入力しないときの位置): 小指-「A」 薬指-「S」 中指-「D」 人差し指-「F」(突起あり) ◎右手の指のホームポジション: 人差し指-「J」 (突起あり) 中指-「K」 薬指-「L」 小指-「;」 ◎親指は「スペース」キーの上に置く。
5.チューリングマシンと計算.
5.チューリングマシンと計算.
コードの歴史 ASCII(American Standard Code for Information Interchange)  ANSI ISO 646 = 95文字のラテン文字 アルファベット+数字+特殊文字 制御コード: LF, CR などの表示制御と   ACK,DEL などの通信制御 、など.
文字のディジタル化 Copyright(C)2009 Tsutomu Ohara All rights reserved.
ファイルシステムとコマンド.
第2章 ソフトウェアの基礎知識 電子制御設計製図Ⅰ    2010年5月11日 Ⅲ限目.
プログラミングとは Q.プログラムとは何か? A.コンピュータを制御するための,コンピュータに対する命令(指示)の集まり.
第2章 ソフトウェアの基礎知識.
心理学情報処理法Ⅰ コンピュータにおけるデータ表現 マルチメディアとコンピュータ.
文字化けの背景を知る.
プログラミング言語論 プログラミング言語論 プログラミング言語論 演習1 解答と解説 演習1解答と解説 1 1.
キーボードでの指の位置と入力範囲 ◎左手の指のホームポジション(入力しないときの位置): 小指-「A」 薬指-「S」 中指-「D」 人差し指-「F」(突起あり) ◎右手の指のホームポジション: 人差し指-「J」 (突起あり) 中指-「K」 薬指-「L」 小指-「;」 ◎親指は「スペース」キーの上に置く。
2012年度 情報数理 ~ QRコードを作ろう!(1) ~.
2008年度 情報数理 ~ QRコードを作ろう!(1) ~.
Outlook メール文字化けの原因と対策
コンパイラ 2012年10月15日
報告4:蔵書評価における文字コード問題について
SGMLについて 2年8組  原口 文晃.
2010年度 情報数理 ~ QRコードを作ろう!(1) ~.
文字化けの背景を知る.
1 Macの基本操作 1-5 文字入力(1/4)  (1)Windows風のキー設定
文字化けの背景を知る.
コンピュータの原理 1E17M053-9 奈良 皐佑 1E17M070-7 師尾 直希        1E17M078-6 渡邊 惇.
芝野耕司 ISO/IEC JTC1/SC2 (Coded Character Sets)委員長 東京外国語大学
プログラミング応用 printfと変数.
文字コード 情報処理3 今井孝明.
独習XML 第2章 XML文書の構成要素 2.1 XMLの文字と文字列 2.2 コメント
文字の表現.
第4回 コンピューティングの要素と構成 平成22年5月10日(月)
情報スキル活用 第2週 基礎技術ー2 : Webページの基本形.
文字エンコーディング 2010年7月.
第2章 ソフトウェアの基礎知識 電子制御設計製図Ⅰ    2010年5月19日 Ⅱ限目.
文字のディジタル化 Copyright(C)2009 Tsutomu Ohara All rights reserved.
初心者のための補足 キーボード・マウスの基本操作と 日本語入力
5.チューリングマシンと計算.
独習XML ~第1章 XMLの基礎~ 1.1 XML文書の基礎 1.2 XMLとHTML
日本語独特のL10N問題とは? 各社仕様の拡張文字 複数の符号化 規格の混乱など Unicodeとのマッピング
情報処理Ⅱ 第7回 2004年11月16日(火).
CADシステムとソフトウェア 電子制御設計製図Ⅰ    2009年4月28日 Ⅲ限目.
情報処理Ⅱ 2005年11月25日(金).
Presentation transcript:

基本編の用語説明 その2 エディタと日本語入力

エディタ  エディタ (editor) :文書を作成、編集する アプリケーションソフトウェア  教育用計算機システムのエディタは、 テキストエディット テキストエディット  基本的な編集方法はここここ  カーソル:文字が入力される位置を表している目印  カッペ、コピペ カッペ、コピペ  検索と置換 検索と置換  編集結果の保存 編集結果の保存  文系のみなさんには興味はないだろうが emacs というエディ タもある emacs

さて、いよいよ日本語入力だが。。。  文字コード: コンピュータの内部  対応  画面やキーボードで見える文字 ( 2 進数で表現) 文字コード (人間に読める:フォント)  フォント:画面にみえる字の形  Unicode: 世界の主な文字を文字集合として 16 ビットの 文字コード詳しくはここここ  アスキーコード: 7 ビットで英数字を表す文字コード  ビット: 2 進数 1 桁のこと。計算機で情報を表す最小単位  漢字コード:漢字は 8 ビットでは表現できないので、 16 ビット以上使うコードになる 漢字コード  ShiftJIS(SJIS), EUC, JIS などが混在。 ShiftJIS(SJISEUCJIS  これらのコードが混在した状態でいったいどうやって文字コード を認識するのだろうか?

ISO 646 (ASCII) 文字セット ABCDEF 2!“ #$ %&‘()*+,./ :;<=>? 4 @ ABCDEFGHIJKLMNO 5PQRSTUVWXYZ[\]^_ 6`abcdefghijklmno 7pqrstuvwxyz{|}~

JIS 漢字 sjis E 5F 7E 81 9F E0 EF 第 2 バイト E 80 JIS カタカナ JIS X0201  ここは 1 バイト 文字 シフトJIS ( sjis ) の漢字領域のシフト この行き来( 1 バイト 文字と2バイト文字 の行き来)は特殊文 字列( ISO2022 エス ケープシーケンス) で行う JIS コード SJIS コー ド

MacOS での日本語入力はここここ 全角と半角 – 半角カタカナや全角英文字は避けましょう。

ここから先は難しいので、根性の無い人は、 これ以上進んではいけません: コードの歴史 ASCII(American Standard Code for Information Interchange)  ANSI ISO 646 = 95 文字のラテン文字 アルファベット+数字+特殊文字 制御コード: LF, CR などの表示制御と ACK,DEL などの通信制御 、など JISX0201 では ASCII の特殊文字の一部が異 なる(¥の使用など)

日本語コードの話 1 バイトでは最大256文字 字種の多い言語では多バイトコード 1 バイトコードで事足りる欧米言語と多バ イトコードが必要なアジアの言語とのバ トルグランド 文字コードのような基本的情報インフラ の標準化は社会への影響莫大

ISO2022 エスケープシーケンスにより文字を拡張 するための各種のメカニズム 各国の ISO646 (アメリカなら ASCII 、 日本なら JIS X 0201 ) を別個の文字集合 として指定し切り替えて使える。 ちなみに西ヨーロッパの文字では、 ISO8859/1

ISO2022 エスケープシーケン ス 変化先の文字コードエスケープシーケンス ASCIIESC ( B JIS X0201 ( ASCII 対 応部分) ESC ( J JIS カタカナ ESC ( I JIS 0208ESC $ B

JISコードの歴史 JISX0208(1978) 当時は JISC6226 カタカナ(いわゆる 半角カタカナ)および全角英字はいまや 無用の長物ないしは有害 半角カタカナと全角英字は 97JIS では使わ ないことに決めた シフトJIS 78JIS  83JIS  90JIS  97JIS

内部状態を持つ文字コードと 持たない文字コード 1 バイトコードの ASCII は内部状態なし 2バイトの内部状態なしコードを目指し たのがユニコード エスケープシーケンスのある文字コード ISO2022 に則るコードは内部状態を持つ。 内部状態を持つと何がまずいのか?

JIS コードにおける漢字 78JIS の第1水準 2965文字=都道府 県 名、市町村名を全て記述で きる。 第2水準 3384 文字 JISX 0212 の補助漢字 5801文字

日本語EUC Unix で常用される 2 バイトコード – 第 1 バイト最上位ビット=0  JIS X0201 ( ASCII 対応部分) – 第 1 バイト最上位ビット=1 かつ第 2 バイト最上 位ビット=1  JIS 漢字 – 第 1 バイト= 8E かつ第 2 バイト最上位ビット=1  JIS カタカナ – 第 1 バイト= 8E かつ第 2 バイト最上位ビット=1 かつ第 3 バイト最上位ビット=1  JIS 補助漢字 上位ビットを見るだけで字種を判別できる

シフトJIS JISX0208で使用していない文字を漢 字の 1 バイト目に使う。すなわち、 1 バイト目、 – 最上位ビット= 0  JIS X0201( 英数字など ASCII 対応部分) – 最上位ビット= 1  JIS カタカナ –#x81-9F ( JIS X 0201 では未使用), E0-EF ( ISO2022 の制御符号部分)  漢字 2 バイト目は #x40-EF 合計24576文字 台湾、中国、韓国版として Big5, GBK,UHC

JIS 漢字 E 5F 7E 81 9F E0 EF 第 2 バイト E 80 JIS カタカナ JIS X0201 シフトJISの漢字領域のシフト

漢字の形 「包摂」 とは 異なる字形を同一視の 基準のこと。 例えば、「高」や「富」 や「国」のふたつの字形など そもそも字形のぶれをきちんと定義でき るのか? 計算機技術によって解決できる種類の問 題?

文字と文字コードと字形の関係 文字 文字コード 字形 字形のゆれ  包摂基準で規定 文字と字形の 関係は複雑怪奇 「島」「嶋」 目的に応じて決める

情報検索という目的だとどうなるか 人名を検索したいなら「嶋」と「島」は 別の文字コードにしておくべき A と a が同じ文字コードでは困るこ ともあるので別のコードに 字形が増えると文字コードが増える。検 索ではいくつかの文字コードを同一視す るようなプログラムを書く

用字系と使用言語の関係 「どの言語で書かれたテキストか」と 「どの用字系が使われているか」を区別 することも多言語処理では重要 同じ字と思しき字でも使われる用字系が 違うと異なるコードが割り振られるべき。 ユニコードのCJK(日中韓統一漢字 コード)は、3ヶ国語の漢字を字形が似 ているという理由で同じコードに割り当 てている。

左右 縦横 文を 右から左に書くか、 左から右に 書くか 文を縦書きするか、横書きするか このような問題は文字コードの問題か、 言語の問題か、用字系の問題か  平文( plain text ) vs 構造化文書

Plain Text vs 構造化文書 Plain text は単なる文字コードの連なり。 表示や論理的構造を持たない。 ネットワークエチケットのひとつにメー ルは Plain text で書くということがある。 構造化文書はタグによって、文書の論理 構造や表示の指示、あるいは使用言語な どまで指定したもの。 LaTex , SGML 、 XML 、 HTML など

自動文字コード認識 ISO2022 のエスケープシーケンスを探す JIS 、 SJIS 、 EUC などを仮定して復元。日 本語らしい言語統計になるのが正しい文 字コード 言語統計とは? 文字の頻度統計、 N-gram 統計、単語の頻 度

文字コード変換ツール( UNIX) nkf - 変換先コード ファイル名 変換先コードは j 、 s 、 e 、 m

便利な情報リソース 情報通信辞典: 情報通信辞典:

使用言語の推定 あるテキストの文字コードが分かると次 はそのテキストが記述されている言語を 推定 使用言語推定 – 言語特有の文字コード、文字列パタン、 – 言語固有の文字出現頻度、 – 言語固有の文字列 (n-gram) 出現頻度 – などによって判断