報告4：蔵書評価における文字コード問題について

Slides:

Advertisements

Similar presentations

FxUG in Toyama # Presented by wacky. 最近 AMF 3 の Encode/Decode を実装してみました。そこで得た知識を共有したいと思います！３０分後には … AMF の基本構造が分かっている AMF の得手不得手が分かっている BlazeDS.

Advertisements

2009/11/10 10 進数と r 進数を相互に変換できるコンピュータのための数を表現できる２進数の補数を扱えるコンピュータにおける負の数の表現を説明できるコンピュータでの演算方法を説明できる文字や記号の表現方法を示せる第７回今日の目標 § ２．２数の表現と文字コード.

７章情報の表現と基礎理論. 数の表現（書き方）「数」と「数の書き方」をわけて考える「数の書き方」と，「数そのものの性質」は別のもの例：13 は素数・・・”13”という書き方とは無関係ここでは書き方（表現方法）について考える５６７.

２．５プログラムの構成要素（１）文字セット ① ASCII （ American Standard Code for Interchange ） JIS コードと同じ ② EBCDIC （ Extended Binary Coded Decimal for Information Code ） 1.

基本編の用語説明その２エディタと日本語入力エディタ  エディタ (editor) ：文書を作成、編集するアプリケーションソフトウェア  教育用計算機システムのエディタは、テキストエディットテキストエディット  基本的な編集方法はここここ  カーソル：文字が入力される位置を表している目印.

Project Next-L プロトタイプ東京工科大学田辺浩介

プログラミング言語論第10回（演習）情報工学科　木村昌臣　篠埜　功.

NDL-OPAC 国立国会図書館 Webcat PLUS 国立情報学研究所 Books 日本書籍出版協会

基本情報技術概論（第２回）埼玉大学理工学研究科堀山貴史

『基礎理論』（C）Copyright, Toshiomi KOBAYASHI,

５．コンピュータ目録とカード目録５－１．カード目録.

コンピュータの予備知識ネットワークシステムⅠ 第４回.

文字列検出ツール "istrings" の使い方

MARC21による国内交換フォーマットの提案

「情報」　（中村）オリジナルＰＰＴ (2010/05/07) 1 1.

④CiNii ⑤NDL-OPAC(雑誌記事) ⑥日経BP

コンパイラ 2011年10月17日

JEPA「文字図形共有基盤」調査検討分科会黒田信二郎 2011年11月17日

知識情報演習Ⅲ（後半第1回）辻慶太（水）

３．記述の構造３－１．単行書誌単位のみ『情報サービス』３－２．集合書誌単位と単行書誌単位『図書及び図書館史』

図書DBの使用方法 NDL-OPAC 国立国会図書館 Webcat PLUS 国立情報学研究所 Books 日本書籍出版協会

コードの歴史 ASCII(American Standard Code for Information Interchange)  ANSI ISO 646 = 95文字のラテン文字アルファベット＋数字＋特殊文字制御コード：　LF, CR などの表示制御と　　　ACK,DEL などの通信制御　、など.

地理情報システム論第３回コンピュータシステムおけるデータ表現(1)

三上研究室学生のための文献検索および入手の基礎講習

NIIメタデータデータベースの構想国立情報学研究所　開発・事業部コンテンツ課　米澤誠

心理学情報処理法Ⅰ コンピュータにおけるデータ表現マルチメディアとコンピュータ.

プログラミング言語論プログラミング言語論プログラミング言語論演習１解答と解説演習１解答と解説 1 1.

NCR1987年版改訂3版目次.

Full Text Finder Publication Finder の概要

2008年度情報数理～ QRコードを作ろう！（１）～.

5．国立図書館（１）国立図書館とは・国家が設置し、国費で運営する図書館・国民全体を奉仕対象とする・国全体の図書館を代表する

日本大学文理学部情報システム解析学科谷研究室益田真太郎

セマンティクスを利用した図書検索システム

Outlook メール文字化けの原因と対策

コンパイラ 2012年10月15日

情報処理同実習 2007 担当：佐藤春樹、ＴＡ：中山君、橋本君、山本君

10．通信路符号化手法2 （誤り検出と誤り訂正符号）

情報Ａーディジタル化のしくみー.

早稲田大学教育学部数学科 Team:そらまめ

2010年度情報数理～ QRコードを作ろう！（１）～.

文字化けの背景を知る.

文字化けの背景を知る.

オントロジーを使用したプログラム開発支援システムの提案

図書館システムの歴史と日本語処理紅林徹也～大規模目録データベース～株式会社日立製作所公共システム事業部

芝野耕司 ISO/IEC JTC1/SC2 (Coded Character Sets)委員長東京外国語大学

図書館システムと日本語との格闘の歴史（過去、現在、未来） -CALISを中心にして-

2. 論理ゲートとブール代数五島正裕.

文字コード情報処理3 今井孝明.

独習ＸＭＬ第２章ＸＭＬ文書の構成要素 2.1 ＸＭＬの文字と文字列 2.2 コメント

文字の表現.

卒論の書き方：参考文献について 2017年9月27日小尻智子.

アルゴリズムとデータ構造補足資料5-1 「メモリとポインタ」

第7回授業計画の修正中間テストの解説・復習前回の補足（クロックアルゴリズム・PFF) 仮想記憶方式のまとめ特別課題について

第4回コンピューティングの要素と構成平成22年5月10日(月)

半構造化テキストに対する文字列照合アルゴリズム

文字エンコーディング 2010年7月.

第1章実世界のモデル化と形式化 3．地物インスタンスの表現

目録の基礎を学ぶ岡山県大学図書館協議会平成19年度第２回研修会平成19年12月4日（火）大手前大学吉田暁史

９．通信路符号化手法１（誤り検出と誤り訂正の原理）

平成16年度東京大学技術職員研修データベース検索

１－３ＵＭＬの図（ダイアグラム）コンポーネント図システムの物理的な構成を表現ソフトウェアコンポーネントの依存性を表現

※内容は初版刊行当時のものです。ＯＰＡＣで図書を探してみよう学術情報総合センター情報サービス部門.

コードクローン分類の詳細化に基づく集約パターンの提案と評価

基本情報技術概論（第２回）埼玉大学理工学研究科堀山貴史

図書館ガイダンス “30分でおさえる論文入手法”

日本語独特のL10N問題とは? 各社仕様の拡張文字複数の符号化規格の混乱など Unicodeとのマッピング

情報処理Ⅱ ２００７年１２月３日（月）その１.

オペレーティングシステム作成 T21R003 荏原寛太.

2008年度情報数理～授業紹介～.

2012年度情報数理～授業紹介～.

Presentation transcript:

報告4：蔵書評価における文字コード問題について池内　淳

報告4の内容蔵書評価における文字列照合について文字コードと文字集合の概観 NDL蔵書データについて米国議会図書館及び中国国家図書館の蔵書データについて文字列照合の際の諸問題について

書誌同定の照合キーとしてのISBNコードの評価複数の図書館間における大量の所蔵資料の重複数を調査しようとする際に、極めて効率的なアプローチである。その一方で、 ISBNコードのみを照合キーとすることによる調査バイアスの存在についても自覚的でなければならない。 Powered by Monta Method　<http://www.bricklife.com/weblog/000626.html>

ISBNを単独の照合キーとする場合の調査バイアス（確認）重複数を過小評価する可能性について ISBNが付与されていない資料の存在 ISBNが誤入力されている資料の存在重複数を過剰評価する可能性について同一の資料に複数のISBNが付与される場合（シリーズ物等）出版国・装丁等が異なるため、同内容の資料に異なるISBNが付与される場合

では Powered by Takahashi Method　<http://www.rubycolor.org/takahashi/>

どうすれば

いいですか?

それは

International Standard Book Number ISBN International Standard Book Number

だけでなく

他の

書誌事項を

例えば

著者名や

書名等を

書誌同定

のための

照合キー

として

用いること

複数の書誌事項を照合キーに含めることの意味：1 ISBN 単独の場合よりも、より精緻な評価結果を得る可能性がある。一方、ISBN 単独の場合では、ほとんど考慮する必要のない文字コードや文字集合の問題について、注意を払わなければならない。

複数の書誌事項を照合キーに含めることの意味：2 ISBN単独の場合にもたらされる誤差と、積極的に調査バイアスを除去しようとする場合のコストとを評価することが必要。文字コードの問題に対する適切な処置を怠った場合、ISBN単独の場合よりも、より精度の低い評価結果を得る可能性がある。

ところで

文字コード

とは?

文字コードについて文字コード（character code）文字集合（character set）コンピュータが文字・記号に数字を割り当てるための符号化方式、あるいは、その符合そのもの文字集合（character set）特定の文字コード系において表現可能な　文字・記号の集合（＝符号化文字集合）

代表的な文字コードの例：ASCII(1963～) American Standard Code for Information Interchange 7ビット(27)　2進数: 0000000～1111111　16進数: 00～7F　10進数: 0～127

128文字? (96文字)

それだけでは

とても

足りません

では

どうすれば

いいですか?

文字集合を拡張するための代表的なアプローチ ISO/IEC 2022系様々な文字コード表を切り替えることで、同一のコードポイントに異なる複数の文字を割り当てる方式言語圏ごとに地域化（localization: l10n）が必要 Unicode／ISO/IEC 10646系数多くの言語を網羅する単一の文字コード表を構築し、特定の文字に対して、一意のコードポイントを割り当てる方式（→ 国際化（internationalization: i18n））地域化のためのコストを節約できるが、ファイルが重くなり易い。

ISO/IEC 2022（8ビット）の概念図（コード表の切り替え）中間バッファ（G0～G3）に読み込まれた複数の文字コード表を、インユーステーブル（GL/GR）に読み込み、特定のエスケープシーケンスを用いて、適宜、文字コード表を切り替える。＜インユーステーブル＞＜中間バッファ＞

Unicode／ISO 10646における文字集合の概念図：1 0点 255点 0区 UCS-2 16ビット 2オクテット 256区×256点 65,536コードポイント巨大な文字空間を確保する 255区 UCS: Universal multiple-octet coded Character Set

65,536文字?

それだけでは

とても

とても

とても

とても

足りません

Unicode／ISO 10646における文字集合の概念図：2 UCS-4 31ビット 4オクテット 128群×256面×256区×256点 2,147,483,648 コードポイント ×256面 ×128群 UCS: Universal multiple-octet coded Character Set

Unicode　ISO/IEC 10646では

文字コードと

文字集合を

明確に

弁別しています

UCSの

符号化方式は

UTF プロレスの団体名ではありません。

です

ISO/IEC 10646では

これを

UCS Transfomation Format

と呼び

Unicodeでは

これを

Unicode Translation Format

と呼びます

ここでは

UTF-8 8-bit UCS Transformation Format Unicode Translation Format-8

について

採り上げます

UTF-8の特徴について 1バイト～6バイトの可変長符号化方式で、UCS-4の文字集合を全て網羅できる。 ASCIIが1バイトで表現されるため既存のシステムや文字コードとの親和性が高い。 1バイト対多バイト、及び、多バイト文字間での自動判別が容易。 CJKには3バイト以上が割り当てられるため、文字レパートリーの多い言語圏には不利

NDL蔵書データについて文字コード → EUC-JP 文字集合 → JIS X 0208の範囲 ISO/IEC 2022に準拠した日本語文字コード UNIX系OSの多くで用いられている文字集合 → JIS X 0208の範囲「ひらがな」、「カタカナ」、「基本ラテン＋記号」、「JIS第一／第二水準漢字」拡張ラテン、ギリシャ文字、キリル文字等については、代替文字を定義して使用（→配付資料参照）

NDLにおける代替文字の例：フランス語の場合

NDLにおける代替文字の例：ロシア語（キリル文字）の場合

本調査の対象とした国立図書館の文字コードについて米国議会図書館（Library of Congress） UTF-8 MARC-8 MARC21で定義された独自の文字コード ISO/IEC 2022に準拠中国国家図書館（National Library of China）

文字列照合を行う際の諸問題について：1 文字コードの異同について文字集合の異同文字列照合を行う際の諸問題について：1 文字コードの異同について特定の目録データの文字コードは、既知であることから、純粋に、技術的問題として処理される。文字集合の異同予め、代替文字や翻字リストを作成して、逐次、対応する必要がある。

文字列照合を行う際の諸問題について：2 表記のゆれ、誤入力について文字列照合を行う際の諸問題について：2 表記のゆれ、誤入力について ISBN単独の場合、デリミタである「－（ハイフン）」の有無を考慮する程度で構わない。文字列の完全一致を書誌同定の条件とした場合、蔵書の一致数を過小評価する可能性が極めて高い。引用文献の記述のゆれを吸収するための研究蓄積は存在するものの、国際的な大規模図書館間の書誌データの記述のゆれを吸収するといった既往研究は存在しない。 ISBNの一致する書誌データ間において、タイトルや著者名がどの程度一致するのかについて調査を行うというアプローチは有効

おわり