報告4：蔵書評価における文字コード問題について

報告4：蔵書評価における文字コード問題について
池内　淳

報告4の内容蔵書評価における文字列照合について文字コードと文字集合の概観 NDL蔵書データについて
米国議会図書館及び中国国家図書館の蔵書データについて文字列照合の際の諸問題について

書誌同定の照合キーとしてのISBNコードの評価
複数の図書館間における大量の所蔵資料の重複数を調査しようとする際に、極めて効率的なアプローチである。その一方で、 ISBNコードのみを照合キーとすることによる調査バイアスの存在についても自覚的でなければならない。 Powered by Monta Method　<

ISBNを単独の照合キーとする場合の調査バイアス（確認）
重複数を過小評価する可能性について ISBNが付与されていない資料の存在 ISBNが誤入力されている資料の存在重複数を過剰評価する可能性について同一の資料に複数のISBNが付与される場合（シリーズ物等）出版国・装丁等が異なるため、同内容の資料に異なるISBNが付与される場合

では Powered by Takahashi Method　<

どうすれば

いいですか?

それは

International Standard Book Number
ISBN International Standard Book Number

だけでなく

他の

書誌事項を

例えば

著者名や

書名等を

書誌同定

のための

照合キー

として

用いること

複数の書誌事項を照合キーに含めることの意味：1
ISBN 単独の場合よりも、より精緻な評価結果を得る可能性がある。一方、ISBN 単独の場合では、ほとんど考慮する必要のない文字コードや文字集合の問題について、注意を払わなければならない。

複数の書誌事項を照合キーに含めることの意味：2
ISBN単独の場合にもたらされる誤差と、積極的に調査バイアスを除去しようとする場合のコストとを評価することが必要。文字コードの問題に対する適切な処置を怠った場合、ISBN単独の場合よりも、より精度の低い評価結果を得る可能性がある。

ところで

文字コード

とは?

文字コードについて文字コード（character code）文字集合（character set）
コンピュータが文字・記号に数字を割り当てるための符号化方式、あるいは、その符合そのもの文字集合（character set）特定の文字コード系において表現可能な　文字・記号の集合（＝符号化文字集合）

代表的な文字コードの例：ASCII(1963～)
American Standard Code for Information Interchange 7ビット(27)　2進数: ～　16進数: 00～7F　10進数: 0～127

128文字? (96文字)

それだけでは

とても

足りません

では

どうすれば

いいですか?

文字集合を拡張するための代表的なアプローチ
ISO/IEC 2022系様々な文字コード表を切り替えることで、同一のコードポイントに異なる複数の文字を割り当てる方式言語圏ごとに地域化（localization: l10n）が必要 Unicode／ISO/IEC 10646系数多くの言語を網羅する単一の文字コード表を構築し、特定の文字に対して、一意のコードポイントを割り当てる方式（→ 国際化（internationalization: i18n））地域化のためのコストを節約できるが、ファイルが重くなり易い。

ISO/IEC 2022（8ビット）の概念図（コード表の切り替え）
中間バッファ（G0～G3）に読み込まれた複数の文字コード表を、インユーステーブル（GL/GR）に読み込み、特定のエスケープシーケンスを用いて、適宜、文字コード表を切り替える。＜インユーステーブル＞＜中間バッファ＞

Unicode／ISO 10646における文字集合の概念図：1
0点 255点 0区 UCS-2 16ビット 2オクテット 256区×256点 65,536コードポイント巨大な文字空間を確保する 255区 UCS: Universal multiple-octet coded Character Set

65,536文字?

それだけでは

とても

足りません

Unicode／ISO 10646における文字集合の概念図：2
UCS-4 31ビット 4オクテット 128群×256面×256区×256点 2,147,483,648 コードポイント ×256面 ×128群 UCS: Universal multiple-octet coded Character Set

Unicode　ISO/IEC 10646では

文字コードと

文字集合を

明確に

弁別しています

UCSの

符号化方式は

UTF プロレスの団体名ではありません。

です

ISO/IEC 10646では

これを

UCS Transfomation Format

と呼び

Unicodeでは

これを

Unicode Translation Format

と呼びます

ここでは

UTF-8 8-bit UCS Transformation Format Unicode Translation Format-8

について

採り上げます

UTF-8の特徴について 1バイト～6バイトの可変長符号化方式で、UCS-4の文字集合を全て網羅できる。
ASCIIが1バイトで表現されるため既存のシステムや文字コードとの親和性が高い。 1バイト対多バイト、及び、多バイト文字間での自動判別が容易。 CJKには3バイト以上が割り当てられるため、文字レパートリーの多い言語圏には不利

NDL蔵書データについて文字コード → EUC-JP 文字集合 → JIS X 0208の範囲
ISO/IEC 2022に準拠した日本語文字コード UNIX系OSの多くで用いられている文字集合 → JIS X 0208の範囲「ひらがな」、「カタカナ」、「基本ラテン＋記号」、「JIS第一／第二水準漢字」拡張ラテン、ギリシャ文字、キリル文字等については、代替文字を定義して使用（→配付資料参照）

NDLにおける代替文字の例：フランス語の場合

NDLにおける代替文字の例：ロシア語（キリル文字）の場合

本調査の対象とした国立図書館の文字コードについて
米国議会図書館（Library of Congress） UTF-8 MARC-8 MARC21で定義された独自の文字コード ISO/IEC 2022に準拠中国国家図書館（National Library of China）

文字列照合を行う際の諸問題について：1 文字コードの異同について文字集合の異同
文字列照合を行う際の諸問題について：1 文字コードの異同について特定の目録データの文字コードは、既知であることから、純粋に、技術的問題として処理される。文字集合の異同予め、代替文字や翻字リストを作成して、逐次、対応する必要がある。

文字列照合を行う際の諸問題について：2 表記のゆれ、誤入力について
文字列照合を行う際の諸問題について：2 表記のゆれ、誤入力について ISBN単独の場合、デリミタである「－（ハイフン）」の有無を考慮する程度で構わない。文字列の完全一致を書誌同定の条件とした場合、蔵書の一致数を過小評価する可能性が極めて高い。引用文献の記述のゆれを吸収するための研究蓄積は存在するものの、国際的な大規模図書館間の書誌データの記述のゆれを吸収するといった既往研究は存在しない。 ISBNの一致する書誌データ間において、タイトルや著者名がどの程度一致するのかについて調査を行うというアプローチは有効

おわり

報告4：蔵書評価における文字コード問題について

Similar presentations

Presentation on theme: "報告4：蔵書評価における文字コード問題について"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

報告4：蔵書評価における文字コード問題について

Similar presentations

Presentation on theme: "報告4：蔵書評価における文字コード問題について"— Presentation transcript:

Similar presentations

About project

フィードバック