報告4:蔵書評価における文字コード問題について 池内 淳
報告4の内容 蔵書評価における文字列照合について 文字コードと文字集合の概観 NDL蔵書データについて 米国議会図書館及び中国国家図書館の蔵書データについて 文字列照合の際の諸問題について
書誌同定の照合キーとしてのISBNコードの評価 複数の 図書館間 における大量の 所蔵資料 の 重複数 を調査しようとする際に、極めて 効率的 なアプローチである。 その一方で、 ISBNコード のみを 照合キー とすることによる 調査バイアス の存在についても 自覚的 でなければならない。 Powered by Monta Method <http://www.bricklife.com/weblog/000626.html>
ISBNを単独の照合キーとする場合の調査バイアス(確認) 重複数を過小評価する可能性について ISBNが付与されていない資料の存在 ISBNが誤入力されている資料の存在 重複数を過剰評価する可能性について 同一の資料に複数のISBNが付与される場合(シリーズ物等) 出版国・装丁等が異なるため、同内容の資料に異なるISBNが付与される場合
では Powered by Takahashi Method <http://www.rubycolor.org/takahashi/>
どうすれば
いいですか?
それは
International Standard Book Number ISBN International Standard Book Number
だけでなく
他の
書誌事項を
例えば
著者名や
書名等を
書誌同定
のための
照合キー
として
用いること
複数の書誌事項を照合キーに含めることの意味:1 ISBN 単独の場合よりも、より 精緻 な評価結果を得る可能性がある。 一方、ISBN 単独の場合では、ほとんど考慮する必要のない 文字コード や文字集合 の問題について、注意を払わなければならない。
複数の書誌事項を照合キーに含めることの意味:2 ISBN単独の場合にもたらされる 誤差 と、積極的に 調査バイアス を除去しようとする場合の コスト とを評価することが必要。 文字コードの問題に対する 適切な処置 を怠った場合、ISBN単独の場合よりも、より精度の低い 評価結果を得る可能性がある。
ところで
文字コード
とは?
文字コードについて 文字コード(character code) 文字集合(character set) コンピュータが 文字・記号 に 数字 を割り当てるための符号化方式、あるいは、その符合そのもの 文字集合(character set) 特定の文字コード系において表現可能な 文字・記号 の集合(=符号化文字集合)
代表的な文字コードの例:ASCII(1963~) American Standard Code for Information Interchange 7ビット(27) 2進数: 0000000~1111111 16進数: 00~7F 10進数: 0~127
128文字? (96文字)
それだけでは
とても
足りません
では
どうすれば
いいですか?
文字集合を拡張するための代表的なアプローチ ISO/IEC 2022系 様々な 文字コード表 を切り替えることで、同一のコードポイントに 異なる複数の文字 を割り当てる方式 言語圏ごとに 地域化(localization: l10n)が必要 Unicode/ISO/IEC 10646系 数多くの言語を網羅する単一の 文字コード表 を構築し、特定の文字に対して、一意のコードポイントを割り当てる方式(→ 国際化(internationalization: i18n)) 地域化のための コスト を節約できるが、ファイルが 重く なり易い。
ISO/IEC 2022(8ビット) の概念図(コード表の切り替え) 中間バッファ(G0~G3)に読み込まれた複数の文字コード表を、インユーステーブル(GL/GR)に読み込み、特定のエスケープシーケンスを用いて、適宜、文字コード表を切り替える。 <インユーステーブル> <中間バッファ>
Unicode/ISO 10646における文字集合の概念図:1 0点 255点 0区 UCS-2 16ビット 2オクテット 256区×256点 65,536コードポイント 巨大な文字空間を確保する 255区 UCS: Universal multiple-octet coded Character Set
65,536文字?
それだけでは
とても
とても
とても
とても
足りません
Unicode/ISO 10646における文字集合の概念図:2 UCS-4 31ビット 4オクテット 128群×256面×256区×256点 2,147,483,648 コードポイント ×256面 ×128群 UCS: Universal multiple-octet coded Character Set
Unicode ISO/IEC 10646では
文字コードと
文字集合を
明確に
弁別しています
UCSの
符号化方式は
UTF プロレスの団体名ではありません。
です
ISO/IEC 10646では
これを
UCS Transfomation Format
と呼び
Unicodeでは
これを
Unicode Translation Format
と呼びます
ここでは
UTF-8 8-bit UCS Transformation Format Unicode Translation Format-8
について
採り上げます
UTF-8の特徴について 1バイト~6バイトの可変長符号化方式で、UCS-4の文字集合を全て網羅できる。 ASCIIが1バイトで表現されるため既存のシステムや文字コードとの親和性が高い。 1バイト対多バイト、及び、多バイト文字間での自動判別が容易。 CJKには3バイト以上が割り当てられるため、文字レパートリーの多い言語圏には不利
NDL蔵書データについて 文字コード → EUC-JP 文字集合 → JIS X 0208の範囲 ISO/IEC 2022に準拠した日本語文字コード UNIX系OSの多くで用いられている 文字集合 → JIS X 0208の範囲 「ひらがな」、「カタカナ」、「基本ラテン+記号」、「JIS第一/第二水準漢字」 拡張ラテン、ギリシャ文字、キリル文字等については、代替文字を定義して使用(→配付資料参照)
NDLにおける代替文字の例: フランス語の場合
NDLにおける代替文字の例: ロシア語(キリル文字)の場合
本調査の対象とした国立図書館の文字コードについて 米国議会図書館(Library of Congress) UTF-8 MARC-8 MARC21で定義された独自の文字コード ISO/IEC 2022に準拠 中国国家図書館(National Library of China)
文字列照合を行う際の諸問題について :1 文字コードの異同について 文字集合の異同 文字列照合を行う際の諸問題について :1 文字コードの異同について 特定の目録データの文字コードは、既知であることから、純粋に、技術的問題 として処理される。 文字集合の異同 予め、代替文字 や 翻字リスト を作成して、逐次、対応する必要がある。
文字列照合を行う際の諸問題について :2 表記のゆれ、誤入力について 文字列照合を行う際の諸問題について :2 表記のゆれ、誤入力について ISBN単独の場合、デリミタである「-(ハイフン)」の有無を考慮する程度で構わない。 文字列の完全一致を書誌同定の条件とした場合、蔵書の一致数を過小評価する可能性が極めて高い。 引用文献の記述のゆれを吸収するための研究蓄積は存在するものの、国際的な大規模図書館間の書誌データの記述のゆれを吸収するといった既往研究は存在しない。 ISBNの一致する書誌データ間において、タイトルや著者名がどの程度一致するのかについて調査を行うというアプローチは有効
おわり