報告4:蔵書評価における文字コード問題について

Slides:



Advertisements
Similar presentations
FxUG in Toyama # Presented by wacky. 最近 AMF 3 の Encode/Decode を実装してみました。 そこで得た知識を共有したいと思います! 30分後には … AMF の基本構造が分かっている AMF の得手不得手が分かっている BlazeDS.
Advertisements

2009/11/10 10 進数と r 進数を相互に変換できる コンピュータのための数を表現できる 2進数の補数を扱える コンピュータにおける負の数の表現を説明で きる コンピュータでの演算方法を説明できる 文字や記号の表現方法を示せる 第7回 今日の目標 § 2.2 数の表現と文字コード.
7章 情報の表現と基礎理論. 数の表現(書き方) 「数」と「数の書き方」をわけて考える 「数の書き方」と,「数そのものの性質」は別のもの 例:13 は素数・・・”13”という書き方とは無関係 ここでは書き方(表現方法)について考える 567.
2.5 プログラムの構成要素 (1)文字セット ① ASCII ( American Standard Code for Interchange ) JIS コードと同じ ② EBCDIC ( Extended Binary Coded Decimal for Information Code ) 1.
基本編の用語説明 その2 エディタと日本語入力 エディタ  エディタ (editor) :文書を作成、編集する アプリケーションソフトウェア  教育用計算機システムのエディタは、 テキストエディット テキストエディット  基本的な編集方法はここここ  カーソル:文字が入力される位置を表している目印.
Project Next-L プロトタイ プ 東京工科大学 田辺浩介
プログラミング言語論 第10回(演習) 情報工学科 木村昌臣   篠埜 功.
NDL-OPAC 国立国会図書館 Webcat PLUS 国立情報学研究所 Books 日本書籍出版協会
基本情報技術概論(第2回) 埼玉大学 理工学研究科 堀山 貴史
『基礎理論』 (C)Copyright, Toshiomi KOBAYASHI,
5.コンピュータ目録とカード目録 5-1.カード目録.
コンピュータの予備知識 ネットワークシステムⅠ 第4回.
文字列検出ツール "istrings" の使い方
MARC21による国内交換フォーマットの提案
「情報」 (中村) オリジナル PPT (2010/05/07) 1 1.
④CiNii ⑤NDL-OPAC(雑誌記事) ⑥日経BP
コンパイラ 2011年10月17日
JEPA「文字図形共有基盤」調査検討分科会 黒田信二郎 2011年11月17日
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
3.記述の構造 3-1.単行書誌単位のみ 『情報サービス』 3-2.集合書誌単位と単行書誌単位 『図書及び図書館史』
図書DBの使用方法 NDL-OPAC 国立国会図書館 Webcat PLUS 国立情報学研究所 Books 日本書籍出版協会
コードの歴史 ASCII(American Standard Code for Information Interchange)  ANSI ISO 646 = 95文字のラテン文字 アルファベット+数字+特殊文字 制御コード: LF, CR などの表示制御と   ACK,DEL などの通信制御 、など.
地理情報システム論 第3回 コンピュータシステムおける データ表現(1)
三上研究室学生のための 文献検索および入手の基礎講習
NIIメタデータデータベースの構想 国立情報学研究所 開発・事業部 コンテンツ課 米 澤 誠
心理学情報処理法Ⅰ コンピュータにおけるデータ表現 マルチメディアとコンピュータ.
プログラミング言語論 プログラミング言語論 プログラミング言語論 演習1 解答と解説 演習1解答と解説 1 1.
NCR1987年版改訂3版目次.
Full Text Finder Publication Finder の概要
2008年度 情報数理 ~ QRコードを作ろう!(1) ~.
5.国立図書館 (1)国立図書館とは ・国家が設置し、国費で運営する図書館 ・国民全体を奉仕対象とする ・国全体の図書館を代表する
日本大学 文理学部 情報システム解析学科 谷研究室 益田真太郎
セマンティクスを利用した 図書検索システム
Outlook メール文字化けの原因と対策
コンパイラ 2012年10月15日
情報処理同実習 2007 担当:佐藤春樹、TA:中山君、橋本君、山本君
10.通信路符号化手法2 (誤り検出と誤り訂正符号)
情 報 A ー ディジタル化のしくみ ー.
早稲田大学教育学部数学科 Team:そらまめ
2010年度 情報数理 ~ QRコードを作ろう!(1) ~.
文字化けの背景を知る.
文字化けの背景を知る.
オントロジーを使用した プログラム開発支援システムの提案
図書館システムの歴史と日本語処理 紅林 徹也 ~ 大規模目録データベース ~ 株式会社 日立製作所 公共システム事業部
芝野耕司 ISO/IEC JTC1/SC2 (Coded Character Sets)委員長 東京外国語大学
図書館システムと日本語との 格闘の歴史(過去、現在、未来) -CALISを中心にして-
2. 論理ゲート と ブール代数 五島 正裕.
文字コード 情報処理3 今井孝明.
独習XML 第2章 XML文書の構成要素 2.1 XMLの文字と文字列 2.2 コメント
文字の表現.
卒論の書き方: 参考文献について 2017年9月27日 小尻智子.
アルゴリズムとデータ構造 補足資料5-1 「メモリとポインタ」
第7回 授業計画の修正 中間テストの解説・復習 前回の補足(クロックアルゴリズム・PFF) 仮想記憶方式のまとめ 特別課題について
第4回 コンピューティングの要素と構成 平成22年5月10日(月)
半構造化テキストに対する 文字列照合アルゴリズム
文字エンコーディング 2010年7月.
第1章 実世界のモデル化と形式化 3.地物インスタンスの表現
目録の基礎を学ぶ 岡山県大学図書館協議会 平成19年度第2回研修会 平成19年12月4日(火) 大手前大学 吉田暁史
9.通信路符号化手法1 (誤り検出と誤り訂正の原理)
平成16年度東京大学技術職員研修 データベース検索
1-3 UMLの図(ダイアグラム) コンポーネント図 システムの物理的な構成を表現 ソフトウェアコンポーネントの依存性を表現
※内容は初版刊行当時のものです。 OPACで図書を探してみよう 学術情報総合センター情報サービス部門.
コードクローン分類の詳細化に基づく 集約パターンの提案と評価
基本情報技術概論(第2回) 埼玉大学 理工学研究科 堀山 貴史
図書館ガイダンス “30分でおさえる論文入手法”
日本語独特のL10N問題とは? 各社仕様の拡張文字 複数の符号化 規格の混乱など Unicodeとのマッピング
情報処理Ⅱ 2007年12月3日(月) その1.
オペレーティングシステム 作成 T21R003 荏原 寛太.
2008年度 情報数理 ~ 授業紹介 ~.
2012年度 情報数理 ~ 授業紹介 ~.
Presentation transcript:

報告4:蔵書評価における文字コード問題について 池内 淳

報告4の内容 蔵書評価における文字列照合について 文字コードと文字集合の概観 NDL蔵書データについて 米国議会図書館及び中国国家図書館の蔵書データについて 文字列照合の際の諸問題について

書誌同定の照合キーとしてのISBNコードの評価 複数の 図書館間 における大量の 所蔵資料 の 重複数 を調査しようとする際に、極めて 効率的 なアプローチである。 その一方で、 ISBNコード のみを 照合キー とすることによる 調査バイアス の存在についても 自覚的 でなければならない。 Powered by Monta Method <http://www.bricklife.com/weblog/000626.html>

ISBNを単独の照合キーとする場合の調査バイアス(確認) 重複数を過小評価する可能性について ISBNが付与されていない資料の存在 ISBNが誤入力されている資料の存在 重複数を過剰評価する可能性について 同一の資料に複数のISBNが付与される場合(シリーズ物等) 出版国・装丁等が異なるため、同内容の資料に異なるISBNが付与される場合

では Powered by Takahashi Method <http://www.rubycolor.org/takahashi/>

どうすれば

いいですか?

それは

International Standard Book Number ISBN International Standard Book Number

だけでなく

他の

書誌事項を

例えば

著者名や

書名等を

書誌同定

のための

照合キー

として

用いること

複数の書誌事項を照合キーに含めることの意味:1 ISBN 単独の場合よりも、より 精緻 な評価結果を得る可能性がある。 一方、ISBN 単独の場合では、ほとんど考慮する必要のない 文字コード や文字集合 の問題について、注意を払わなければならない。

複数の書誌事項を照合キーに含めることの意味:2 ISBN単独の場合にもたらされる 誤差 と、積極的に 調査バイアス を除去しようとする場合の コスト とを評価することが必要。 文字コードの問題に対する 適切な処置 を怠った場合、ISBN単独の場合よりも、より精度の低い 評価結果を得る可能性がある。

ところで

文字コード

とは?

文字コードについて 文字コード(character code) 文字集合(character set) コンピュータが 文字・記号 に 数字 を割り当てるための符号化方式、あるいは、その符合そのもの 文字集合(character set) 特定の文字コード系において表現可能な 文字・記号 の集合(=符号化文字集合)

代表的な文字コードの例:ASCII(1963~) American Standard Code for Information Interchange 7ビット(27) 2進数: 0000000~1111111 16進数: 00~7F 10進数: 0~127

128文字? (96文字)

それだけでは

とても

足りません

では

どうすれば

いいですか?

文字集合を拡張するための代表的なアプローチ ISO/IEC 2022系 様々な 文字コード表 を切り替えることで、同一のコードポイントに 異なる複数の文字 を割り当てる方式 言語圏ごとに 地域化(localization: l10n)が必要 Unicode/ISO/IEC 10646系 数多くの言語を網羅する単一の 文字コード表 を構築し、特定の文字に対して、一意のコードポイントを割り当てる方式(→ 国際化(internationalization: i18n)) 地域化のための コスト を節約できるが、ファイルが 重く なり易い。

ISO/IEC 2022(8ビット) の概念図(コード表の切り替え) 中間バッファ(G0~G3)に読み込まれた複数の文字コード表を、インユーステーブル(GL/GR)に読み込み、特定のエスケープシーケンスを用いて、適宜、文字コード表を切り替える。 <インユーステーブル> <中間バッファ>

Unicode/ISO 10646における文字集合の概念図:1 0点 255点 0区 UCS-2 16ビット 2オクテット 256区×256点 65,536コードポイント 巨大な文字空間を確保する 255区 UCS: Universal multiple-octet coded Character Set

65,536文字?

それだけでは

とても

とても

とても

とても

足りません

Unicode/ISO 10646における文字集合の概念図:2 UCS-4 31ビット 4オクテット 128群×256面×256区×256点 2,147,483,648 コードポイント ×256面 ×128群 UCS: Universal multiple-octet coded Character Set

Unicode ISO/IEC 10646では

文字コードと

文字集合を

明確に

弁別しています

UCSの

符号化方式は

UTF プロレスの団体名ではありません。

です

ISO/IEC 10646では

これを

UCS Transfomation Format

と呼び

Unicodeでは

これを

Unicode Translation Format

と呼びます

ここでは

UTF-8 8-bit UCS Transformation Format Unicode Translation Format-8

について

採り上げます

UTF-8の特徴について 1バイト~6バイトの可変長符号化方式で、UCS-4の文字集合を全て網羅できる。 ASCIIが1バイトで表現されるため既存のシステムや文字コードとの親和性が高い。 1バイト対多バイト、及び、多バイト文字間での自動判別が容易。 CJKには3バイト以上が割り当てられるため、文字レパートリーの多い言語圏には不利

NDL蔵書データについて 文字コード → EUC-JP 文字集合 → JIS X 0208の範囲 ISO/IEC 2022に準拠した日本語文字コード UNIX系OSの多くで用いられている 文字集合 → JIS X 0208の範囲 「ひらがな」、「カタカナ」、「基本ラテン+記号」、「JIS第一/第二水準漢字」 拡張ラテン、ギリシャ文字、キリル文字等については、代替文字を定義して使用(→配付資料参照)

NDLにおける代替文字の例: フランス語の場合

NDLにおける代替文字の例: ロシア語(キリル文字)の場合

本調査の対象とした国立図書館の文字コードについて 米国議会図書館(Library of Congress) UTF-8 MARC-8 MARC21で定義された独自の文字コード ISO/IEC 2022に準拠 中国国家図書館(National Library of China)

文字列照合を行う際の諸問題について :1 文字コードの異同について 文字集合の異同 文字列照合を行う際の諸問題について :1 文字コードの異同について 特定の目録データの文字コードは、既知であることから、純粋に、技術的問題 として処理される。 文字集合の異同 予め、代替文字 や 翻字リスト を作成して、逐次、対応する必要がある。

文字列照合を行う際の諸問題について :2 表記のゆれ、誤入力について 文字列照合を行う際の諸問題について :2 表記のゆれ、誤入力について ISBN単独の場合、デリミタである「-(ハイフン)」の有無を考慮する程度で構わない。 文字列の完全一致を書誌同定の条件とした場合、蔵書の一致数を過小評価する可能性が極めて高い。 引用文献の記述のゆれを吸収するための研究蓄積は存在するものの、国際的な大規模図書館間の書誌データの記述のゆれを吸収するといった既往研究は存在しない。 ISBNの一致する書誌データ間において、タイトルや著者名がどの程度一致するのかについて調査を行うというアプローチは有効

おわり