ネットワーク情報資源の組織化 整理技術研究グループ 堀池博巳、吉田暁史 ネットワーク情報資源の組織化について発表します、整理技術研究グループです。よろしくお願いします。本発表の内容は、レジュメの○ページから○ページまでに掲載されていますが、若干省略したり、字句の修正があったりします。なお、レジュメの最後には引用文献が9件上がっていますが、本発表では、原則として文献の紹介は行いませんので、引用文献との照合はレジュメの方をご覧ください。
1.はじめに ・膨大なネットワーク情報資源から良質の情報資源を選択・提供するサービスは必須 ・ネットワーク情報資源の組織化のためのプロセスを概観し、問題点を検討 はじめに、膨大なネットワーク情報資源が出現した現在、その中から良質な情報資源を選択し、提供する図書館サービスは必須と考えられます。良質な情報資源を提供する仕掛けとして、ネットワーク情報資源の組織化が重要であります。ネットワーク情報資源組織化のためのプロセスを概観し、問題点とあるべき方向性について検討を加えていきたいと思います。
2.ネットワーク情報資源と発見ツール 2-1.ネットワーク情報資源の特徴 (1)情報資源の量は膨大である (2)内容は玉石混淆である 2-1.ネットワーク情報資源の特徴 (1)情報資源の量は膨大である (2)内容は玉石混淆である (3)存在が不安定である では、ネットワーク情報資源は、どういった特徴があるでしょうか。今さら言うまでもありませんが、まず情報資源の量は膨大であります。例えば、検索エンジンでインデクシングされているページ数は、Googleで31億ページもあります。実際に存在するページ数はさらに膨大です。しかしその内容は玉石混交です。情報資源のフォーマットも多様なものが存在します。次に、情報資源の存在は流動的であり、非常に不安定です。所在位置の変更や内容の改変は頻繁にあります。こういった把握しがたい情報資源の中から有益な情報を発見し、提供することが求められています。
3.図書館におけるネットワーク情報資源 3-1.既存の探索ツールとその問題点 3.図書館におけるネットワーク情報資源 3-1.既存の探索ツールとその問題点 (1)一般的探索ツール A.商用、汎用検索サービスの利用 B.リンク集の利用 C.非インターネットのツールの利用 次に、図書館にとってのネットワーク情報資源について述べたいと思います。まず、既存の探索ツールとその問題点についてごく簡単にふれます。一般的な探索ツールとして、Aの商用あるいは汎用の検索サービスですが、検索結果が膨大になったり、検索精度も粗く、利用者による判断が難しくなっています。次に、B.リンク集では網羅性が弱いと言われます。また、C.非インターネットのツール利用では紙媒体のイエローページなどありますが、網羅性や最新性が弱いという問題があります。
(2)検索ツールの問題点 A.精度(precision)の欠如 B.再現率(recall ratio)の低さ C.無関係な分野や低品質な情報資源も検索 図書館コミュニティ独自の検索システム の構築が必要 以上のうち最も利用の多いのは、商用検索ツールですが、その問題点として次の3点が指摘されます。まず、A、精度の欠如です。フルテキストの文字列から検索するために、検索精度が非常に悪くなります。これは私たちが日常的に経験することです。次に、B、再現率が低くなることもあるという問題です。しっかりしたメタデータを使用した索引が行われないために、適合した情報が検索されないことも起こってくるということです。C、無関係な分野の情報が検索されたり低品質の資源に対するフィルタ機能が弱いために、多くの低品質な情報が検索されてしまうことです。これらの点から、各図書館あるいは、図書館群の利用者にとってふさわしい、有益な情報資源に絞り込んで提供する検索システムを、構築する必要があると考えます。
3-2.ネットワーク情報資源と所蔵資料 一体的な検索・提供の必要性 資料/情報の提供方法 ・所蔵資料の場合: 一体的な検索・提供の必要性 資料/情報の提供方法 ・所蔵資料の場合: 選択→収集→組織化→配架→提供→保存 ・ネットワーク情報資源の場合: 選択→組織化→提供 次に、ネットワーク情報資源と従来の所蔵資料との比較を考えます。所蔵資料の場合は、選択→収集→組織化→配架→提供→保存、という流れになり、ネットワーク情報資源の場合は、これらの流れのうち、収集、配架、保存という段階がなく、選択→組織化→提供という流れになります。 なおネットワーク情報資源の収集、保存も技術的には可能であり、国立図書館を中心にすでにアーカイブ実践も始まっていますが、ここではこの問題に立ち入りません。両者ともに図書館利用者が等しく利用することの出来る資源であり、両者をシームレスに検索し、アクセスできるように組織化すべきだと考えます。したがって従来の所蔵資料の目録と、ネットワーク情報資源の目録とを統合し、一体として検索・提供できる仕組みが必要だと思われます。いわば従来の所蔵目録の拡大版と捉えることができましょう。
3-3.ネットワーク情報資源を扱う上での 問題点[1] (1)情報内容が玉石混淆→選択機能の必要性 (2)情報資源の量が膨大→協力体制の必要性 →選択機能の必要性 (3)種々の不安定性 →監視機能の必要性 (4)記録様式が多様 →目録上の問題 次に、ネットワーク情報資源を扱う上での問題点を考えます。すでにごく簡単にはふれましたが、ここでは7点にまとめます。1、情報内容が玉石混淆であり、情報内容の選択機能が必要であること。2、情報資源の量が膨大であり、さらに増加の一途であること。したがって資源の選択機能とともに、組織化に際して協力体制が必要となりましょう。3、所在位置の変化、情報内容の変更、削除、など種々の不安定性があり、これらの監視機能が重要であること。4、静止画や音声といった記録様式が多様であり、目録上でどのように扱うかという問題があります。
3-3.ネットワーク情報資源を扱う上での 問題点[2] (5)あらゆる階層の情報資源の存在 →目録上の問題 (6)特別なツールの必要ケース→ 技術的な問題 (7)著作権処理 →利用形態の問題 続いて、5、大から小までさまざまな階層の情報資源が含まれているので、目録作成上どう対応するかという問題があります。6、利用に特別なツールが必要となる場合があり、利用のための技術的な問題があること。7、著作権関係の処理が複雑な場合が多く、そういった利用形態上の対応も必要となります。
3-4.問題点の対応策 ・選択機能の問題 → 選択基準の構築 ・協力体制の問題 → 多様な協力体制確立 ・監視機能の問題 → 監視機能の開発 ・選択機能の問題 → 選択基準の構築 ・協力体制の問題 → 多様な協力体制確立 ・監視機能の問題 → 監視機能の開発 ・目録上の問題 → 目録原理の構築 ・技術的な問題 → ツールの組み込み ・利用形態の問題 → 著作権処理など これらの問題点に対して、次のような対応策を検討したいと思います。まず、選択機能の問題では情報内容の、主題や品質による選択基準の構築が必要であります。次に、協力体制の問題では、サブジェクト・ゲートウェイ間(サブジェクトゲートウェイについては後で述べますが)の横断検索や情報資源組織化などの協力体制の確立が必要であります。次に、監視機能の問題はURLのリンク切れなどの監視機能の開発が必要であります。次に、目録上の問題は、ネットワーク情報資源に対応した目録原理の構築が望まれます。技術的な問題では、記録内容にあったツールがないと利用できない場合がある訳ですが、そういったツール組み込み等を行う必要があります。最後に、利用形態の問題は子供を対象と考えた場合の、フィルタ機能や著作権処理などの問題です。前者にはPICSの例がありますが、後者は簡単には解決できない問題と思われます。
4.サブジェクト・ゲートウェイにおける情報資源の選択、目録等の過程 4-1.サブジェクト・ゲートウェイとは ・主題索引を施され、特に分類によって体系的 な検索が可能な、情報資源発見を支援する インターネットサービス 以上のようなネットワーク情報資源を組織化する現実の仕組みとして、サブジェクトゲートウェイとよばれるものがあります。これは必ずしも図書館の世界だけとはかぎりませんが、おおむね図書館界を中心に実践されているものです。特に欧米では多数の実施例があり、多くの図書館が協力して組織的に行われています。種々のサブジェクトゲートウェイの実践活動を調査しましたが、それらをもとに、サブジェクトゲートウェイにおける情報資源の現実の組織化過程を考えてみたいと思います。 まず、サブジェクト・ゲートウェイという表現で、サブジェクトとは何かということになりますが、コッホの定義が最も信頼がおけそうです。文献2によりますと、「特定主題分野のゲートウェイ」ではなく、「主題索引を施された、とりわけ分類によって体系的な検索が行えるゲートウェイ」という意味合いになります。ほかにインフォメーションゲートウェイという表現もありますが、これは私たちとしては、サブジェクトゲートウェイよりもっと広い意味合いだと解釈しています。(なおquality controlled subject gatewayという、さらに高品質の情報資源に絞り込んだ組織化システムを表すことばもあります)。まとめますと、サブジェクトゲートウェイとは、主題によって高品質な情報資源の発見が行えるようなインターネットサービス、といえましょう。
4-2.ネットワーク情報資源の選択的収集 選択基準 (1)内容 的確なタイトル、概要、目的、想定される読者 などの情報の提供 (1)内容 的確なタイトル、概要、目的、想定される読者 などの情報の提供 (2)著者の信頼性 情報資源に責任を持つ著者の特定 (3)情報の鮮度 情報資源は更新される性質のものか 最終更新日付は示されているか (4)ナビゲーション 情報資源全体の構成は明確か (5)デザイン 情報資源は見た目にもわかり易いか では、情報資源収集にあたって、どのような選択基準で収集を行うのか。大まかには5点あげることができます。まず、内容には的確なタイトル、概要、目的、想定される読者などの情報の提供が行われているか。2、著者の信頼性。情報資源に責任を持つ著者が特定できるのかどうか。3、情報の鮮度である。情報資源は頻繁に更新される性質のものかどうか。最終更新日などが明確に示されているのかどうか。4、ナビゲーションについて、情報資源全体の構成は分かりやすいかどうか。リソースを構成するページ間の移動方法は分かりやすいかどうか。5、デザインについて、リソースは見た目にも分かり易いかどうかといった諸点です。
4-3.メタデータ・データベースの構築 (1)仕様の決定 A.ネットワーク情報資源の書誌記述方式 B.主題索引方式、典拠コントロール A.ネットワーク情報資源の書誌記述方式 B.主題索引方式、典拠コントロール C.データ収集法 D.データ選択基準の作成 E.データベースの検索インターフェースの設計 ゲートウェイ・サービスでは、情報資源を確実に把握し、的確な検索が行えるようにするため、メタデータを付与し、メタデータ・データベースの構築を行う必要があります。その構築に要する各種仕様決定について述べます。 Aとして、情報資源の書誌記述方式を決めることです。B、主題索引の方式や典拠コントロールの方法の決定です。C、データの収集方法です。コストを抜きにして人手による収集を行うのか、あるいは品質の問題はあるにせよソフトウエアによる収集行うのかなどを決定します。D、データの選択基準の作成です。これについては先ほど述べました。Eとして、メタデータ・データベースの検索インターフェースの設計を行うことが必要です。
(2)メタデータの属性 (3)メンテナンスの問題 A.記述的な側面 B.主題の側面 C.管理上の側面 A.記述的な側面 タイトル、サブタイトル、URI、著者、言語等 B.主題の側面 分類コード、件名標目、等 C.管理上の側面 資源保持者、最終更新日付、権利所有者等 (3)メンテナンスの問題 (2)メタデータの属性としては、次のようなものがあります(DESIREプロジェクトを参考にした)。まず記述的な側面として、情報資源の内容に関する項目が必要です。タイトル、代替タイトル、サブタイトル、URIなどです。次に、主題情報を表すデータとして、分類コード、分類システム、件名標目などです。次に、管理上の側面では、資源保持者、最終更新日付、目録作成者などです。 メタデータ・データベース構築後はメンテナンスが欠かせません。情報資源の更新状況の把握を行うこと、記述対象資源の内容のチェック、URIのリンク切れチェック、等です。メタデータは常に最新の状態に保つことが重要です。
5.情報資源組織化としてのメタデータ 5-1.メタデータとは何か ・データに関するデータ データに関する構造化されたデータ ・データに関するデータ データに関する構造化されたデータ ・メタデータの対象は事実上ディジタル情報資 源特にネットワーク情報資源に限定されて いるようである ここで情報資源組織化としてのメタデータについて検討します。メタデータの定義はさまざまに行われていますが、最も一般的には、「データに関するデータ」あるいは「データに関する構造化されたデータ」という定義となりましょう。しかし、メタデータの対象は事実上、ディジタル情報資源、特にネットワーク情報資源に限定されているようです。
5-2.メタデータの種類[1] (1)利用目的によって分ける方法 A.管理的なもの(administrative) B.記述的なもの(descriptive) C.保存的なもの(preservation) D.技術的なもの(technical) E.利用的なもの(use) 次に、メタデータの種類について述べます。利用目的によって分けると、A.管理的なもの:管理的な観点から必要なデータを扱うものであり、権利関係、アクセスへの法的な問題、等を中心にしたものです。B.記述的なもの:情報資源を特定するためのいわゆる書誌記述が中心であり、目録レコード、関連資源へのリンクなどを含みます。C.保存的なもの:情報資源を保存するために必要なデータを扱い、資源の物理的状態などを中心としたものです。D.技術的なもの:コンピュータ・システムが扱うために必要なデータを中心としたメタデータです。E.利用的なもの:実際に利用するための使用条件などを規定するメタデータです。現実のメタデータシステムは、例えば記述的なものを中心とし、他のものも従属的に含むようなものということになりますが、図書館界におけるメタデータはやはりCの記述的なものが基本だと思われます。
5-2.メタデータの種類[2] (2)データの複雑さ、構造化の程度によって分 ける方法 第1レベル 第2レベル 第3レベル (2)データの複雑さ、構造化の程度によって分 ける方法 第1レベル 第2レベル 第3レベル レコード 単純フォーマット 構造化フォーマット 高度なフォーマット 特性 独自 新興標準 国際標準 フルテキスト索引 フィールド構造 精緻なタグ付け 使用例 Lycos Dublin Core CIMI AltaVista IAFA template EAD Yahoo RFC 1807 TEI Header SOIF MARC 次はメタデータを、データの複雑さ、構造化の程度によって分ける方法です。3つのレベルで区分されます。それぞれ、単純なものから第1レベル、第2レベル、第3レベルと名付けます。第1レベルの特徴はレコード形式は単純フォーマットであり、特性として、独自形式で、フルテキストから索引を作成するというものです。使用例はLycosなどの検索エンジンですが、事実上構造化されておらず、最もプリミティブなメタデータでしかありません。第2レベルの特徴は、レコード形式は構造化フォーマットが用いられ、フィールド構造を備えており、使用例としてはダブリンコアなどがあります。第3レベルの特徴はレコード形式として高度なフォーマットが用いられ、精緻なタグ付け等が行われるもので、使用例としてはMARCやTEIヘッダがあります。 図書館界で、ネットワーク情報資源の目録をとるときに使われることの多いダブリンコアですが、第2レベルという位置付けになると思われます。また、われわれが日常用いている目録はMARC形式ですが、これはダブリンコアなどよりはるかに詳しく、かつ精密に構造化されており、美術館におけるCIMI、文書館におけるEADなどとともに、第3レベルに属するとみなされます。
5-4.図書館界に相応しいメタデータ (1)基本的には、DLO(Document -Like Object) 文書的情報資源が中心 文書的情報資源が中心 ダブリンコアが事実上の標準仕様になりつつありますが、図書館界において対象とする主たる情報資源と、それにふさわしいメタデータは何かを考えます。まず1点目ですが、扱う対象は基本的にドキュメント類似のオブジェクト(DLO)、つまり文書的情報資源が中心であると考えられます。もっともテキスト情報以外にも、画像情報、音声情報も当然扱われますが、それらの記述内容は文書情報の延長上にあると考えられます。
(2)従来の目録規則では何が困るのか (3)なぜダブリンコアか A.ファイル形式などディジタル情報特有の情報を、 適切に記述できない A.ファイル形式などディジタル情報特有の情報を、 適切に記述できない B.著作権処理などの管理データを表す適切な記述 要素がない C.データ要素の不安定さへの対応が不十分 D.タイトルや著者などが把握しにくいケースが多い E.物的な側面を表す必要がない、あるいは表現でき ないことが多い (3)なぜダブリンコアか 次に、(2)従来の目録規則では何が困るのかという問題です。記述要素の問題として、A.ファイル形式などディジタル情報特有の技術的情報は、NCR、ISBD、AACR2では、最近の改訂でそれぞれ記述する場所は設けていますが、昨年の発表で述べましたように、それはメディアの構造を分析した結果としての適切な記述方法ではありません。 次にB.著作権処理などの管理データを表現する適切な記述位置がありません。C.データ要素が不安定であり、不安定さをうまく表現できない点があります。従来からルーズリーフといった資料などで不安定さがあったわけですが、目録規則が処理を避けてきた点であります。これもISBDやAACR2では、最新版では逐次刊行物の規則を拡張することによって対応していますが、やはり昨年の発表で批判したように、論理性が薄弱です。D.タイトルや著者など従来の資料では把握しやすかった記述要素が、把握しにくいケースが多くなっていることです。従来からそういうケースはあり、処理は大変ではありますが、ネットワーク情報資源にとっての本質的な問題ではないと考えられます。Eとしては、例えば形態的記述や出版・頒布エリアなどですが、物的な側面を表す必要がない、あるいは表現できないことが多く、その関係の要素を表すのが困難であることです。この点はネットワーク情報資源に特有な最も大きな問題であります。これについても最新の規則では、例えばISBD(CR)で対応が一応行われていますが、昨年発表したように論理的に不十分です。 (3)なぜダブリンコアなのかです。以上のように昨年あたりから、上記問題点への対応が一応行われてきてはいますが、それらは結局場当たり的な対応に過ぎませんでした。また1~2年前までは場当たり的な対応すら困難でありました。そういう状況のもと、数年前本格的に始まったサブジェクトゲートウェイでは、とりあえずダブリンコアが採用されたということでしょう。ダブリンコアがメディアの構造分析をしっかり行っているという理由ではなく、それがまるでおおざっぱなものであるがゆえに、苦労せずにすむという消極的な理由からであったと思われます。
(4)今後どうあるべきか A.データ要素の不安定さを適切に処理する 仕組みが必要 B.物と、内容としての側面を切り分けること 仕組みが必要 B.物と、内容としての側面を切り分けること により、両者を分離し、記述する枠組みを 作る C.作業性を考慮し、必須データ要素、オプショ ン要素といったランク付けを行う 以上の考察の結果、今後どうあるべきかを述べます。A.データ要素の不安定さを適切に処理する仕組みが必要です。B.物としての側面と、内容としての側面を切り分けることにより、両者を分離して記述する枠組みを作る必要です。C.作業性を考慮して、必須データ要素、オプション要素、といったランク付けを行うことも必要でありましょう。 こういった方法で従来のMARCをより論理的な構造に変更し、また実務的側面を補うことにより、MARC形式でも十分に記述が可能になると考えられます。 図書館界においては、先ほども述べましたように、所蔵資料とネットワーク情報資源とをシームレスに検索・アクセスできなければならないとしましたが、そのためにも両者の目録基盤は共通でなければなりません。改良されたMARC形式を基本的に双方で使用すべきだと考えます。
5-5.他のコミュニティとの連携を行うためのメタデータの条件 (1)各コミュニティにおけるメタデータの相違 コミュニティ 主として用いられるメタデータ 図書館 MARC 文書館 EAD 博物館・美術館 CIMI 次に、他のコミュニティとの連携という観点を考慮して、コミュニティ内、コミュニティ間という2つの局面でのメタデータの条件について考えます。コミュニティ間連携の例として、図書館、文書館、博物館・美術館をあげています。コミュニティ内部で主として用いられるメタデータは、図書館ではMARCです。文書館ではEADが用いられています。文書館でも文書情報が中心ですが、オリジナルな資料そのものを扱い、しかも資料群としての来歴情報などを重視するという違いがありこういった諸点に対応するものとなっています。次に、博物館・美術館ではCIMIが用いられています。ここでは文書情報以外に3次元資料や画像情報など多様な形式を扱い、かつオリジナル資料を扱うという特色があります。
(2)コミュニティ内部および相互流通のためのメタデータ コミュニティ内部 → 詳細な第3レベル コミュニティ間 → 簡略な第2レベル このように考えますと、現在図書館界における一般的な対応として、所蔵資料に対してはMARCを用い、ネットワーク情報資源に対してはダブリンコアを用いるという方向ではなく、コミュニティ内部ではそれぞれの領域特有の高度な記述内容が求められるために、詳細な第3レベルを用い、コミュニティ間における情報流通のためには、大雑把な自由記述形式であるダブリンコアのような第2レベルを用い、第2レベルにおいて各フォーマット間の差異を吸収していくという方向性が望ましいと考えられます。
5-6.目録対象の階層把握と記述対象 目録対象となる階層レベル(粒度の問題) ・どのレベルで情報を記述するのか ・どのレベルで情報を記述するのか Webサイト全体、個々のファイル、 個々の文書、文書中の章や節 など 論理的階層と物理的階層を区別して把握 階層構造の柔軟な表現 次に、目録対象の階層構造と記述対象について述べます。階層的な観点から目録対象は何か。階層を扱う用語として粒度(granularity)という言葉がよく用いられますが、情報の単位をどのレベルで記述するのかという問題です。Webサイト全体なのか、ページ単位なのか、個々のファイルなのか、といったことです。例えばNCRでしたら、内容的な階層のうち物的な1点という単位(単行単位)を中心に据えましたが、ネットワーク情報資源の場合、単行単位は設定しにくいし、設定する必要もないということです。現実的にも、どの階層まで把握するかは、個々の目録作成館の方針次第ということになりましょう。 ここで重要なことは、扱う情報単位の論理的階層把握と物理的階層把握について、分離して考えないといけないということです。例えば、あるサイトにおける大きな文書の中の一部分が他のサーバに収められているということは十分にありうることですが、このような場合、両者に内容的・論理的な階層関係はあるが、物理的な階層関係は存在しないということになります。ネットワーク情報資源といえども物理的な把握が必要な場合もあるわけですが、内容的な階層関係と物理的な階層関係とを別個に表現でき、かつそれらの関係性を柔軟に表現できる記述の構造が必要だといえましょう。
6.まとめ 6-1.情報資源の選択 6-2.所蔵資料とネットワーク情報資源の一 体的な検索・提供 6-2.所蔵資料とネットワーク情報資源の一 体的な検索・提供 6-3.協同目録作業、サブジェクトゲート ウェイ同士の連携の必要性 6-4.メタデータに求められる要件 以上のべてきましたが、まとめとして、ネットワーク情報資源の組織化においては、1.個々の図書館あるいは図書官軍の利用状況に応じた選択基準に基づいて選択を行うことが重要です。2.所蔵資料とネットワーク情報資源を、一元的に検索・提供することが望まれます。3.情報資源の多様性や膨大な量的問題を考え、図書館同士が協同して目録を作成する必要性があり、さらにサブジェクトゲートウェイ同士の連携も必要となりましょう。4.メタデータの条件としては、コミュニティ内部における詳細なフォーマット、およびコミュニティ間のデータ相互流通のための粗いフォーマット、という2段階に分けたメタデータ構造が必要となるのではないでしょうか。
略語一覧 ダブリンコア Dublin Core Metadata Element Set TEI Text Encoding Initiative EAD Encoded Archival Description CIMI Consortium for the Computer Interchange of Museum Information (現在はCIMIが正式名称)