ISO23950による分散検索の課題と その解決案に関する検討 (株)トロピカルテクノセンター 情報開発部 贄 良則 平良 洋樹
本発表の流れ ISO23950検索の仕組み ISO23950が抱える問題点 クリアリングハウスノード連携案の紹介 メタデータ複製型の考察 階層配置型 ノード情報型 メタデータ複製型 メタデータ複製型の考察 まとめ
ISO23950の仕組み(1) ISO23950 Client (Origin) ISO23950 Server (Target) ステートフルなプロトコル 同時に複数のTargetを指定可能 マシンアーキテクチャに非依存
ISO23950の仕組み(2) WWW Browser ISO23950 Gateway ISO23950 Server WWWとISO23950との連携にGatewayを用いる Gatewayによる同報検索
分散検索への取り組み ISO23950 Gateway の問題点 WWW Browser ISO23950 Gateway ISO23950 Server 利用者が自らの判断で検索対象ノードを指定しなければならない。 48ノード ・・・ 38 秒 94ノード ・・・ 138 秒 205ノード ・・・ 216 秒
分散検索への取り組み 国土交通省国土地理院ゲートウェイの例 利用者が自ら 選択する必要が ある。
ISO23950クリアリングハウスへの補完 ノード連携による解決手法の模索 利用者は複数のクリアリングハウスノードの存在を意識せずに検索したい。 ISO23950の補完 ノード同士で事前に連携させることで解決できないか? ノード連携手法の検討 ディレクトリ型 ノード情報型 メタデータ複製型
ノード連携手法の模索 検討:ディレクトリ型 長所: (1)階層構造は直感的にわかりやすい。 日本 短所: (1)最初に階層構造の定義が必要。 (2)検索の転送回数に比例して検索 レスポンスが劣化する。 (3)階層構造維持のための管理業務 が発生する。 (4)階層構造以外での検索指定では、 逆に非効率になる。 (5)どのノードが管理すべきかが不明瞭 なデータが発生した場合、仲裁が 必要となる。 茨城 富山 沖縄 那覇 浦添 名護 地域ディレクトリの例
長所: 短所: (1)インデックスを共有すれば、どの メタデータ ノードに問い合わせても、そのノード 内で完結して処理できるため、高速 ノード連携手法の模索 検討:ノード情報型 長所: (1)インデックスを共有すれば、どの ノードに問い合わせても、そのノード 内で完結して処理できるため、高速 である。 メタデータ 検索用 インデックス を用意 ノード 短所: (1)インデックス共有のための標準的 な手法が存在しない。 (2)何をインデックスとするかを決める ことが難しい。 ノード ノード インデックスを共有
ノード連携手法の模索 検討:メタデータ複製型 長所: (1)メタデータを共有すれば、どの ノードに問い合わせても、そのノード 内で完結して処理できるため高速。 (2)各ノードでデータの複製を保持する ため、障害に強い。 ノード メタデータ ノード ノード 短所: (1)メタデータ共有のための標準的 な手法が存在しない。 (2)各ノードが用意すべきディスク容量 が多めに必要である。 (3)メタデータの著作権問題。 (4)複製タイムラグの問題。 メタデータ メタデータそのものを共有
メタデータ共有のための標準的手法の確立 各ノードが自律的に動作するアルゴリズムを提案する。 メタデータ複製型 問題点と対応策(1) メタデータ共有のための標準的手法の確立 各ノードが自律的に動作するアルゴリズムを提案する。 ノードの追加、削除も自動化する。(管理者の負担軽減) ノードが追加されると自動的にメタデータの複製が開始される。 各ノードは、複製されたデータのオリジナルノードがどこかを知っている。
複製データを格納するディスク容量の問題 個々のメタデータのサイズは非常に小さい。 容量の試算 ハードディスクの大容量化の進展。 メタデータ複製型 問題点と対応策(2) 複製データを格納するディスク容量の問題 個々のメタデータのサイズは非常に小さい。 10kbyte/1メタデータ程度 容量の試算 総メタデータ数10000 … 100Mbyte 総メタデータ数100000 … 1Gbyte 総メタデータ数1000000 … 10Gbyte ハードディスクの大容量化の進展。 60GByte の HDD が 3 万円以下
メタデータの著作権問題 メタデータの著作権 電子署名の適用による解決が可能 基本的に公開されるべきデータ。 メタデータ複製型 問題点と対応策(3) メタデータの著作権問題 メタデータの著作権 基本的に公開されるべきデータ。 どの組織が作成したかがわかればよい。 改変されることは好ましくない。 電子署名の適用による解決が可能 電子署名 により、改変されていないかどうかを調べることが可能になる。
メタデータ複製型 補足:電子署名 署名 署名されたメタデータ 第三者認証機関 (CA) 作成したメタデータ 作成したメタデータ この文書は作成元によって署名されています。 署名 このメタデータは作成元の署名がついているから安心して利用できます。 クリアリングハウスで公開 作成元の秘密鍵 利用者 公開鍵
複製タイムラグの問題 更新が頻繁に起こる場合、常に最新のメタデータを持つことが難しい。 メタデータ複製型 問題点と対応策(4) 複製タイムラグの問題 更新が頻繁に起こる場合、常に最新のメタデータを持つことが難しい。 地理情報メタデータの場合、日々更新されるような性質のデータではない。 複製された過去のデータであっても、検索できないよりは検索できた方が良いという解釈もある。 更新頻度とノード数をパラメータとした、最新状態率をシミュレーションにより測定中。
メタデータ複製型 ISO23950システムとの連携(1) 各クリアリングハウスノードがそれぞれ検索インターフェースを提供する場合。 どのノードに問い合わせても結果が返る。 検索結果の情報をベースに、(メタデータを作成した)オリジナルのノードに対して直接、検索をかける場合には ISO23950 を使うことが可能。
メタデータ複製型 ISO23950システムとの連携(2) 一つの(あるいはいくつかの代表的な)クリアリングハウスゲートウェイが検索機能を提供する場合。 メタデータの(中央のゲートウェイへの)自動収集システムとして有効に活用できる。 ゲートウェイ同士の情報交換としての利用も可能。
まとめ ISO23950の問題点の明確化 分散連携方式の検討 利用者は複数のクリアリングハウスノードの存在を意識しなくとも、検索を行える仕組みが必要。 分散連携方式の検討 階層型、ノード情報型、メタデータ複製型の検討 メタデータ複製型の課題と解決案 複製アルゴリズムの共通化が必要 データ容量に関する検討 著作権に関する検討 タイムラグに関する検討