セマンティクスを利用した 図書検索システム J0018 曽田晋太郎 越田研究室
1. 研究の背景 図書検索が必要になる機会は多い 資料検索など 松江高専の図書検索は使いにくい 改善されたシステムの開発が必要
2. 問題点と解決手法 人名での検索が困難である 本の内容からの検索が弱い 関連した図書のまとまりがない
①人名表記 問題点 一つの人名には複数の表記があり、人名から検索するのは難しい 区切り文字、言語、姓が先か?名が先か? 例 ①人名表記 問題点 一つの人名には複数の表記があり、人名から検索するのは難しい 区切り文字、言語、姓が先か?名が先か? 例 Agatha Christie アガサ・クリスティ アガサ=クリスティー 表記の揺れを校正する必要 抜本的な解決方法はない
①人名表記 解決手法 漸進的な解決方法 アガサ・クリスティ アガサ クリスティ 区切り文字で分割 AND検索 別々に検索してANDをとる
②キーワード検索 問題点 「このような内容の本」という検索がしたい 分類やキーワードといった情報が必要 ②キーワード検索 問題点 「このような内容の本」という検索がしたい 分類やキーワードといった情報が必要 システムの運営者が入力する必要 図書館の規模や職員の能力に依存 既存の大規模なデータベースが利用できないか?
②キーワード検索 解決手法 Amazon E-Commerce Service(ECS) ②キーワード検索 解決手法 Amazon E-Commerce Service(ECS) Amazon.comが提供するオンラインショッピングのためのWeb Service 商品タイトルは数千万以上 書籍の検索サービスとしても利用可能 検索結果はXMLとして出力される 本システムの要求に合致
③書籍の関連情報 問題点 解決手法 同じシリーズの本が検索結果にバラバラに 現れると見にくい シリーズなどの関連情報を考慮する必要 同じシリーズの本が検索結果にバラバラに 現れると見にくい シリーズなどの関連情報を考慮する必要 解決手法 データベースにその情報を持たせる
3. 技術的課題 データモデル 例えば RDFモデルを本システムで採用 データの概念的な表現 データをどのような構造として捉えたか リレーショナルモデル XMLモデル オブジェクト指向モデル RDFモデル RDFモデルを本システムで採用
RDFとは RDF(Resource Description Framework) データを意味(semantics)に基づいて記述 主語、述語、目的語の三つ組み(トリプル)が データ記述の単位 述語 主語 目的語 リソース プロパティ リソース or リテラル
RDFの優位点 リレー ショナル XML オブジェクト指向 RDF 汎用性 ○ △ × 分散性 拡張性 問い合わせ言語の標準化 (SQL) (XQuery) (SPARQL)
RDFの本システムへの適用 著者名 本 タイトル ISBN 本のコレクション (シリーズなど) 出版日
検索画面 人名と キーワードで別々の検索 追加機能
検索結果 人名「 J.K ローリング」 人名「j.k.rowling」 同一の検索結果
おわりに 研究の成果 今後の課題 代表的な問題点に対して解決策が示せた RDFの柔軟性を持ったデータベースの開発 が可能であるとわかった 人名表記の校正アルゴリズムの改善 ボトルネックの解消 評価実験の実施