1 情報検索演習 第 3 回 2005 年 10 月 12 日 後期 水曜 5 限 江草由佳 国立教育政策研究所 前から 4 列目までに着席すること
2 前回のまとめ 講義内容 – レコードと検索フィールド – 情報検索の理論 論理演算子( AND,OR,NOT ) 位置演算子(隣接演算子、近接演算子) トランケーション(前方一致、後方一致、中間任意、中間一 致) – データベースのファイル構成 インバーテッド・ファイル ストップワード シーケンシャル・ファイル – 情報検索結果の評価 検索漏れ、ノイズ 再現率 精度
3 本日のお品書き 前回の資料の訂正・補足 講義 – データベースの定義 – データベースの歴史 – データベースの種類(分類) – データベースの構築 – データベースの流通
4 前回の資料の訂正 スライド 8 誤: Aという検索語を持つ情報の集合と 正: Aという検索語を持つ情報の集合から スライド 12 誤: 表 1-1 正: 1-1 表 誤: 丁度 正: ちょうど スライド 20 誤: 再現率: 10/100×10 =10% 正: 再現率: 10/100×100 =10%
5 前回の資料補足: データベースのファイル構成 (1) –p.29 インバーテッドファイル( inverted file ) –p.29 – 転置ファイル、倒置ファイルとも呼ばれる – レコード毎に蓄積されたデータを、検索語を基準に して並べなおしたファイル – レコード番号、検索フィールドおよび検索フィール ドの何番目かを示す番号、および検索語の件数が明 記される – 図 1-9 データベースファイルの構成 –p.30 ストップワード – レコード中での出現頻度は高いが、検索上あまり重 要でないため、検索対象から除外した語
6 前回の資料補足: データベースのファイル構成 (2) –p.29 シーケンシャル・ファイル (sequential file) –p.31 – シリアル・ファイル、順次編成ファイル、 線形ファイル、リニアファイルなどとも呼 ばれる – レコード毎に蓄積されたデータ – 検索結果の出力や一度検索した結果を対象 に絞込み検索するときに用いられる
7 データベースの定義 著作権法 2 条十の三 –p.35 – データベース 論文、数値、図形その他の情報の集 合物であって、それらの情報を電子計算機を用いて 検索することができるように体系的に構成したもの 日本工業規格 (JIS) –p.35 – 適用業務分野で使用するデータの集まりであって、 データの特性とそれに対応する実態の間の関係とを 記述した概念的な構造によって編成されたもの (X0017) – 特定の規則に従って電子的な形式で、一か所に蓄積 されたデータの集合であって、コンピュータでアク セス可能なもの (X0807) データベース白書 2003 –p.35 – 相互に関連のあるデータの集まり。複数のユーザが 種々の目的で利用できるよう、検索や更新の効率化 が図られたもの。一般的には情報を統合し、コン ピュータ処理が可能なファイルの形で蓄積する。
8 データベースの歴史 表 7.1 データベース発展の歴史 – 配布資料( B4 の紙)
9 データベースの種類(分類) (1) 図 7.1 データベースの分類 – 配布資料( B4 の紙) 1) 形態別分類 –p.39 – データの形態に注目して分類 – 図 7.1: データの形態別分類を参照 2) 分野別分類 –p.39 – データベースを扱っている主題分野によって 分類 – 一般、自然科学・技術、社会・人文科学、ビ ジネス、その他 配布資料( B4 )図 7.1 参照
10 データベースの種類(分類) (2) 3) 提供形態別分類 –39p. – オンライン 遠隔地にあるWWW上のデータベースを手元のコ ンピュータからネットワークを介して利用するも の – オフライン(スタンドアロン) 手元のコンピュータのみで利用できるもの。 CD- ROM や DVD などで提供されるパッケージ型のデー タベースなど。 配布資料( B4 )図 7.1 参照
11 4) 用途別分類 —p.39 – データベースの用途に応じて分類 – 商用データベース 誰でも利用できるが、課金される – インハウス・データベース 機関内で構築され、利用に制限があるもの 社内、業界、学術にさらに分類される – パーソナルデータベース 個人が構築し、個人が利用するもの – オープン インターネット上に提供され、一部を除いて無料で広く一般 に開放されている データベースの種類(分類) (3) 配布資料( B4 )図 7.1 参照
12 データベースの種類(分類) (4) 5) 更新頻度別分類 – データベースの更新頻度で分類 – イミディエート 時々刻々と変化更新されるもの 株価情報や気象情報などを扱ったデータベース – ヒストリカル 一か月、3ヶ月などある程度まとまって更新され るもの 書誌データベースなど 配布資料( B4 )図 7.1 参照
13 データベースの種類(分類) (5) 6) 利用料金別分類 – 利用料金の有無により分類 – 有料 商用のデータベース – 無料 商用のデータベースであっても、図書館が一括し て契約し、利用者自身には料金がかからないもの はこちらにあてはまる インハウスデータベースもこれに該当する場合が ある – 機関内であれば無料だが、他者が利用する場合は課金さ れるなど 無料のデータベース 配布資料( B4 )図 7.1 参照
14 データベースの種類(分類) (6) まとめ データベースの種類(分類) – 形態別分類 – 提供形態別分類 – 分野別分類 – 用途別分類 – 更新頻度別分類 – 利用料金別分類 配布資料( B4 )図 7.1 参照
15 データベースの構築 –p.41 構築方法 → 文献データベース or それ以 外 文献データベース 1. 書誌事項確定(文献情報源を識別可に) 2. 主題分析 抄録作成、索引作成 件名標目、分類付与に必要な中心主題を抽出 – データベース利用者の質問後形成と検索に大きな影響をあ たえる – システムごとに詳細なマニュアルが用意される
16 商用データベースの流通 (1) 商用データベースを概観できる資料 —39p. – データベース白書 – データベース台帳総覧 1982 年(昭和 57 ) 9 月に創設された制度に基づい て、 データベースサービス企業の申告により作成され るもの データベースの分野別の概要、利用方法などを記 載 データベースのライフサイクル —40p. – 収集・選択・加工(組織化)・蓄積・検索・ 利用 配布資料( B4 )図 7.5 参照
17 商用データベースの流通 (2) データベース作成機関 —40p – プロデューサー、プロバイダーと呼ばれる – データベース作成者(機関)のこと – 文献データベースの場合は情報源収集から検 索語を付与し蓄積するまでを行う – インテグレーデッド・プロデューサー 作成からオンライン情報サービスによる提供まで 行うもの 例:科学技術振興機構 –JSTPlus を作成し –JOIS で提供している 配布資料( B4 )図 7.5 参照
18 商用データベースの流通 (3) データベース提供機関 –40p. – ディストリビュータ、ベンダーと呼ばれる – データベース作成機関から委託されたデータ を、自社のコンピュータによってサービスを 提供する機関 配布資料( B4 )図 7.5 参照
19 商用データベースの流通 (4) 代理店( agent ) –40p. – プロデューサの著作権事務の代行 – ディストリビュータの営業事務の代理を行う – 具体的には 情報検索の講習会 新規データベースの案内 検索マニュアルの日本語化 配布資料( B4 )図 7.5 参照
20 商用データベースの流通 (5) 検索代行業 (information broker) –40p – インフォメーション・ブローカーと呼ばれる – 利用者に代わってデータベースを検索し、結 果を利用者に提供する機関 – 形態はさまざま データベース販売代理店が行うなど – 企業や情報センターなどではサーチャー(検 索技術者)が検索を行い、検索結果の評価、 分析、報告書作成などを代行する 配布資料( B4 )図 7.5 参照
21 商用データベースの流通 (6) まとめ データベース作成機関 – プロデューサー、プロバイダー データベース提供機関 – ディストリビューター、ベンダー 代理店 検索代行業 – インフォメーション・ブローカー 配布資料( B4 )図 7.5 参照
22 本日のまとめ データベースの定義 – 著作権法、JIS、データベース白書 データベースの歴史 データベースの種類(分類) – 形態別、提供形態別、分野別、用途別、更新頻度別、 利用料金別 データベースの構築 データベースの流通 – データベース作成機関(プロデューサー、プロバイ ダー)、データベース提供機関(ディストリビュー ター、ベンダー)、代理店、検索代行業(インフォ メーション・ブローカー) 配布資料( B4 )図 7.5 参照 配布資料( B4 )図 7.1 参照 配布資料( B4 )表 7.1 参照
23 第 1 回レポート課題 今日までの 3 回の講義を 1 枚( A4 )にまとめ 17:45 までに提出 – 時間内にできるかぎりでかまわない – 手書きでもかまわない 以下の項目をレポートの冒頭に付けること – レポートのタイトル : 第 1 回レポート課題 – 授業名 : 情報検索演習 – 提出した日付 – 学籍番号 – 氏名 今までの資料