知識情報演習Ⅲ(後半第1回) 辻 慶太(水) http://slis.sakura.ne.jp/cje3
後半5回の目的と予定 簡単な情報検索システムをプログラミングによって自分の手で作る 大まかな予定 情報検索を通してプログラミングについて学ぶ プログラミングを通して情報検索について学ぶ 大まかな予定 第1回: 全体説明,情報検索の概要,Perl入門 第2回: Perlプログラミング 第3回: 索引付けの概要,プログラミング 第4回: 索引付けプログラミングの続き 第5回: 検索システム完成,最終レポート
後半5回の目的と予定 簡単な情報検索システムをプログラミングによって自分の手で作る 大まかな予定 情報検索を通してプログラミングについて学ぶ プログラミングを通して情報検索について学ぶ 大まかな予定 第1回: 全体説明,情報検索の概要,Perl入門 第2回: Perlプログラミング 第3回: 索引付けの概要,プログラミング 第4回: 索引付けプログラミングの続き 第5回: 検索システム完成,最終レポート
後半5回の目的と予定 簡単な情報検索システムをプログラミングによって自分の手で作る 大まかな予定 情報検索を通してプログラミングについて学ぶ プログラミングを通して情報検索について学ぶ 大まかな予定 第1回: 全体説明,情報検索の概要,Perl入門 第2回: Perlプログラミング 第3回: 索引付けの概要,プログラミング 第4回: 索引付けプログラミングの続き 第5回: 検索システム完成,最終レポート
後半5回の目的と予定 簡単な情報検索システムをプログラミングによって自分の手で作る 大まかな予定 情報検索を通してプログラミングについて学ぶ プログラミングを通して情報検索について学ぶ 大まかな予定 第1回: 全体説明,情報検索の概要,Perl入門 第2回: Perlプログラミング 第3回: 索引付けの概要,プログラミング 第4回: 索引付けプログラミングの続き 第5回: 検索システム完成,最終レポート
後半5回の目的と予定 簡単な情報検索システムをプログラミングによって自分の手で作る 大まかな予定 情報検索を通してプログラミングについて学ぶ プログラミングを通して情報検索について学ぶ 大まかな予定 第1回: 全体説明,情報検索の概要,Perl入門 第2回: Perlプログラミング 第3回: 索引付けの概要,プログラミング 第4回: 索引付けプログラミングの続き 第5回: 検索システム完成,最終レポート
後半5回の目的と予定 簡単な情報検索システムをプログラミングによって自分の手で作る 大まかな予定 情報検索を通してプログラミングについて学ぶ プログラミングを通して情報検索について学ぶ 大まかな予定 第1回: 全体説明,情報検索の概要,Perl入門 第2回: Perlプログラミング 第3回: 索引付けの概要,プログラミング 第4回: 索引付けプログラミングの続き 第5回: 検索システム完成,最終レポート
後半5回の目的と予定 簡単な情報検索システムをプログラミングによって自分の手で作る 大まかな予定 情報検索を通してプログラミングについて学ぶ プログラミングを通して情報検索について学ぶ 大まかな予定 第1回: 全体説明,情報検索の概要,Perl入門 第2回: Perlプログラミング 第3回: 索引付けの概要,プログラミング 第4回: 索引付けプログラミングの続き 第5回: 検索システム完成,最終レポート
後半5回の目的と予定 簡単な情報検索システムをプログラミングによって自分の手で作る 大まかな予定 情報検索を通してプログラミングについて学ぶ プログラミングを通して情報検索について学ぶ 大まかな予定 第1回: 全体説明,情報検索の概要,Perl入門 第2回: Perlプログラミング 第3回: 索引付けの概要,プログラミング 第4回: 索引付けプログラミングの続き 第5回: 検索システム完成,最終レポート
後半5回の目的と予定 簡単な情報検索システムをプログラミングによって自分の手で作る 大まかな予定 情報検索を通してプログラミングについて学ぶ プログラミングを通して情報検索について学ぶ 大まかな予定 第1回: 全体説明,情報検索の概要,Perl入門 第2回: Perlプログラミング 第3回: 索引付けの概要,プログラミング 第4回: 索引付けプログラミングの続き 第5回: 検索システム完成,最終レポート
後半5回の目的と予定 簡単な情報検索システムをプログラミングによって自分の手で作る 大まかな予定 情報検索を通してプログラミングについて学ぶ プログラミングを通して情報検索について学ぶ 大まかな予定 第1回: 全体説明,情報検索の概要,Perl入門 第2回: Perlプログラミング 第3回: 索引付けの概要,プログラミング 第4回: 索引付けプログラミングの続き 第5回: 検索システム完成,最終レポート
情報検索システムの世界観 検索 生産 支援 登録 情報の生産者 研究者,作家,記者など 情報の最終利用者 (エンドユーザ) 情報の登録者 DB登録者,分類者,索引作成者など 計算機上のシステム 検索エンジン,DB, インタフェースなど 生産 支援 登録 蓄積される情報 図書,雑誌,画像,音声など 人間の仲介者 代行検索者,図書館員など 生産者側の処理 利用者側の処理
情報検索システムの世界観 検索 生産 支援 登録 情報の生産者 研究者,作家,記者など 情報の最終利用者 (エンドユーザ) 情報の登録者 DB登録者,分類者,索引作成者など 計算機上のシステム 検索エンジン,DB, インタフェースなど 生産 支援 登録 蓄積される情報 図書,雑誌,画像,音声など 人間の仲介者 代行検索者,図書館員など 生産者側の処理 利用者側の処理
情報検索システムの世界観 検索 生産 支援 登録 情報の生産者 研究者,作家,記者など 情報の最終利用者 (エンドユーザ) 情報の登録者 DB登録者,分類者,索引作成者など 計算機上のシステム 検索エンジン,DB, インタフェースなど 生産 支援 登録 蓄積される情報 図書,雑誌,画像,音声など 人間の仲介者 代行検索者,図書館員など 生産者側の処理 利用者側の処理
情報検索システムの世界観 検索 生産 支援 登録 情報の生産者 研究者,作家,記者など 情報の最終利用者 (エンドユーザ) 情報の登録者 DB登録者,分類者,索引作成者など 計算機上のシステム 検索エンジン,DB, インタフェースなど 生産 支援 登録 蓄積される情報 図書,雑誌,画像,音声など 人間の仲介者 代行検索者,図書館員など 生産者側の処理 利用者側の処理
情報検索システムの世界観 検索 生産 支援 登録 情報の生産者 研究者,作家,記者など 情報の最終利用者 (エンドユーザ) 情報の登録者 DB登録者,分類者,索引作成者など 計算機上のシステム 検索エンジン,DB, インタフェースなど 生産 支援 登録 蓄積される情報 図書,雑誌,画像,音声など 人間の仲介者 代行検索者,図書館員など 生産者側の処理 利用者側の処理
情報検索システムの世界観 検索 生産 支援 登録 情報の生産者 研究者,作家,記者など 情報の最終利用者 (エンドユーザ) 情報の登録者 DB登録者,分類者,索引作成者など 計算機上のシステム 検索エンジン,DB, インタフェースなど 生産 支援 登録 蓄積される情報 図書,雑誌,画像,音声など 人間の仲介者 代行検索者,図書館員など 生産者側の処理 利用者側の処理
情報検索システムの世界観 検索 生産 支援 登録 情報の生産者 研究者,作家,記者など 情報の最終利用者 (エンドユーザ) 情報の登録者 DB登録者,分類者,索引作成者など 計算機上のシステム 検索エンジン,DB, インタフェースなど 生産 支援 登録 蓄積される情報 図書,雑誌,画像,音声など 人間の仲介者 代行検索者,図書館員など 生産者側の処理 利用者側の処理
情報検索システムの世界観 検索 生産 支援 登録 情報の生産者 研究者,作家,記者など 情報の最終利用者 (エンドユーザ) 情報の登録者 DB登録者,分類者,索引作成者など 計算機上のシステム 検索エンジン,DB, インタフェースなど 生産 支援 登録 蓄積される情報 図書,雑誌,画像,音声など 人間の仲介者 代行検索者,図書館員など 生産者側の処理 利用者側の処理
情報検索システムの世界観 検索 生産 支援 登録 情報の生産者 研究者,作家,記者など 情報の最終利用者 (エンドユーザ) 情報の登録者 DB登録者,分類者,索引作成者など 計算機上のシステム 検索エンジン,DB, インタフェースなど 生産 支援 登録 蓄積される情報 図書,雑誌,画像,音声など 人間の仲介者 代行検索者,図書館員など 生産者側の処理 利用者側の処理
情報検索システムの世界観 検索 生産 支援 登録 情報の生産者 研究者,作家,記者など 情報の最終利用者 (エンドユーザ) 情報の登録者 DB登録者,分類者,索引作成者など 計算機上のシステム 検索エンジン,DB, インタフェースなど 生産 支援 登録 蓄積される情報 図書,雑誌,画像,音声など 人間の仲介者 代行検索者,図書館員など 生産者側の処理 利用者側の処理
情報検索の基本モデル 情報 情報要求 文書 検索質問 索引付け 内部表現 内部表現 照合 狭義の情報検索
情報検索の基本モデル 情報 情報要求 文書 検索質問 索引付け 内部表現 内部表現 照合 狭義の情報検索
情報検索の基本モデル 情報 情報要求 文書 検索質問 索引付け 内部表現 内部表現 照合 狭義の情報検索
情報検索の基本モデル 情報 情報要求 文書 検索質問 索引付け 内部表現 内部表現 照合 狭義の情報検索
情報検索の基本モデル 情報 情報要求 文書 検索質問 索引付け 内部表現 内部表現 照合 狭義の情報検索
情報検索の基本モデル 情報 情報要求 文書 検索質問 索引付け 内部表現 内部表現 照合 狭義の情報検索
情報検索の基本モデル 情報 情報要求 文書 検索質問 索引付け 内部表現 内部表現 照合 狭義の情報検索
情報検索の基本モデル 情報 情報要求 文書 検索質問 索引付け 内部表現 内部表現 照合 狭義の情報検索
情報検索の基本モデル 情報 情報要求 解釈 文書 検索質問 索引付け 内部表現 内部表現 照合 狭義の情報検索
情報検索の基本モデル 情報 情報要求 解釈 文書 検索質問 索引付け 内部表現 内部表現 照合 狭義の情報検索
索引付けに用いる索引語の種類 複数の単位を併用することもある 単位 特定性 網羅性 文字(文字バイグラム) × ○ 単語 △ 句(フレーズ) 抽出誤りなし 形態素解析のために抽出誤りがある 複数の単位を併用することもある
索引付けに用いる索引語の種類 複数の単位を併用することもある 単位 特定性 網羅性 文字(文字バイグラム) × ○ 単語 △ 句(フレーズ) 抽出誤りなし 電子 / 子書 / 書籍 / 籍提 … 電子 / 書籍 / 提供 / サービス 形態素解析のために抽出誤りがある 電子書籍 / 提供サービス 複数の単位を併用することもある
索引付けに用いる索引語の種類 複数の単位を併用することもある 単位 特定性 網羅性 文字(文字バイグラム) × ○ 単語 △ 句(フレーズ) 抽出誤りなし 電子 / 子書 / 書籍 / 籍提 … 電子 / 書籍 / 提供 / サービス 形態素解析のために抽出誤りがある 電子書籍 / 提供サービス 複数の単位を併用することもある
索引付けに用いる索引語の種類 複数の単位を併用することもある 単位 特定性 網羅性 文字(文字バイグラム) × ○ 単語 △ 句(フレーズ) 抽出誤りなし 電子 / 子書 / 書籍 / 籍提 … 電子 / 書籍 / 提供 / サービス 形態素解析のために抽出誤りがある 電子書籍 / 提供サービス 複数の単位を併用することもある
索引付けに用いる索引語の種類 複数の単位を併用することもある 単位 特定性 網羅性 文字(文字バイグラム) × ○ 単語 △ 句(フレーズ) 抽出誤りなし 電子 / 子書 / 書籍 / 籍提 … 電子 / 書籍 / 提供 / サービス 形態素解析のために抽出誤りがある 電子書籍 / 提供サービス 複数の単位を併用することもある
索引付けに用いる索引語の種類 複数の単位を併用することもある 単位 特定性 網羅性 文字(文字バイグラム) × ○ 単語 △ 句(フレーズ) 抽出誤りなし 電子 / 子書 / 書籍 / 籍提 … 電子 / 書籍 / 提供 / サービス 形態素解析のために抽出誤りがある 電子書籍 / 提供サービス 複数の単位を併用することもある
索引付けに用いる索引語の種類 複数の単位を併用することもある 単位 特定性 網羅性 文字(文字バイグラム) × ○ 単語 △ 句(フレーズ) 抽出誤りなし 電子 / 子書 / 書籍 / 籍提 … 電子 / 書籍 / 提供 / サービス 形態素解析のために抽出誤りがある 電子書籍 / 提供サービス 複数の単位を併用することもある
索引付けに用いる索引語の種類 複数の単位を併用することもある 単位 特定性 網羅性 文字(文字バイグラム) × ○ 単語 △ 句(フレーズ) 抽出誤りなし 電子 / 子書 / 書籍 / 籍提 … 電子 / 書籍 / 提供 / サービス 形態素解析のために抽出誤りがある 電子書籍 / 提供サービス 複数の単位を併用することもある
形態素解析 自然言語文を入力とし,その文を構成する形態素(語)を特定する処理 日本語や中国語のように分かち書きをしない言語では重要 具体的には,以下の処理を行う 語分割 原形の特定 品詞付与 読み(仮名)の付与 それぞれの段階で誤りが生じ得る
形態素解析 自然言語文を入力とし,その文を構成する形態素(語)を特定する処理 日本語や中国語のように分かち書きをしない言語では重要 具体的には,以下の処理を行う 語分割 原形の特定 品詞付与 読み(仮名)の付与 それぞれの段階で誤りが生じ得る
形態素解析 自然言語文を入力とし,その文を構成する形態素(語)を特定する処理 日本語や中国語のように分かち書きをしない言語では重要 具体的には,以下の処理を行う 語分割 原形の特定 品詞付与 読み(仮名)の付与 それぞれの段階で誤りが生じ得る
形態素解析 自然言語文を入力とし,その文を構成する形態素(語)を特定する処理 日本語や中国語のように分かち書きをしない言語では重要 具体的には,以下の処理を行う 語分割 原形の特定 品詞付与 読み(仮名)の付与 それぞれの段階で誤りが生じ得る
形態素解析 自然言語文を入力とし,その文を構成する形態素(語)を特定する処理 日本語や中国語のように分かち書きをしない言語では重要 具体的には,以下の処理を行う 語分割 原形の特定 品詞付与 読み(仮名)の付与 それぞれの段階で誤りが生じ得る
索引語の良し悪しを決める要因 特定性 網羅性 ある文書を特定するために有効なキーであるか これが高い索引語を適切に使うと精度が高くなる 漏れなく検索できるようなキーであるか これが高い索引語を適切に使うと再現率が高くなる 極端な例: ある文書にしか出現しない語を索引語とする → 特定性は高く,網羅性は低い → 高精度,低再現率
索引語の良し悪しを決める要因 特定性 網羅性 ある文書を特定するために有効なキーであるか これが高い索引語を適切に使うと精度が高くなる 漏れなく検索できるようなキーであるか これが高い索引語を適切に使うと再現率が高くなる 極端な例: ある文書にしか出現しない語を索引語とする → 特定性は高く,網羅性は低い → 高精度,低再現率
索引語の良し悪しを決める要因 特定性 網羅性 ある文書を特定するために有効なキーであるか これが高い索引語を適切に使うと精度が高くなる 漏れなく検索できるようなキーであるか これが高い索引語を適切に使うと再現率が高くなる 極端な例: ある文書にしか出現しない語を索引語とする → 特定性は高く,網羅性は低い → 高精度,低再現率
索引語の良し悪しを決める要因 特定性 網羅性 ある文書を特定するために有効なキーであるか これが高い索引語を適切に使うと精度が高くなる 漏れなく検索できるようなキーであるか これが高い索引語を適切に使うと再現率が高くなる 極端な例: ある文書にしか出現しない語を索引語とする → 特定性は高く,網羅性は低い → 高精度,低再現率
索引語の良し悪しを決める要因 特定性 網羅性 ある文書を特定するために有効なキーであるか これが高い索引語を適切に使うと精度が高くなる 漏れなく検索できるようなキーであるか これが高い索引語を適切に使うと再現率が高くなる 極端な例: ある文書にしか出現しない語を索引語とする → 特定性は高く,網羅性は低い → 高精度,低再現率
索引語の良し悪しを決める要因 特定性 網羅性 ある文書を特定するために有効なキーであるか これが高い索引語を適切に使うと精度が高くなる 漏れなく検索できるようなキーであるか これが高い索引語を適切に使うと再現率が高くなる 極端な例: ある文書にしか出現しない語を索引語とする → 特定性は高く,網羅性は低い → 高精度,低再現率
索引語の良し悪しを決める要因 特定性 網羅性 ある文書を特定するために有効なキーであるか これが高い索引語を適切に使うと精度が高くなる 漏れなく検索できるようなキーであるか これが高い索引語を適切に使うと再現率が高くなる 極端な例: ある文書にしか出現しない語を索引語とする → 特定性は高く,網羅性は低い → 高精度,低再現率
索引語の良し悪しを決める要因 特定性 網羅性 ある文書を特定するために有効なキーであるか これが高い索引語を適切に使うと精度が高くなる 漏れなく検索できるようなキーであるか これが高い索引語を適切に使うと再現率が高くなる 極端な例: ある文書にしか出現しない語を索引語とする → 特定性は高く,網羅性は低い → 高精度,低再現率
索引語の良し悪しを決める要因 特定性 網羅性 ある文書を特定するために有効なキーであるか これが高い索引語を適切に使うと精度が高くなる 漏れなく検索できるようなキーであるか これが高い索引語を適切に使うと再現率が高くなる 極端な例: ある文書にしか出現しない語を索引語とする → 特定性は高く,網羅性は低い → 高精度,低再現率
索引語の良し悪しを決める要因 特定性 網羅性 ある文書を特定するために有効なキーであるか これが高い索引語を適切に使うと精度が高くなる 漏れなく検索できるようなキーであるか これが高い索引語を適切に使うと再現率が高くなる 極端な例: ある文書にしか出現しない語を索引語とする → 特定性は高く,網羅性は低い → 高精度,低再現率
索引語の良し悪しを決める要因 → 特定性と網羅性の両方を高める 索引付けや照合の手法が必要
索引語の種類 複数の単位を併用することもある 単位 特定性 網羅性 文字(文字バイグラム) × ○ 単語 △ 句(フレーズ) 抽出誤りなし 形態素解析のために抽出誤りがある 複数の単位を併用することもある
索引語の種類 複数の単位を併用することも有効 単位 特定性 網羅性 文字(文字バイグラム) × ○ 単語 △ 句(フレーズ) 形態素解析の 誤りによる抽出 誤りはない 形態素解析の誤りによる抽出誤りがある 複数の単位を併用することも有効
索引語の種類 複数の単位を併用することも有効 単位 特定性 網羅性 文字(文字バイグラム) × ○ 単語 △ 句(フレーズ) 形態素解析の 誤りによる抽出 誤りはない 形態素解析の誤りによる抽出誤りがある 複数の単位を併用することも有効
索引語の種類 複数の単位を併用することも有効 単位 特定性 網羅性 文字(文字バイグラム) × ○ 単語 △ 句(フレーズ) 形態素解析の 誤りによる抽出 誤りはない 形態素解析の誤りによる抽出誤りがある 複数の単位を併用することも有効
索引語の種類 複数の単位を併用することも有効 単位 特定性 網羅性 文字(文字バイグラム) × ○ 単語 △ 句(フレーズ) 形態素解析の 誤りによる抽出 誤りはない 形態素解析の誤りによる抽出誤りがある 複数の単位を併用することも有効
索引語の種類 複数の単位を併用することも有効 単位 特定性 網羅性 文字(文字バイグラム) × ○ 単語 △ 句(フレーズ) 形態素解析の 誤りによる抽出 誤りはない 形態素解析の誤りによる抽出誤りがある 複数の単位を併用することも有効
索引語の種類 複数の単位を併用することも有効 単位 特定性 網羅性 文字(文字バイグラム) × ○ 単語 △ 句(フレーズ) 形態素解析の 誤りによる抽出 誤りはない 形態素解析の誤りによる抽出誤りがある 複数の単位を併用することも有効
では,演習開始 必要なファイルは演習のホームページから取得できる 演習はLinuxにログインして行う まず,「演習を始める前の準備」の通りに実行する 次に,「Perl入門」を各自で読みながら演習する 資料には,Perlに関する最低限の内容が書かれている 不明な点や発展的な内容はインターネットを使って適宜調べるとよい 質問があれば遠慮なく担当者を呼ぶ Perlプログラムファイルの文字コードは「EUC-JP」にする それ以外の文字コードでは正しく動作しないことがある 本日の課題(Perl入門の例題10)が終了したら担当者を呼ぶ 課題ができたら本日の内容は終了 次回の分を進めても結構