メディア計算機工学特論 2003 年度 Webにおける情報・知識の探索と検索の事例を とおして、現代的知識ベースとその利用法を理解する。 メディア計算機工学特論 2003 年度 Webにおける情報・知識の探索と検索の事例を とおして、現代的知識ベースとその利用法を理解する。 そのための、要素技術としての、関係・演繹データベース,情報検索,データマイニングを学ぶ。
mh-lec@db-ei.eng.hokudai.ac.jp まで,氏名,学生番号,所属,学年をメールすること。 スケジュール: mh-lec@db-ei.eng.hokudai.ac.jp まで,氏名,学生番号,所属,学年をメールすること。 成績: レポートと試験。 出欠もとります。 イントロ(本日) 関係・演繹DBの復習 類似性検索システムの事例紹介 データマイニング
本日の内容: 情報検索・抽出を行う一つのシステム事例を用いて「データベース」を概観する Web ブラウザ: internet のHPを見るためのソフトウエア。 HTML : 多くのHPで採用されているページ記述言語。何をどう見せ るかを、この言語仕様に基づいて記述する。 閲覧者: HTMLで記述されたHPをブラウザで眺めている。 HTML文書検索: 閲覧するだけでなく、膨大なページから欲しい情報に アクセスする行為 Web マイニング: アクセスするだけでなく、アクセスした結果から有用 な知識を獲得する行為
情報抽出とデータベース HTML文書(Web ブラウザで見ているものの実体) 形式言語+自然言語+各種の references 講義項目: 情報の表現 HTML文書検索: (検索は情報処理の基本) 形態素解析…. 「自然言語」(語の集まりとしての言語感) HTML構文解析 ….. 形式言語理論 演繹データベース ….. データベースとマイニング KDD(知識発見) Web マイニング
システムの概要 類似度計算を用いたHTMLの情報抽出・検索システムの構築 W.Cohen氏のシステム“WHIRL” 基本的に文書を演繹データベースとみなし,演繹DBに対する質問処理過程が検索。
HTML文書 と ブラウザ ここでは特に、表やリストの構造に注目: 経験則: 重要なことは表・リストでまとめてあ る場合が多い。 <head> <title>映画リストSA</title> </head> <body> <table border=1> <tr><td>作品名<td>主な出演者・時間他<td>簡単ストーリー・コメント<td>勝手に評価満点6点 <tr><td>ザ・インターネット,THEINTERNET<td>サントラブロック,ジェノミーノーザム,1995年114分,<サスペンス><td>ひきこもり的な生活を送るコンピューターアナリストがインターネットを通じて政府の重要機密の場所にアクセスしてしまって全てを失った彼女は犯罪者に仕立てられて社会から終われる身になる,5年前の作品ですがあってもおかしくない話になってきました。<td>4点 <tr><td> …. <td> ….. </table> </body> </html> ここでは特に、表やリストの構造に注目: 経験則: 重要なことは表・リストでまとめてあ る場合が多い。
システム全体の流れ DB1 DB2 DB3 茶筅 HTML群 スコア順に 並べて ユーザに 出力 ユーザから の質問 類似度計算 ・ テーブルから データ抽出 DB1 DB2 HTML群 形態素解析 重要度計算 スコア順に 並べて ユーザに 出力 閾値以上の スコアを持つ データを出力 DB3 類似度計算 ・ 質問処理 ユーザから の質問
形態素解析 と 辞書 ひきこもり的な生活を送るコンピューターアナリストがインターネットを通じて政府の重要機密の場所にアクセスしてしまって全てを失った彼女は犯罪者に仕立てられて社会から終われる身になる,5年前の作品ですがあってもおかしくない話になってきました。 ひきこもる 的 生活 送る 形態素解析: 文を辞書見出し語として登録されている語に分解 する操作 接辞(接頭語、接尾語)、活用、複合語の処理などが必要で辞書 の情報量と語への分解戦略にも依存。
経験則 ひきこもる 的 生活 送る ( 10,……, 2,……, 1,…... ) 出現回数 経験則 TF: よく出現するものは、より重要 ひきこもる 的 生活 送る ( 10,……, 2,……, 1,…... ) 出現回数 経験則 TF: よく出現するものは、より重要 出現回数(頻度)の大小でわかる。 経験則 IDF: 他の文書に出現しにくいものは、そ の文献に固有であるがゆえに、重要である。 文献集合としてどのようなものを考えているか にも依存する。
重要度計算について TF: text中の語tの頻度(出現回数) IDF: 全ての text 数 語tが含まれている text 数 短いテキストでは は 0 か 1 情報量 重要度: 語 t が含まれている場合、その情報量
テキストベクトルの類似性 テキストベクトル: 語の重要度のベクトル text1:ひきこもり的な生活を送る …… ベクトルの挟み角で、texts 間の 類似性を計測する。 「text1 ~ text2」 text2 : 退屈な日常的生活に疑問をもつジョーは……….
(1,1,1) (0,1,1) (1,0,0) 重要度のベクトル: text3 …. 生活 …. 日常 …. 引きこもり TFのみの場合の例示 生活 text2 (0,1,1) Text 1 日常 次元縮約 軸の評価・生成(主成分分析など) シソーラス (1,0,0) 引きこもり
外延データベース 各々のHTML文書がどのような基本情報を持つかを基本事実で示したもの。 EDB(外延DB): Fact-4(html-id, table-id, arg1,….,arg4). fact-4(h100, table4, “ザ・インターネット”, st101, “ひきこもり的な生活を…話になってきました”, st103) IDB(内包DB): ルールの集合。和や積を用いた質問が可能。
ビュー (内包ルール) 動作例 ans(Movie) :- 批評(Movie,Crit). 批評(Movie, Crit) :- fact-4(_,_,Movie,_,Crit,_), Crit ~“三谷幸喜監督作品”. Crit が表すテキスト(のベクトル)とテキスト“三谷幸喜監督作品”(のベクトル)が類似している。 その評価は数値(ベクトルの類似度)で返る。 表のタプルデータ、 テキストの類似性 類似度から答え Movie には点数がつけられる。
正事例と負事例を分類できる,ルールを抽出するタスク。 ビューの獲得: 正事例と負事例を分類できる,ルールを抽出するタスク。 分類問題 ….. 分類器の構成と適用 決定木,回帰木, 帰納論理プログラミング, 統計的学習: SVM ビューの条件部が複雑になる場合に有効。 ベクトル空間における非線形分離問題を高次元空間における線形分離問題に帰着させる。 軸(属性)を増やすわけだから,一般に性能は良いが,新たな軸の解釈問題がある。
融合技術・統合化・ 個々の要素技術の深化 自然言語処理 HTML文書の構造(形式言語処理) 情報検索(語の重要度・関連度・類似性) データベース操作(演繹データベース) 今日、情報コンテンツとその表現・表示のためには、様々な要素技術が使われている。今回の例、マルチメディアDB、複合文書等々。したがって、幅広い勉強をしておく必要がある。