メディア計算機工学特論 2003 年度 Webにおける情報・知識の探索と検索の事例を とおして、現代的知識ベースとその利用法を理解する。

Slides:



Advertisements
Similar presentations
シミュレーション演習 G. 総合演習 ( Mathematica 演 習) システム創成情報工学科 テキスト作成: 藤尾 光彦 講義担当: 尾下 真樹.
Advertisements

XML ゼミ 独習 XML ~ 第 6 章 XHTML~ 6.1 XHTML の概要 6.2 XHTML の構造 谷津 哲平.
日本語 WWW 情報を用いた COCET3300 英単語学習支援に関する研究 情報・知能工学専攻 博士前期課程2年 渡邉 雄大 指導教員 河合 和久.
電子書籍の検索機能の改善 木下研究室 201002713 鴫原 善寿. 背景 スマートフォンなどの携帯端末の普及と ともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、 持ち運びも容易になるなど様々な恩恵を もたらした。
エンティティ・リレーションシップ・モデル
アルゴリズムとデータ構造 第2回 線形リスト(復習).
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
DB(データベース)のおはなし 作成者:小野正広 DBと言っても、  ドラゴンボール ではないですぞ! 3/1/2017.
「わかりやすいパターン認識」 第1章:パターン認識とは
ヘルスケア連動型 市販薬検索システム 研究者 : 加納 えり 指導教員 : 越田 高志.
Webサービスに関する基本用語 Masatoshi Ohishi / NAOJ & Sokendai
国内線で新千歳空港を利用している航空会社はどこですか?
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
情報学類 吉田光男 アドバイザー教官: 山本幹雄 先生
データ構造とアルゴリズム論 第6章 探索のアルゴリズム
第1回 HTML5入門.
ホームページの作り方.
オンライン英単語・リスニング 学習ソフト 佐々木研究室 N02k1114 北隅 麻実.
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
テキストマイニング, データマイニングと 社会活動のトレース
Webサイト運営 09fi118 橋倉伶奈 09fi131 本間昂 09fi137 三上早紀.
コンピュータリテラシ (1) 学習目標(到達目標) ・計算機実習室を正しく利用できる。 ・文書作成ソフトの利用方法を学び、報告作成が
情報科学1(G1) 2016年度.
RDBMSについて 2年7組  小鹿 慎太郎.
平成19年5月19日 第3版 東京大学理学部生物化学図書室 前田 朗
形態素解析および係り受け解析・主語を判別
テキストの類似度計算
Webを利用した授業支援システムの開発 北海道工業大学 電気電子工学科 H 渋谷 俊彦.
①データ構造 ②アルゴリズム ③プログラム言語 ④マークアップ言語
この資料は、テキストをもとに、講義のために作成したものです.学習用に活用してください.
朝日大学大学院 経営学研究科 奥山 徹 データベース論 朝日大学大学院 経営学研究科 奥山 徹 2006/05/29 データベース論(7回目)
日本語解析済みコーパス管理ツール 「茶器」
シミュレーション演習 G. 総合演習 (Mathematica演習) システム創成情報工学科
平成22年6月15日 図書系職員のための アプリケーション開発講習会
プログラム実行履歴を用いたトランザクションファンクション抽出手法
2004年度 サマースクール in 稚内 JavaによるWebアプリケーション入門
2003年度 データベース論 安藤 友晴.
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
インラインスクリプトに対するデータフロー 解析を用いた XHTML 文書の構文検証
東京大学OPAC Plus “言選Web” -関連学術用語による日本語文献情報への 簡易ナビゲーションシステム-
只見町 インターネット・エコミュージアムの「キーワード」検索の改善
情報スキル活用  第6週    基礎技術のまとめ  復習.
「Webデータベースの構築技術」正誤表 ページ 項目 誤記 訂正 18 表1.4 アクセス 権限の削除 ・・・テーブル名 TO ユーザ名
Internet広域分散協調サーチロボット の研究開発
数量分析 第2回 データ解析技法とソフトウェア
パスファインダーの作成 ※ sakura. ne. jp/CJE121023
情報スキル活用 第2週 基礎技術ー2 : Webページの基本形.
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
エピソード記憶に訴えるBookmarkless Bookmarkの実現
情報スキル活用 第4週 基礎技術-4 : その1(タグのまとめ).
テキストマイニング, データマイニングと 社会活動のトレース
知能情報システム特論 Introduction
文書分類モデルの統計的性質に関する一考察
早稲田大学大学院 基幹理工学研究科 情報理工学専攻 後藤研究室 修士1年 魏 元
Spatial Linker - 空間コンテンツ融合の研究 -
情報処理基礎A・B 坂口利裕 横浜市立大学・商学部
統計ソフトウエアRの基礎.
2012年度 情報科学序論 ~ 授業紹介 ~.
データ構造とアルゴリズム (第5回) 静岡大学工学部 安藤和敏
基礎技術ー3 : Webページの標準規格について
構造的類似性を持つ半構造化文書における頻度分析
独習XML ~第1章 XMLの基礎~ 1.1 XML文書の基礎 1.2 XMLとHTML
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
自然言語処理2015 Natural Language Processing 2015
知識ベースの試作計画 ●●●研究所 ●●●技術部 稲本□□ 1997年1月.
自然言語処理2016 Natural Language Processing 2016
2012年度 情報数理 ~ 授業紹介 ~.
Presentation transcript:

メディア計算機工学特論 2003 年度 Webにおける情報・知識の探索と検索の事例を とおして、現代的知識ベースとその利用法を理解する。 メディア計算機工学特論 2003 年度 Webにおける情報・知識の探索と検索の事例を とおして、現代的知識ベースとその利用法を理解する。 そのための、要素技術としての、関係・演繹データベース,情報検索,データマイニングを学ぶ。

mh-lec@db-ei.eng.hokudai.ac.jp まで,氏名,学生番号,所属,学年をメールすること。 スケジュール: mh-lec@db-ei.eng.hokudai.ac.jp まで,氏名,学生番号,所属,学年をメールすること。 成績: レポートと試験。 出欠もとります。 イントロ(本日) 関係・演繹DBの復習 類似性検索システムの事例紹介 データマイニング

本日の内容: 情報検索・抽出を行う一つのシステム事例を用いて「データベース」を概観する Web ブラウザ: internet のHPを見るためのソフトウエア。 HTML : 多くのHPで採用されているページ記述言語。何をどう見せ       るかを、この言語仕様に基づいて記述する。 閲覧者: HTMLで記述されたHPをブラウザで眺めている。 HTML文書検索: 閲覧するだけでなく、膨大なページから欲しい情報に            アクセスする行為 Web マイニング: アクセスするだけでなく、アクセスした結果から有用            な知識を獲得する行為

情報抽出とデータベース HTML文書(Web ブラウザで見ているものの実体) 形式言語+自然言語+各種の references 講義項目: 情報の表現 HTML文書検索: (検索は情報処理の基本) 形態素解析…. 「自然言語」(語の集まりとしての言語感) HTML構文解析 ….. 形式言語理論 演繹データベース ….. データベースとマイニング KDD(知識発見) Web マイニング

システムの概要 類似度計算を用いたHTMLの情報抽出・検索システムの構築 W.Cohen氏のシステム“WHIRL” 基本的に文書を演繹データベースとみなし,演繹DBに対する質問処理過程が検索。

HTML文書 と ブラウザ ここでは特に、表やリストの構造に注目: 経験則: 重要なことは表・リストでまとめてあ る場合が多い。 <head> <title>映画リストSA</title> </head> <body> <table border=1> <tr><td>作品名<td>主な出演者・時間他<td>簡単ストーリー・コメント<td>勝手に評価満点6点 <tr><td>ザ・インターネット,THEINTERNET<td>サントラブロック,ジェノミーノーザム,1995年114分,<サスペンス><td>ひきこもり的な生活を送るコンピューターアナリストがインターネットを通じて政府の重要機密の場所にアクセスしてしまって全てを失った彼女は犯罪者に仕立てられて社会から終われる身になる,5年前の作品ですがあってもおかしくない話になってきました。<td>4点 <tr><td> …. <td> ….. </table> </body> </html> ここでは特に、表やリストの構造に注目: 経験則: 重要なことは表・リストでまとめてあ       る場合が多い。

システム全体の流れ DB1 DB2 DB3 茶筅 HTML群 スコア順に 並べて ユーザに 出力 ユーザから の質問 類似度計算 ・ テーブルから データ抽出 DB1 DB2 HTML群 形態素解析 重要度計算 スコア順に 並べて ユーザに 出力 閾値以上の スコアを持つ データを出力 DB3 類似度計算 ・ 質問処理 ユーザから の質問

形態素解析 と 辞書 ひきこもり的な生活を送るコンピューターアナリストがインターネットを通じて政府の重要機密の場所にアクセスしてしまって全てを失った彼女は犯罪者に仕立てられて社会から終われる身になる,5年前の作品ですがあってもおかしくない話になってきました。 ひきこもる 的 生活 送る 形態素解析: 文を辞書見出し語として登録されている語に分解            する操作 接辞(接頭語、接尾語)、活用、複合語の処理などが必要で辞書            の情報量と語への分解戦略にも依存。

経験則 ひきこもる 的 生活 送る ( 10,……, 2,……, 1,…... ) 出現回数 経験則 TF: よく出現するものは、より重要 ひきこもる 的 生活 送る ( 10,……, 2,……, 1,…... ) 出現回数 経験則 TF: よく出現するものは、より重要 出現回数(頻度)の大小でわかる。 経験則 IDF: 他の文書に出現しにくいものは、そ        の文献に固有であるがゆえに、重要である。 文献集合としてどのようなものを考えているか     にも依存する。

重要度計算について TF: text中の語tの頻度(出現回数) IDF: 全ての text 数 語tが含まれている text 数 短いテキストでは は 0 か 1 情報量 重要度: 語 t が含まれている場合、その情報量

テキストベクトルの類似性 テキストベクトル: 語の重要度のベクトル text1:ひきこもり的な生活を送る …… ベクトルの挟み角で、texts 間の 類似性を計測する。 「text1 ~ text2」 text2 : 退屈な日常的生活に疑問をもつジョーは……….

(1,1,1) (0,1,1) (1,0,0) 重要度のベクトル: text3 …. 生活 …. 日常 …. 引きこもり TFのみの場合の例示 生活 text2 (0,1,1) Text 1 日常 次元縮約 軸の評価・生成(主成分分析など) シソーラス (1,0,0) 引きこもり

外延データベース 各々のHTML文書がどのような基本情報を持つかを基本事実で示したもの。 EDB(外延DB): Fact-4(html-id, table-id, arg1,….,arg4). fact-4(h100, table4, “ザ・インターネット”, st101, “ひきこもり的な生活を…話になってきました”, st103) IDB(内包DB): ルールの集合。和や積を用いた質問が可能。

ビュー (内包ルール) 動作例 ans(Movie) :- 批評(Movie,Crit). 批評(Movie, Crit) :- fact-4(_,_,Movie,_,Crit,_), Crit ~“三谷幸喜監督作品”. Crit が表すテキスト(のベクトル)とテキスト“三谷幸喜監督作品”(のベクトル)が類似している。 その評価は数値(ベクトルの類似度)で返る。 表のタプルデータ、 テキストの類似性 類似度から答え Movie には点数がつけられる。

正事例と負事例を分類できる,ルールを抽出するタスク。 ビューの獲得: 正事例と負事例を分類できる,ルールを抽出するタスク。 分類問題 ….. 分類器の構成と適用 決定木,回帰木, 帰納論理プログラミング, 統計的学習: SVM ビューの条件部が複雑になる場合に有効。 ベクトル空間における非線形分離問題を高次元空間における線形分離問題に帰着させる。 軸(属性)を増やすわけだから,一般に性能は良いが,新たな軸の解釈問題がある。

融合技術・統合化・ 個々の要素技術の深化 自然言語処理 HTML文書の構造(形式言語処理) 情報検索(語の重要度・関連度・類似性) データベース操作(演繹データベース) 今日、情報コンテンツとその表現・表示のためには、様々な要素技術が使われている。今回の例、マルチメディアDB、複合文書等々。したがって、幅広い勉強をしておく必要がある。