メディア計算機工学特論 2003 年度Ｗｅｂにおける情報・知識の探索と検索の事例をとおして、現代的知識ベースとその利用法を理解する。

Slides:

Advertisements

Similar presentations

シミュレーション演習 G. 総合演習（ Mathematica 演習）システム創成情報工学科テキスト作成：藤尾光彦講義担当：尾下真樹.

Advertisements

XML ゼミ独習 XML ~ 第 6 章 XHTML~ 6.1 XHTML の概要 6.2 XHTML の構造谷津哲平.

日本語 WWW 情報を用いた COCET3300 英単語学習支援に関する研究情報・知能工学専攻博士前期課程２年渡邉雄大指導教員河合和久.

電子書籍の検索機能の改善木下研究室２０１００２７１３鴫原善寿. 背景スマートフォンなどの携帯端末の普及とともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も現れた。電子書籍はデータなので本棚もいらず、持ち運びも容易になるなど様々な恩恵をもたらした。

エンティティ・リレーションシップ・モデル

アルゴリズムとデータ構造第２回　線形リスト（復習）.

自然言語処理：第３回１．前回の確認２．構文解析３．格文法.

DB(データベース)のおはなし作成者：小野正広 DBと言っても、　ドラゴンボールではないですぞ！ 3/1/2017.

「わかりやすいパターン認識」第１章：パターン認識とは

ヘルスケア連動型市販薬検索システム研究者：加納　えり指導教員：越田　高志.

Webサービスに関する基本用語 Masatoshi Ohishi / NAOJ & Sokendai

国内線で新千歳空港を利用している航空会社はどこですか？

知識情報演習Ⅲ（後半第1回）辻慶太（水）

情報学類吉田光男アドバイザー教官：山本幹雄先生

データ構造とアルゴリズム論第６章探索のアルゴリズム

第１回 HTML5入門.

ホームページの作り方.

オンライン英単語・リスニング学習ソフト佐々木研究室 N02k1114 北隅　麻実.

情報爆発A01支援班マイサーチエンジン開発環境支援グループ中村聡史, 大島裕明, 田中克己, 喜連川優

テキストマイニング，データマイニングと社会活動のトレース

Webサイト運営 09fi118 橋倉伶奈 09fi131 本間昂 09fi137 三上早紀.

コンピュータリテラシ (1) 学習目標（到達目標）・計算機実習室を正しく利用できる。・文書作成ソフトの利用方法を学び、報告作成が

情報科学１（G1）２０１６年度.

RDBMSについて 2年7組　小鹿　慎太郎.

平成１９年５月19日第3版東京大学理学部生物化学図書室前田朗

形態素解析および係り受け解析・主語を判別

テキストの類似度計算

Webを利用した授業支援システムの開発北海道工業大学　電気電子工学科 H 渋谷　俊彦.

①データ構造 ②アルゴリズム ③プログラム言語 ④マークアップ言語

この資料は、テキストをもとに、講義のために作成したものです.学習用に活用してください.

朝日大学大学院経営学研究科奥山徹データベース論朝日大学大学院経営学研究科奥山　徹 2006/05/29 データベース論（７回目）

日本語解析済みコーパス管理ツール「茶器」

シミュレーション演習 G. 総合演習（Mathematica演習）システム創成情報工学科

平成２２年６月１５日図書系職員のためのアプリケーション開発講習会

プログラム実行履歴を用いたトランザクションファンクション抽出手法

2004年度サマースクール in 稚内 JavaによるWebアプリケーション入門

2003年度データベース論安藤　友晴.

識別子の命名支援を目的とした動詞-目的語関係の辞書構築

インラインスクリプトに対するデータフロー解析を用いた XHTML 文書の構文検証

東京大学OPAC Plus “言選Web” -関連学術用語による日本語文献情報への簡易ナビゲーションシステム-

只見町インターネット・エコミュージアムの「キーワード」検索の改善

情報スキル活用　　第６週　　　基礎技術のまとめ　　復習.

「Webデータベースの構築技術」正誤表ページ項目誤記訂正 18 表1.4 アクセス権限の削除・・・テーブル名 TO ユーザ名

Internet広域分散協調サーチロボットの研究開発

数量分析第２回データ解析技法とソフトウェア

パスファインダーの作成 ※ sakura. ne. jp/CJE121023

情報スキル活用　第２週基礎技術ー２　：　Ｗｅｂページの基本形.

類似度を用いた WWW のリンク構造の解析谷　研究室　　　　栗原　伸行.

Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水洋志.

エピソード記憶に訴えるBookmarkless Bookmarkの実現

情報スキル活用　第４週基礎技術－４　:　その１（タグのまとめ）.

テキストマイニング，データマイニングと社会活動のトレース

知能情報システム特論 Introduction

文書分類モデルの統計的性質に関する一考察

早稲田大学大学院基幹理工学研究科情報理工学専攻後藤研究室修士１年魏元

Spatial Linker - 空間コンテンツ融合の研究 -

情報処理基礎Ａ・Ｂ坂口利裕横浜市立大学・商学部

統計ソフトウエアRの基礎.

2012年度情報科学序論～授業紹介～.

データ構造とアルゴリズム (第5回) 静岡大学工学部安藤和敏

基礎技術ー３ : Ｗｅｂページの標準規格について

構造的類似性を持つ半構造化文書における頻度分析

独習XML ~第１章 XMLの基礎~ 1.1 XML文書の基礎 1.2 XMLとHTML

東京工科大学コンピュータサイエンス学部亀田弘之

東京工科大学コンピュータサイエンス学部亀田弘之

自然言語処理2015 Natural Language Processing 2015

知識ベースの試作計画 ●●●研究所 ●●●技術部稲本□□ １９９７年１月.

自然言語処理2016 Natural Language Processing 2016

2012年度情報数理～授業紹介～.

Presentation transcript:

メディア計算機工学特論 2003 年度Ｗｅｂにおける情報・知識の探索と検索の事例をとおして、現代的知識ベースとその利用法を理解する。メディア計算機工学特論 2003 年度Ｗｅｂにおける情報・知識の探索と検索の事例をとおして、現代的知識ベースとその利用法を理解する。そのための、要素技術としての、関係・演繹データベース，情報検索，データマイニングを学ぶ。

mh-lec@db-ei.eng.hokudai.ac.jp まで，氏名，学生番号，所属，学年をメールすること。スケジュール： mh-lec@db-ei.eng.hokudai.ac.jp まで，氏名，学生番号，所属，学年をメールすること。成績：レポートと試験。出欠もとります。イントロ（本日）関係・演繹ＤＢの復習類似性検索システムの事例紹介データマイニング

本日の内容：情報検索・抽出を行う一つのシステム事例を用いて「データベース」を概観する Web ブラウザ： internet のＨＰを見るためのソフトウエア。 HTML : 多くのＨＰで採用されているページ記述言語。何をどう見せ　　　　　　　るかを、この言語仕様に基づいて記述する。閲覧者：ＨＴＭＬで記述されたＨＰをブラウザで眺めている。ＨＴＭＬ文書検索：閲覧するだけでなく、膨大なページから欲しい情報に　　　　　　　　　　　　アクセスする行為 Web マイニング：アクセスするだけでなく、アクセスした結果から有用　　　　　　　　　　　　な知識を獲得する行為

情報抽出とデータベース HTML文書（Web ブラウザで見ているものの実体）形式言語＋自然言語＋各種の references 講義項目：情報の表現 HTML文書検索：（検索は情報処理の基本）形態素解析…. 「自然言語」(語の集まりとしての言語感) ＨＴＭＬ構文解析 ….. 形式言語理論演繹データベース ….. データベースとマイニングＫＤＤ（知識発見）Ｗｅｂマイニング

システムの概要類似度計算を用いたＨＴＭＬの情報抽出・検索システムの構築 W.Cohen氏のシステム“WHIRL” 基本的に文書を演繹データベースとみなし，演繹ＤＢに対する質問処理過程が検索。

HTML文書とブラウザここでは特に、表やリストの構造に注目：経験則：重要なことは表・リストでまとめてある場合が多い。 <head> <title>映画リストSA</title> </head> <body> <table border=1> <tr><td>作品名<td>主な出演者・時間他<td>簡単ストーリー・コメント<td>勝手に評価満点６点 <tr><td>ザ・インターネット,THEINTERNET<td>サントラブロック,ジェノミーノーザム,1995年114分,＜サスペンス＞<td>ひきこもり的な生活を送るコンピューターアナリストがインターネットを通じて政府の重要機密の場所にアクセスしてしまって全てを失った彼女は犯罪者に仕立てられて社会から終われる身になる,５年前の作品ですがあってもおかしくない話になってきました。<td>4点 <tr><td> …. <td> ….. </table> </body> </html> ここでは特に、表やリストの構造に注目：経験則：重要なことは表・リストでまとめてあ　　　　　　る場合が多い。

システム全体の流れＤＢ１ＤＢ２ＤＢ３茶筅 HTML群スコア順に並べてユーザに出力ユーザからの質問類似度計算・テーブルからデータ抽出ＤＢ１ＤＢ２ HTML群形態素解析重要度計算スコア順に並べてユーザに出力閾値以上のスコアを持つデータを出力ＤＢ３類似度計算・質問処理ユーザからの質問

形態素解析と辞書ひきこもり的な生活を送るコンピューターアナリストがインターネットを通じて政府の重要機密の場所にアクセスしてしまって全てを失った彼女は犯罪者に仕立てられて社会から終われる身になる,５年前の作品ですがあってもおかしくない話になってきました。ひきこもる的生活送る形態素解析：文を辞書見出し語として登録されている語に分解　　　　　　　　　　　　する操作接辞（接頭語、接尾語）、活用、複合語の処理などが必要で辞書　　　　　　　　　　　　の情報量と語への分解戦略にも依存。

経験則ひきこもる的生活送る ( 10,……, 2,……, 1,…... ) 出現回数経験則ＴＦ：よく出現するものは、より重要ひきこもる的生活送る ( 10,……, 2,……, 1,…... ) 出現回数経験則ＴＦ：よく出現するものは、より重要出現回数（頻度）の大小でわかる。経験則ＩＤＦ：他の文書に出現しにくいものは、そ　　　　　　　　の文献に固有であるがゆえに、重要である。文献集合としてどのようなものを考えているか　　　　　にも依存する。

重要度計算についてＴＦ： text中の語ｔの頻度（出現回数）ＩＤＦ：全ての text 数語ｔが含まれている text 数短いテキストではは０か１情報量重要度：語ｔが含まれている場合、その情報量

テキストベクトルの類似性テキストベクトル：語の重要度のベクトル text1:ひきこもり的な生活を送る …… ベクトルの挟み角で、texts 間の類似性を計測する。「text1 ～ text2」 text2 : 退屈な日常的生活に疑問をもつジョーは……….

(1,1,1) (0,1,1) (1,0,0) 重要度のベクトル： text3 …. 生活 …. 日常 …. 引きこもりＴＦのみの場合の例示生活 text2 (0,1,1) Text 1 日常次元縮約軸の評価・生成（主成分分析など）シソーラス (1,0,0) 引きこもり

外延データベース各々のHTML文書がどのような基本情報を持つかを基本事実で示したもの。ＥＤＢ（外延ＤＢ）： Fact-4(html-id, table-id, arg1,….,arg4). fact-4(h100, table4, “ザ・インターネット”, st101, “ひきこもり的な生活を…話になってきました”, st103) ＩＤＢ（内包ＤＢ）：ルールの集合。和や積を用いた質問が可能。

ビュー（内包ルール）動作例 ans(Movie) :- 批評(Movie,Crit). 批評(Movie, Crit) :- fact-4(_,_,Movie,_,Crit,_), Crit ～“三谷幸喜監督作品”. Crit が表すテキスト（のベクトル）とテキスト“三谷幸喜監督作品”（のベクトル）が類似している。その評価は数値(ベクトルの類似度)で返る。表のタプルデータ、テキストの類似性類似度から答え Movie には点数がつけられる。

正事例と負事例を分類できる，ルールを抽出するタスク。ビューの獲得：正事例と負事例を分類できる，ルールを抽出するタスク。分類問題 ….. 分類器の構成と適用決定木，回帰木，帰納論理プログラミング，統計的学習：ＳＶＭビューの条件部が複雑になる場合に有効。ベクトル空間における非線形分離問題を高次元空間における線形分離問題に帰着させる。軸（属性）を増やすわけだから，一般に性能は良いが，新たな軸の解釈問題がある。

融合技術・統合化・個々の要素技術の深化自然言語処理ＨＴＭＬ文書の構造（形式言語処理）情報検索（語の重要度・関連度・類似性）データベース操作（演繹データベース）今日、情報コンテンツとその表現・表示のためには、様々な要素技術が使われている。今回の例、マルチメディアＤＢ、複合文書等々。したがって、幅広い勉強をしておく必要がある。