Q q 情報通信システムのしくみ 村川 猛彦 第2回:2007年4月18日(水) q q.

Slides:



Advertisements
Similar presentations
11 月 17 日 インターネット検索の基礎 インターネット検索 最近の話題 宿題披露 興味を持っているものを検索してみ よう どんな時にインターネット検索するか 宿題 授業資料
Advertisements

XML ゼミ 独習 XML ~ 第 6 章 XHTML~ 6.1 XHTML の概要 6.2 XHTML の構造 谷津 哲平.
情報基礎演習I(プログラミング) 第9回 6月22日 水曜5限 江草由佳
情報・知能工学系 山本一公 プログラミング演習Ⅱ 第3回 配列(1) 情報・知能工学系 山本一公
インターネットの利用 教科書 P22~27,36~41 埼玉県立大宮武蔵野高等学校・情報科.
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
情報処理 第8回.
情報・知能工学系 山本一公 プログラミング演習Ⅱ 第4回 配列(2) 情報・知能工学系 山本一公
Java I 第2回 (4/18)
第2章 ネットサービスとその仕組み(前編) [近代科学社刊]
情報処理基礎 2006年 6月 1日.
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
CEC公開授業 Webサイト制作にチャレンジ! 2007年11月20日 於:東京都立板橋有徳高校 学校インターネット教育推進協会.
情報学類 吉田光男 アドバイザー教官: 山本幹雄 先生
データ構造とアルゴリズム論 第6章 探索のアルゴリズム
JavaによるCAI学習ソフトウェアの開発
ホームページの作り方.
プログラミング演習Ⅱ 第12回 文字列とポインタ(1)
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
なぜ 今の どうする どうやって なにを どのように だれが だれと (変える) どこで だれの 考え方9W4H(Ver.0) いつ から
クイズ 「インターネットを使う前に」 ネチケット(情報モラル)について学ぼう.
VBA(Visual Basic Application)を使ったプログラミングの初歩概説
テキストマイニング, データマイニングと 社会活動のトレース
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
Webサイト運営 09fi118 橋倉伶奈 09fi131 本間昂 09fi137 三上早紀.
4Y-4 印象に残りやすい日本語パスワードの合成法
情報科学1(G1) 2016年度.
データ構造とアルゴリズム論 第6章 探索のアルゴリズム
HTTPプロトコルとJSP (1) データベース論 第3回.
第7章 データベース管理システム 7.1 データベース管理システムの概要 7.2 データベースの格納方式 7.3 問合せ処理.
Webページを公開しよう! 公開前の点検とファイル転送 ユーザ名~user○○○ パスワード~自分で設定したもの
ネットワークの活用 イントラバケッツシステム 情報ネットワーク研究会 渡部英綱.
データ分析基礎c(2012年以降入学) 情報編集基礎c(2011年以前入学)
日本語解析済みコーパス管理ツール 「茶器」
基礎プログラミング演習 第1回.
平成22年6月15日 図書系職員のための アプリケーション開発講習会
【プログラミング応用】 必修2単位 通年 30週 授業形態:演習.
情報コミュニケーション入門b 第10回 Web入門(1)
計算物理学基礎 第1回 UNIXの基礎 C言語の基本.
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
Office IME 2010 を使う.
情報処理 第8回.
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
資料1-6 平成26年度 第1回技術委員会資料 支援ツール群整備方針
ネットショップデザイン入門Ⅰ・ⅡSEO 2013/12/18 Webデザイン入門 SEOの基本.
情報スキル活用  第6週    基礎技術のまとめ  復習.
第13 最終課題発表 2009年07月14日(火曜日) 第4時限目 λ11教室
第7回 授業計画の修正 中間テストの解説・復習 前回の補足(クロックアルゴリズム・PFF) 仮想記憶方式のまとめ 特別課題について
Internet広域分散協調サーチロボット の研究開発
情報処理技法(リテラシ)II 第9回:Word (2/2) 産業技術大学院大学 情報アーキテクチャ専攻 助教  柴田 淳司.
情報スキル活用 第2週 基礎技術ー2 : Webページの基本形.
情報処理概論Ⅰ 2007 第5回 2019/4/7 情報処理概論Ⅰ 第5回.
地域情報学 C言語プログラミング 第1回 導入、変数、型変換、printf関数 2016年11月11日
情報スキル活用 第4週 基礎技術-4 : その1(タグのまとめ).
プロジェクト演習Ⅱ インタラクティブゲーム制作
テキストマイニング, データマイニングと 社会活動のトレース
第5章 計算とプログラム 本章で説明すること ・計算の概観と記述法 ・代表的な計算モデル ・プログラムとプログラム言語.
基礎プログラミング演習 第12回.
情報コミュニケーション入門b 第11回 Web入門(2)
Q q 情報セキュリティ 第9回:2006年6月16日(金) q q.
本日のスケジュール 14:45~15:30 講義 15:30~16:15 企画書レビューシート記入 16:15~16:30 休憩
基礎技術ー3 : Webページの標準規格について
構造的類似性を持つ半構造化文書における頻度分析
自然言語処理2015 Natural Language Processing 2015
第2回 Webサーバ.
自然言語処理2016 Natural Language Processing 2016
mi-8. 自然言語処理 人工知能を演習で学ぶシリーズ(8)
第11回 最終課題制作(2) 2009年06月30日(火曜日) 第4時限目 λ11教室
岩村雅一 知能情報工学演習I 第7回(後半第1回) 岩村雅一
Presentation transcript:

q q 情報通信システムのしくみ 村川 猛彦 第2回:2007年4月18日(水) q q

本日話すこと 前回の課題の解説 問題解決の方法 テキスト検索の実例 テキスト検索技法 Googleを用いた検索事例 テキスト検索技法 全文検索システム 情報の分割:形態素解析,N-gram 前準備に時間をかけてインデックスを作っておき, 検索は一瞬で

インターネットで できますか(分かりますか)? ビデオ録画 前回の課題の解説(1) 「ネット家電」の用途の一つ. 対応機器と,(自宅で)常時稼動のルータなどがあればできる. ビデオ録画のハウジングサービスもある(あった). 録画ネット(http://www.6ga.net/)

インターネットで できますか(分かりますか)? 授業 前回の課題の解説(2) 村川担当分の資料などは公開している. 「情報通信システムのしくみ 村川」で検索を サイバー大学(http://www.cyber-u.ac.jp/) 自分で授業をしてみたい?業績を挙げて,コンテンツを用意しよう.

問題解決の方法:はじめに 何でうまいこといかんのや? だれも協力してくれやんねんけど コンピュータで,でけへんかなあ? …ここを支援

コンピュータを使った問題解決 重要な原則 コンピュータにさせるといい仕事 コンピュータにさせるべきでない仕事 コンピュータは,あなたが期待することをしてくれるとは限らない. コンピュータは,あなたが指示した通りにしてくれる. コンピュータにさせるといい仕事 計算をする.例:あなたの誕生日は,何曜日だった? 制御をする.例:車,原子炉 整形をする.例:資料作成,論文執筆 コンピュータにさせるべきでない仕事 何をしたいかが明確になっていない作業

アルゴリズムとは アルゴリズム:コンピュータを使ってある特定の目的を達成するための処理手順のこと. プログラム:アルゴリズムをプログラミング言語を用いて具体的に記述したもの. 画像は削除しています http://research.nii.ac.jp/~uno/algo_3.htm を参照ください http://e-words.jp/w/E382A2E383ABE382B4E383AAE382BAE383A0.html http://research.nii.ac.jp/~uno/algo_3.htm

アルゴリズムから運用まで 課題を明確にする アルゴリズムを考案・採用する 実装する 運用する Who, What, When, Where, Why, How, How much アルゴリズムを考案・採用する 先人の知恵も活用しつつ,ないところは自分で埋める. 実装する プログラムを作る. 入念にテストをして,修正する. データ(コンテンツ)を整備し,ユーザ(利用者)を手配する. 運用する 「やりっぱなし」ではなく,点検・見直しをする.

良いアルゴリズム・悪いアルゴリズム 良いアルゴリズムは,処理時間が短い. 悪いアルゴリズムは,処理時間が長い. (間違ったアルゴリズムは,永遠に終わらない?) 良いアルゴリズムは,洗練されている. 悪いアルゴリズムは,他人が見たら何が何だか分からない. 一つのことをするのに,たいてい,複数の手段がある. どの手段を選ぶか?

検索エンジン 検索エンジン(サーチエンジン)の例 何を検索する? Google (http://www.google.com/など) YAHOO! Japan (http://www.yahoo.co.jp/) などなど 何を検索する? 「四年生大学」と「四年制大学」のどちらが正しい? 生年月日の曜日を知りたい…「曜日計算」 「アルゴリズムとは」(とは検索) 「ガーデンパーク 営業時間」(営業時間検索) 「とは検索」は,対象の定義を手っ取り早く知りたいときに便利. 「営業時間検索」は,店の営業時間を知ることができるほか, 単にその店を紹介しているページを排除し,店のサイトを見つけやすいという効果がある.

テキスト検索技法 検索の対象・目的 文書が一つ決まっているときに,文字列を指定して,その文字列の出現位置を見つける. 多数の文書があるときに,文字列を指定して,その文字列が含まれる文書を見つける. ⇒今日のメインテーマ 文字列とは,「Wakayama」「村川 猛彦」のような,連続する文字の集まりのこと.

全文検索エンジン(full-text search engine) 特徴 何万件,何GBという文書群でも, 検索語を与えれば,該当文書を一瞬で検索してくれる (検索時間は,文書数やファイルサイズに比例しない) 全文検索ソフトウェアの例 サーバに全文検索ソフトウェアを置いて使用する Namazu,Estraier,Hyper Estraier Web APIを使用する(定められたルールでURLを指定してアクセス) Google Search API = Application Programming Interface

全文検索エンジンを用いた検索の流れ 検索において,検索語は,文書群ではなくインデックスと照合する.前処理の段階で,時間をかけてインデックスを構成しておくことで,高速に検索できる. 文書 ファイル 登録 インデ ックス 文書群 文書を 閲覧 前処理 検索・ 閲覧 検索 検索語 検索結果

Hyper Estraierによる検索の例 検索語と 検索条件 ヒット数 ヒットした 文書の 概要と リンク 「ヒット」とは 文書が 検索語を 含むこと

検索時間が一瞬になるのはなぜ? あらかじめ,検索に適した形に変換しているから(前処理, インデックス化) インデックスのないとき 検索時間は,文書の合計サイズに比例する 1,000,000バイトなら,1,000,000×定数 文書の合計サイズが10倍になったら,時間は10倍 インデックスのあるとき 検索時間は,インデックス化された語の対数に比例する 100,000,000語としても, log(100,000,000)×定数 = log 10×定数’ 語数が10倍になっても,時間はほぼ変わらない

インデックスのイメージ図 情報は木構造(ツリー構造)で保持される. なら みえ きょうと ひょうご おおさか しが わかやま 「しが」を検索 発見! 「しが」を検索 「ふくい」を検索 発見できず

形態素解析…情報の分割(その1) 文: 形態素: 形態素解析ソフトウェア JUMAN ChaSen (茶筌) MeCab (和布蕪) 辞書も不可欠 我輩は猫である 形態素解析 我輩 は 猫 で ある 重要な語のみ 使用・登録 http://nlp.kuee.kyoto-u.ac.jp/nl-resource/juman.html http://chasen.naist.jp/hiki/ChaSen/ http://mecab.sourceforge.jp/

N-gram法…情報の分割(その2) 文字列 2-gram N-gramソフトウェア morogram Hyper Estraierでは自前で生成している 我輩は猫である 我輩 輩は は猫 猫で であ ある すべて登録 http://ya.sakura.ne.jp/~moro/resources/ngram/morogram.html

雨が降れば傘をさす 課題 以下の文を,「形態素解析」と「2-gram」のそれぞれで分割すると,何が得られるか,答えなさい. 5分で書いて,提出してください.ただし,授業はまだあります. 雨が降れば傘をさす http://meigen.shiawasehp.net/m/k-matushita10.html 解答 形態素解析:雨,が,降れ,ば,傘,を,さす 2-gram:雨が,が降,降れ,れば,ば傘,傘を,をさ,さす

検索語も分割 形態素解析 N-gram法 検索語 検索に使用する語 我輩は猫 形態素解析 我輩 は 猫 我輩は猫 2-gram 我輩 輩は 人間が指定 計算機内部 形態素解析 我輩 は 猫 我輩は猫 2-gram 我輩 輩は は猫

まとめ 全文検索システムにおいて 検索=インデックス+検索アルゴリズム+検索語 あらかじめ文書を登録しておく(前処理を要する) インデックスのおかげで,検索時間は文書の数や分量に 比例しない