情報検索技術のトピックス（平成１6年度版）喜田拓也 (

情報検索技術のトピックス（平成１6年度版）喜田拓也 (http://rd.cc.kyushu-u.ac.jp/~kida/)
ネット時代の情報センス情報検索技術のトピックス（平成１6年度版）喜田拓也 ( 横山光輝さんの誕生日

はじめにウェブ上で効率よく情報をさがす方法喜田のこれまでの研究さいごに検索エンジンについてロボット検索エンジンの仕組み
キーワードの選び方その他のトピックス喜田のこれまでの研究データ圧縮と文字列照合さいごに

検索エンジンとはウェブ上から情報を探し出すツール検索エンジンの種類検索エンジンサーバ電子メールの次のよく利用されているサービス
利用者検索結果ウェブ上から情報を探し出すツール電子メールの次のよく利用されているサービスインターネットユーザの80％が利用している検索エンジンの種類ディレクトリ型ロボット型問合せ検索エンジンサーバデータの蓄積と索引化検索エンジンで調べられるのはウェブ上の一部のHPであることをいう。 →抜けがあるということ→「最新情報を得るには」の説明につながる。巡回ページ情報ウェブ

ディレクトリ型検索エンジン（登録型、カテゴリー型）
人手で整理・登録（索引づけ）する長所適切なキーワードが分からなくても検索できる。検索結果とキーワードとの関係が強い。短所検索対象となるページが少ない。現在では、Yahooもページ検索ができるようになっているし、Googleもカテゴリー型の検索ができるようになっている。ただし、使い勝手や機能の豊富さ、結果の精度という点を考えると、ディレクトリ型（カテゴリー型）の検索ではYahooに、ロボット型検索ではGoogleに軍配があがる。例題：Yahoo! Japanで福岡のケーキ屋をさがそう検索エンジン

ロボット型検索エンジン（全文検索型、フリーワード型）
ロボットが自動的に情報を収集し、サーバで自動的に索引づけをする長所検索対象となるページが多い。ページに含まれているすべての語句が検索対象になる。短所無関係なページも多数検索される。例題：Googleで今日が誕生日の有名人をさがそう検索エンジン

検索エンジンサービスの相互関係（ディレクトリ型）
2003月1日現在（「検索にガンガンヒットするホームページの作り方」から引用）

検索エンジンサービスの相互関係（ロボット型）
2003月1日現在（「検索にガンガンヒットするホームページの作り方」から引用）

検索結果の並びの順番 Googleなどでは、検索結果の並びは検索語（キーワード）に関連の深い順にならんでいる。リンク・ポピュラリティー
被リンク数が多ければ多いほどページの得点が高い。リンク・レピュテーションリンク文字列＝リンク先のページの説明 PageRank 点の高いページからのリンク＞　点の低いページからのリンク

キーワードの選び方１．固有名詞は良いキーワード
今やっているドラマについて知りたい！なるべく固有名詞を用いる。「ドラマ一覧」・・・一般的な名詞「２００３年春ドラマ」・・・より具体的な名詞

キーワードの選び方２．複数のキーワードを用いる
キーワードを一つでは、絞り込むのが難しい。「ドラマ」・・・約 2,090,000 件ヒット！ (2003年4月16日現在) 複数個のキーワードを並べてみる。「ドラマ　一覧」・・・約 216,000 件「ドラマ　一覧　２００3」・・・約 102,000 件「ドラマ　一覧　２００３春」・・・約 9,980 件

キーワードの選び方３．目的のページを想像する
見つけたいページに含まれていると予想される語句をキーワードにする「今やってるドラマの一覧」 → 「200３年　春　ブラックジャックによろしく」「J-Phoneとauの携帯電話はどちらのほうが、人気が高い？」 → 「携帯電話加入者数」単語や語句の意味を知りたい →「～とは」「～入門」うちの近くのお店を知りたい →郵便番号をキーワードに入れる

キーワードの選び方４．同義語・類義語に注意する
「J-Phone」「Jフォン」「ジェイフォン」「au」「エーユー」「KDDI」「利用者」「加入者」「さんま」「サンマ」「秋刀魚」 →キーワードアドバイスサービスを利用してみる

キーワードの選び方５．ブーリアン演算子を用いる
And検索、Or検索、Not検索クリームコロッケクリーム and コロッケ・・・　クリームコロッケクリーム or コロッケ　・・・　ソフトクリーム、コロッケカレーなどクリーム not コロッケ・・・　コロッケとは関係ないクリーム

その他のトピックス最新情報を探すメタ検索エンジン検索エンジンスパム「最新」というキーワードでは最新の情報は得られない
フレッシュアイを使おうメタ検索エンジン Metcha Search ( 検索デスク ( multifind ( 検索エンジンスパム検索エンジンの精度を落とす原因となる（検索エンジンから）厳しい罰則が与えられる

喜田のこれまでの研究データ圧縮技術と文字列照合技術の融合

データ圧縮符号化データ圧縮データ圧縮法情報（記号列）をデジタル化すること → 本質的に無駄な部分が含まれている！
情報（記号列）をデジタル化すること　→　本質的に無駄な部分が含まれている！データ圧縮データ中の冗長な情報を取り除くことで、データのサイズを小さくすることデータ圧縮法適応的Huffman符号化算術符号化 LZ77, LZ78, LZW（辞書ベース圧縮） Burrows Wheeler 変換を用いた圧縮文法変換に基づく圧縮

文字列照合文字列照合（問題）とは何の役に立つの？パターン: オトコテキスト: オモイコンダラシレンノミチヲイクガオトコノ
キーワード検索テキスト・データベース処理データ整形データ・マイニングスペル・チェッカーゲノム情報処理パターン: オトコテキスト: オモイコンダラシレンノミチヲイクガオトコノ

研究目的文書ファイル群圧縮文書ファイル群
「この世には不思議なことなど何もないのだよ、関口君」京極堂を変わり者の東の横綱とすると、榎木津は西の横綱だ。何だか酷く男が羨ましくなつてしまつた。「楠本君。せいぜい月の光を浴びるがいいよ」「世界中の不幸と苦悩を纏めて背負ったような顔をして、そんなもの誰だって背負っているぞ！ちっとも偉くない。心の暗闇だか何だか知らないが、心に光度（カンデラ）や照度（ルクス）があるか。明るい暗いで善し悪しが決まるのは電灯くらいだ」「僕が落すのは憑物。犯人（ホシ）を落すのは警察。原稿を落すのは関口君だ」「あなたが―蜘蛛だったのですね。」「それが―絡新婦の理ですもの」

圧縮されたデータに対する文字列照合原テキスト展開圧縮テキスト圧縮テキスト普通の文字列照合機械圧縮テキストに対する

この問題に対する３つの手法「展開しながら」法「展開してから」法「展開しないで」法目標１：これらより速い！
目標１：　これらより速い！「展開しないで」法事情により差し替えてます・・・

研究の成果（その１） CPU時間（秒）「展開しながら」法「展開しないで」法 1.4 1.2 1.0 0.8
AlphaStation XP1000 (Alpha21264: 667MHz) Tru64 UNIX V4.0F Genbank（DNA塩基配列）17.1Mbyte 1.2 1.0 0.8 「展開しながら」法 CPU時間（秒） compress(LZW)+KMP 0.6 gunzip(LZ77)+KMP 0.4 「展開しないで」法 0.2 T. Kidaら[1998] ビットパラレルによる高速化[1999] 5 10 15 20 25 30 パタンの長さ

ディスク容量は十分あるったい！しかし，最近はディスクの値段も安くなってきており，十分なディスクがあると仮定してください．

容量は十分あるのに、テキストを圧縮して保存しますか？
圧縮文字列照合する理由は？容量は十分あるのに、テキストを圧縮して保存しますか？ NO! × そのような場合，わざわざテキストを圧縮して保存するでしょうか？おそらく，みなさんは圧縮しないだろうと思います．

圧縮文字列照合する理由は？ YES! ＞＋当初の目標新目標展開時間原テキスト上の照合時間圧縮テキスト上の照合時間
しかし，もしこのように圧縮テキスト上での照合時間が原テキスト上での照合時間より高速にすることができればどうでしょうか？もし，この目標が達成されれば，おそらくみなさんはテキストを圧縮して保存するようになると思います．なぜなら，圧縮によって文字列処理を高速化できるからです．この目標を目標２と呼びます．

研究の（凄い）成果 CPU時間（秒）「展開しないで」法「展開しないで」法 0.0 0.3 0.4 0.5 0.8 0.1 0.2 0.6
AlphaStation XP1000 (Alpha21264: 667MHz) Tru64 UNIX V4.0F Medline（英文テキスト） 60.3Mbyte 0.0 0.3 0.4 0.5 0.8 0.1 0.2 0.6 0.7 非圧縮テキストをKMPで照合 BPE圧縮テキストに対する照合(KMP) 「展開しないで」法 CPU時間（秒）非圧縮テキストをAgrepで照合 BPE圧縮テキストに対する照合(BM) Shibata, et al. (2000) 「展開しないで」法 5 10 15 20 25 30 パタンの長さ

さいごに

その後、取り組んだことデータ圧縮による文字列近似度（編集距離）の計算の高速化半構造化データに対する文字列照合に関する研究（2002年）
二つのDNA配列の近似度をすばやく測ることができる！半構造化データに対する文字列照合に関する研究（2002年）大量のXMLデータに対し、タグ構造を見ながら検索できる。これまでの研究から、データ圧縮を用いて高速化できないか？半構造化データを高速に照合できるデータ圧縮法の開発。 <作家> <名前>京極夏彦</名前> <ジャンル>ミステリー、妖怪</ジャンル> <著作> <タイトル>姑獲鳥の夏</タイトル> <出版年>1994</出版年> <出版社>講談社ノベルス</出版社> </著作> </作家> XMLデータ例

今現在、論文執筆中 VLDCパタンと文字列との間にk文字のミスマッチを許した照合処理
Variable Length Don’t Care (VLDC) パタン：＊のための＊入門京都＊殺人事件 k文字のミスマッチパタン：　機動戦士＊ガンダム＊ k = 2 ＯＫ！：　機動戦士ガンダムZZ、機動戦士Vガンダム、　　　　機動武闘伝GガンダムＮＧ！：　新機動戦記ガンダムW、∀ガンダム＊：0文字以上の任意の文字列にマッチ

情報検索技術のトピックス（平成１6年度版）喜田拓也 (

Similar presentations

Presentation on theme: "情報検索技術のトピックス（平成１6年度版）喜田拓也 ("— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

情報検索技術のトピックス （平成１6年度版） 喜田拓也 (

Similar presentations

Presentation on theme: "情報検索技術のトピックス （平成１6年度版） 喜田拓也 ("— Presentation transcript:

Similar presentations

About project

フィードバック

情報検索技術のトピックス（平成１6年度版）喜田拓也 (

Presentation on theme: "情報検索技術のトピックス（平成１6年度版）喜田拓也 ("— Presentation transcript: