Presentation is loading. Please wait.

Presentation is loading. Please wait.

情報知識ネットワーク 有村・喜田研究室 ex. 7678, 7679

Similar presentations


Presentation on theme: "情報知識ネットワーク 有村・喜田研究室 ex. 7678, 7679"— Presentation transcript:

1 情報知識ネットワーク 有村・喜田研究室 {arim,kida}@ist.hokudai.ac.jp ex. 7678, 7679
2005/10/06 情報知識ネットーワーク 研究室紹介(有村・喜田研) 北海道大学工学部 情報エレクトロニクス学科 コンピュータサイエンス・コース 3年ゼミナール紹介 情報知識ネットワーク 有村・喜田研究室 ex. 7678, 7679 研究室ホームページ 

2 紹介: 情報知識ネットワーク研究室 (有村・喜田 研)
情報知識ネットーワーク 研究室紹介(有村・喜田研) 2005/10/06 紹介: 情報知識ネットワーク研究室 (有村・喜田 研) 研究テーマ: 情報検索とデータマイニング 教官: 有村博紀 教授,喜田拓也 助教授 研究協力者: 宇野毅明,佐藤健(国立情報学研究所), 湊 真一,トーマス・ツォイグマン(北大大学院情報科学研究科) 坂本比呂志,下薗真一(九工大), 北大情報科学CS専攻知識ソフトウェア科学講座メンバーとも研究交流

3 有村博紀 専門: 興味があること 最近面白かったこと データマイニング 情報検索(とくに全文テキスト索引) 計算学習理論(機械学習)
情報知識ネットーワーク 研究室紹介(有村・喜田研) 2005/10/06 有村博紀 専門: データマイニング 情報検索(とくに全文テキスト索引) 計算学習理論(機械学習) 興味があること 膨大なデータから,人間に役立つ情報と知識を とりだすこと 高速なアルゴリズム(プログラム)を設計すること 最近面白かったこと 企業の人たちと一緒に,ソフトウェア開発をしたこと.

4 データマイニング・エンジンの開発 ウェブやHTML,テキストデータなどのグラフデータから 特徴的なパターンを高速に取り出す.
情報知識ネットーワーク 研究室紹介(有村・喜田研) 2005/10/06 データマイニング・エンジンの開発 ウェブやHTML,テキストデータなどのグラフデータから 特徴的なパターンを高速に取り出す. 情報検索や日本語テキスト処理,画像データ処理に役立つ. AWAP: Fast Text Mining Engine (1997-2002) FREQT: Fast XML and Tree-like Data Miner (SDM'02) OPTT: Optimized Pattern Disocvery (PKDD'02) StreamT: Online XML Stream Miner (IEEE ICDM'02) UnoT: Unordered Tree Miner (Discovery Science'03) A collection of trees Frequent Patterns with s = 50 % Mining (with

5 AWAP: Fast Text Mining Engine (1997-2002)
情報知識ネットーワーク 研究室紹介(有村・喜田研) 2005/10/06 AWAP: Fast Text Mining Engine (1997-2002) HONDA vs. SOFTBANK HONDA vs. TOYOTA ホンダ って どんな会社だろう? ソフトバンク じゃなくて, ホンダ に出ているもの はなにかな? トヨタ じゃなくて, ホンダ に出ているもの はなにかな?

6 喜田拓也 専門: 興味があること 最近面白かったこと 情報検索(特に文字列照合) テキスト・アルゴリズム データ圧縮
情報知識ネットーワーク 研究室紹介(有村・喜田研) 2005/10/06 喜田拓也 専門: 情報検索(特に文字列照合) テキスト・アルゴリズム データ圧縮 興味があること 巧妙なアルゴリズムを知るor設計すること 効率よく情報を検索するためにコンピュータが できること 最近面白かったこと 国際会議でイタリアへ行ったこと.

7 圧縮データに対する文字列照合 復号 文字列照合 アルゴリズム 転送 文字列照合 アルゴリズム 転送 転送 圧縮文字列照合 アルゴリズム
情報知識ネットーワーク 研究室紹介(有村・喜田研) 2005/10/06 圧縮データに対する文字列照合 二次記憶装置上 テキスト データ 主記憶装置上 文字列照合 アルゴリズム 転送 主記憶装置上 二次記憶装置上 圧縮テキスト 文字列照合 アルゴリズム 復号 転送 主記憶装置上 二次記憶装置上 圧縮テキスト 転送 主記憶装置上 圧縮文字列照合 アルゴリズム

8 実験結果(非圧縮テキスト上のアルゴリズムとの対比)
情報知識ネットーワーク 研究室紹介(有村・喜田研) 2005/10/06 実験結果(非圧縮テキスト上のアルゴリズムとの対比) パタンの長さ 0.0 0.3 0.4 0.5 0.8 0.1 0.2 0.6 0.7 CPU時間(秒) AlphaStation XP1000 (Alpha21264: 667MHz) Tru64 UNIX V4.0F Medline(英文テキスト) 60.3Mbyte 非圧縮テキストをKMPで照合 BPE圧縮テキストに対する Boyer-Moore型のアルゴリズム を用いた照合(Shibataら[2000]) BPE圧縮テキストに対する照合 非圧縮テキストをAgrepで照合 5 10 15 20 25 30 * BPEはByte Pair Encoding圧縮法 * KMPはKnuth-Morris-Pratt法 * AgrepはWu&Manberが開発した検索ツール (with

9 3年生ゼミナール ゼミナール 大学の残りの2年間でしてほしいこと* 英語または日本語の資料を読む わかったことを他のひとに説明する
情報知識ネットーワーク 研究室紹介(有村・喜田研) 2005/10/06 3年生ゼミナール ゼミナール 英語または日本語の資料を読む わかったことを他のひとに説明する 新しい考え/方法を作る プログラムを作る/実験する 日本語または英語で書く 大学の残りの2年間でしてほしいこと* 興味があること/やりたいことをみつける 何でもいいから,集中して基礎的な勉強をしてみる (20代前半に)   これは今回は見送り *)大学院の2年間で身につけてほしいことでもあります.

10 "Managing Gigabytes" (ギガバイトを征服!)
情報知識ネットーワーク 研究室紹介(有村・喜田研) 2005/10/06 H16年の例 3年生ゼミナール: テキスト 英語の教科書 "Managing Gigabytes" (ギガバイトを征服!) 著者: Ian H. Witten, Alistair Moffat, Timothy C. Bell, Morgan Kaufmann Publishers, 1999. ウェブサーチ・エンジンを作るための 現在唯一の教科書 テキストと画像の圧縮 テキスト索引の実装 問合せの実現 写真略 Ian Witten先生 ワイカト大学, NZ 写真略 Alistair Moffat先生 メルボルン大学, AU ManagingGygabyte site:

11 3年生ゼミナール: ゼミで直接まなぶこと 情報工学として 情報検索の基礎技術 データ圧縮の技術 ウェブ検索エンジンのしくみ
情報知識ネットーワーク 研究室紹介(有村・喜田研) 2005/10/06 3年生ゼミナール: ゼミで直接まなぶこと 情報検索の基礎技術 データ圧縮の技術 ウェブ検索エンジンのしくみ 情報工学として アルゴリズムとデータ構造の 議論に慣れる 情報理論と統計の実際をしる 工学(engineering)の感覚 読む・話す・聞く・作る

12 3年生ゼミナール オプション(希望者があれば) プログラム作成 コンテスト??? 複数パターン照合機械 (情報検索)
情報知識ネットーワーク 研究室紹介(有村・喜田研) 2005/10/06 3年生ゼミナール オプション(希望者があれば) プログラム作成 複数パターン照合機械 (情報検索) ハフマンor LZ圧縮プログラム (テキスト圧縮) アイテム集合発見プログラム (データマイニング) コンテスト???

13 2005/10/06 情報知識ネットーワーク 研究室紹介(有村・喜田研) おまちしています 情報知識ネットワーク 有村・喜田研究室 ex. 7678, 7679 研究室ホームページ 


Download ppt "情報知識ネットワーク 有村・喜田研究室 ex. 7678, 7679"

Similar presentations


Ads by Google