情報知識ネットワーク 有村・喜田研究室 {arim,kida}@ist.hokudai.ac.jp ex. 7678, 7679 2005/10/06 情報知識ネットーワーク 研究室紹介(有村・喜田研) 北海道大学工学部 情報エレクトロニクス学科 コンピュータサイエンス・コース 3年ゼミナール紹介 情報知識ネットワーク 有村・喜田研究室 {arim,kida}@ist.hokudai.ac.jp ex. 7678, 7679 研究室ホームページ http://www-ikn.ist.hokudai.ac.jp/
紹介: 情報知識ネットワーク研究室 (有村・喜田 研) 情報知識ネットーワーク 研究室紹介(有村・喜田研) 2005/10/06 紹介: 情報知識ネットワーク研究室 (有村・喜田 研) 研究テーマ: 情報検索とデータマイニング 教官: 有村博紀 教授,喜田拓也 助教授 研究協力者: 宇野毅明,佐藤健(国立情報学研究所), 湊 真一,トーマス・ツォイグマン(北大大学院情報科学研究科) 坂本比呂志,下薗真一(九工大), 北大情報科学CS専攻知識ソフトウェア科学講座メンバーとも研究交流
有村博紀 専門: 興味があること 最近面白かったこと データマイニング 情報検索(とくに全文テキスト索引) 計算学習理論(機械学習) 情報知識ネットーワーク 研究室紹介(有村・喜田研) 2005/10/06 有村博紀 専門: データマイニング 情報検索(とくに全文テキスト索引) 計算学習理論(機械学習) 興味があること 膨大なデータから,人間に役立つ情報と知識を とりだすこと 高速なアルゴリズム(プログラム)を設計すること 最近面白かったこと 企業の人たちと一緒に,ソフトウェア開発をしたこと.
データマイニング・エンジンの開発 ウェブやHTML,テキストデータなどのグラフデータから 特徴的なパターンを高速に取り出す. 情報知識ネットーワーク 研究室紹介(有村・喜田研) 2005/10/06 データマイニング・エンジンの開発 ウェブやHTML,テキストデータなどのグラフデータから 特徴的なパターンを高速に取り出す. 情報検索や日本語テキスト処理,画像データ処理に役立つ. AWAP: Fast Text Mining Engine (1997-2002) FREQT: Fast XML and Tree-like Data Miner (SDM'02) OPTT: Optimized Pattern Disocvery (PKDD'02) StreamT: Online XML Stream Miner (IEEE ICDM'02) UnoT: Unordered Tree Miner (Discovery Science'03) A collection of trees Frequent Patterns with s = 50 % Mining (with 浅井達哉君@現・富士通研,安部賢治君@現・シャープ,宇野毅明先生@NII,中野眞一先生@群馬大,)
AWAP: Fast Text Mining Engine (1997-2002) 情報知識ネットーワーク 研究室紹介(有村・喜田研) 2005/10/06 AWAP: Fast Text Mining Engine (1997-2002) HONDA vs. SOFTBANK HONDA vs. TOYOTA ホンダ って どんな会社だろう? ソフトバンク じゃなくて, ホンダ に出ているもの はなにかな? トヨタ じゃなくて, ホンダ に出ているもの はなにかな?
喜田拓也 専門: 興味があること 最近面白かったこと 情報検索(特に文字列照合) テキスト・アルゴリズム データ圧縮 情報知識ネットーワーク 研究室紹介(有村・喜田研) 2005/10/06 喜田拓也 専門: 情報検索(特に文字列照合) テキスト・アルゴリズム データ圧縮 興味があること 巧妙なアルゴリズムを知るor設計すること 効率よく情報を検索するためにコンピュータが できること 最近面白かったこと 国際会議でイタリアへ行ったこと.
圧縮データに対する文字列照合 復号 文字列照合 アルゴリズム 転送 文字列照合 アルゴリズム 転送 転送 圧縮文字列照合 アルゴリズム 情報知識ネットーワーク 研究室紹介(有村・喜田研) 2005/10/06 圧縮データに対する文字列照合 二次記憶装置上 テキスト データ 主記憶装置上 文字列照合 アルゴリズム 転送 主記憶装置上 二次記憶装置上 圧縮テキスト 文字列照合 アルゴリズム 復号 転送 主記憶装置上 二次記憶装置上 圧縮テキスト 転送 主記憶装置上 圧縮文字列照合 アルゴリズム
実験結果(非圧縮テキスト上のアルゴリズムとの対比) 情報知識ネットーワーク 研究室紹介(有村・喜田研) 2005/10/06 実験結果(非圧縮テキスト上のアルゴリズムとの対比) パタンの長さ 0.0 0.3 0.4 0.5 0.8 0.1 0.2 0.6 0.7 CPU時間(秒) AlphaStation XP1000 (Alpha21264: 667MHz) Tru64 UNIX V4.0F Medline(英文テキスト) 60.3Mbyte 非圧縮テキストをKMPで照合 BPE圧縮テキストに対する Boyer-Moore型のアルゴリズム を用いた照合(Shibataら[2000]) BPE圧縮テキストに対する照合 非圧縮テキストをAgrepで照合 5 10 15 20 25 30 * BPEはByte Pair Encoding圧縮法 * KMPはKnuth-Morris-Pratt法 * AgrepはWu&Manberが開発した検索ツール (with 柴田裕介君@現・NTTコムウェア, 松本徹也君@現・NTTドコモ, 竹田正幸先生@九大,篠原歩先生@九大)
3年生ゼミナール ゼミナール 大学の残りの2年間でしてほしいこと* 英語または日本語の資料を読む わかったことを他のひとに説明する 情報知識ネットーワーク 研究室紹介(有村・喜田研) 2005/10/06 3年生ゼミナール ゼミナール 英語または日本語の資料を読む わかったことを他のひとに説明する 新しい考え/方法を作る プログラムを作る/実験する 日本語または英語で書く 大学の残りの2年間でしてほしいこと* 興味があること/やりたいことをみつける 何でもいいから,集中して基礎的な勉強をしてみる (20代前半に) これは今回は見送り *)大学院の2年間で身につけてほしいことでもあります.
"Managing Gigabytes" (ギガバイトを征服!) 情報知識ネットーワーク 研究室紹介(有村・喜田研) 2005/10/06 H16年の例 3年生ゼミナール: テキスト 英語の教科書 "Managing Gigabytes" (ギガバイトを征服!) 著者: Ian H. Witten, Alistair Moffat, Timothy C. Bell, Morgan Kaufmann Publishers, 1999. ウェブサーチ・エンジンを作るための 現在唯一の教科書 テキストと画像の圧縮 テキスト索引の実装 問合せの実現 写真略 Ian Witten先生 ワイカト大学, NZ 写真略 Alistair Moffat先生 メルボルン大学, AU ManagingGygabyte site: http://www.cs.mu.oz.au/mg/
3年生ゼミナール: ゼミで直接まなぶこと 情報工学として 情報検索の基礎技術 データ圧縮の技術 ウェブ検索エンジンのしくみ 情報知識ネットーワーク 研究室紹介(有村・喜田研) 2005/10/06 3年生ゼミナール: ゼミで直接まなぶこと 情報検索の基礎技術 データ圧縮の技術 ウェブ検索エンジンのしくみ 情報工学として アルゴリズムとデータ構造の 議論に慣れる 情報理論と統計の実際をしる 工学(engineering)の感覚 読む・話す・聞く・作る
3年生ゼミナール オプション(希望者があれば) プログラム作成 コンテスト??? 複数パターン照合機械 (情報検索) 情報知識ネットーワーク 研究室紹介(有村・喜田研) 2005/10/06 3年生ゼミナール オプション(希望者があれば) プログラム作成 複数パターン照合機械 (情報検索) ハフマンor LZ圧縮プログラム (テキスト圧縮) アイテム集合発見プログラム (データマイニング) コンテスト???
2005/10/06 情報知識ネットーワーク 研究室紹介(有村・喜田研) おまちしています 情報知識ネットワーク 有村・喜田研究室 {arim,kida}@ist.hokudai.ac.jp ex. 7678, 7679 研究室ホームページ http://www-ikn.ist.hokudai.ac.jp/