情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優 SlothLib: Web検索研究支援 プログラミングライブラリ http://www.dl.kuis.kyoto-u.ac.jp/slothlib/ 情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
SlothLibの目的 Web関係,特にWeb検索に関する研究におけるプロトタイプシステムの実装支援 既存アルゴリズムやツール 研究者間での技術の共有が容易になる 視覚的プログラミング環境による直感性向上 アイディアを手軽に形にしてテストできる 議論しながらのプログラミングが可能 新人向けの教育用途としての利用も可能 目指すところ 新しいWeb検索サービスの開発や研究を, 部品を組み替えるように実現する
次世代Web検索のためのライブラリ Web関連の研究における敷居の高さ 新しいアイディアを思いついても,研究に取り掛かる際に膨大な調査,学習,実装時間が必要 Web検索エンジンの利用方法(Google,Yahooなど) ウェブページの取得方法,リンクの取得方法 形態素解析,代表語抽出,クラスタリングなど 各研究者は独自に各種システム・サービスを使うための調査,開発を行っている 情報の共有がほとんど行われていない 独自のコードを組んでいるため再利用が困難 前 準 備 研 究 の 本 番 着想 必要なシステム サービスの調査 プログラミング 言語の習得 各種サービスを 利用するための実装 開発 検証・改良 評価・論文化
ライブラリ化の現状 SlothLib 近い将来,Javaでも実装予定 Web関連のソフトウェアを構成する各種機能を実現 各種機能・既存アルゴリズムを共通インターフェースを持たせる ソフトウェアの試作開発・改良におけるコストを大幅に削減 C#による実装で.Net環境に対応 近い将来,Javaでも実装予定 各ソフトウェア部品が密に連携 類似機能には共通インターフェース グラフ表示 ・ノードとエッジで表現(beta) 各種文書読み込み ・WordやPDF文書の読込 クラスタリング ・階層型:4種 SlothLib Web情報収集 ・マルチスレッドで取得 ・文字コード自動判別 特徴ベクトル ・TF-IDF等ベクトル生成 ・ベクトルの各種演算 ・多様な正規化手法 ・類似度・距離計算など 形態素解析 ・茶筌 ・MeCab ・SSTagger ・Porter Stemmer Web検索 ・ページ (Google, Yahoo) ・Blog (Goo, Livedoor) ・動画 (Youtube, Yahoo) ・画像 (Google, Flickr)
1時間でできるプログラム例 – その1 検索エンジンから結果を取得して表示 Google で 京都 を検索 YouTube で 京都 を検索 Google SOAP Search API Yahoo ウェブ検索 Webサービス Livedoor blog 検索 Goo blog 検索 Youtube API Google で 京都 を検索 YouTube で 京都 を検索
1時間でできるプログラム例 – その2 Youtube映像検索&Viewer 京都 で検索 ビデオ 結果のリスト タグやコメント
1日でできるプログラム例 – その1 Yahoo!関連検索ワードもどき ①’使用する検索エンジンを簡単に変更することができる。 ① 検索エンジンに対してクエリを投げ、結果を取得 ⑥ 左クリックすると「京都 ホテル」で検索した結果ページをブラウザで開く ② 検索結果のタイトルの一覧 ⑥ 右クリックすると「京都 ホテル」に対する関連検索ワードを新たに求める ③ 検索結果の スニペットの一覧 ④ スニペットにおける語の出現頻度を数える (TFベクトルの作成) ⑤ その語がどの検索結果に出現しているか
1日でできるプログラム例 – その2 Web検索を利用した兄弟概念を表す語の発見 (のプロトタイプシステム) 英語版の作成も容易に可能 ① Google検索でタイトルとスニペットを100件取得。 ④ TFやTF-IDFなど、様々な重みづけを試しながら特徴語を抽出。 ② 茶筌による形態素解析を利用して解析。 ⑤各種アルゴリズムを用いたクラスタリングを試して実装。閾値操作をスライドバーで対応。 ②’解析器を交換することで容易に英語対応が可能。 ③ 特徴ベクトルライブラリの演算機能、ソート機能などを活用して結果の作成・表示。
追加1日でできるプログラム例 兄弟概念を表す語のグラフ表示
視覚的プログラミング環境 ドラッグ&ドロップで機能を配置 SlothLibの各種機能をブロックとして実装 ブロック間を接続して機能が連携 ブロックの動作はマウス操作で変更可能
ライブラリに関する情報 公開用Webページ コンタクト用アドレス http://www.dl.kuis.kyoto-u.ac.jp/slothlib/ コンタクト用アドレス slothlib-contact@dl.kuis.kyoto-u.ac.jp