Presentation is loading. Please wait.

Presentation is loading. Please wait.

情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優

Similar presentations


Presentation on theme: "情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優"— Presentation transcript:

1 情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
SlothLib: Web検索研究支援 プログラミングライブラリ 情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優

2 SlothLibの目的 Web関係,特にWeb検索に関する研究におけるプロトタイプシステムの実装支援
既存アルゴリズムやツール 研究者間での技術の共有が容易になる 視覚的プログラミング環境による直感性向上 アイディアを手軽に形にしてテストできる 議論しながらのプログラミングが可能 新人向けの教育用途としての利用も可能 目指すところ 新しいWeb検索サービスの開発や研究を, 部品を組み替えるように実現する

3 次世代Web検索のためのライブラリ Web関連の研究における敷居の高さ
新しいアイディアを思いついても,研究に取り掛かる際に膨大な調査,学習,実装時間が必要 Web検索エンジンの利用方法(Google,Yahooなど) ウェブページの取得方法,リンクの取得方法 形態素解析,代表語抽出,クラスタリングなど 各研究者は独自に各種システム・サービスを使うための調査,開発を行っている 情報の共有がほとんど行われていない 独自のコードを組んでいるため再利用が困難 前 準 備 研 究 の 本 番 着想 必要なシステム サービスの調査 プログラミング 言語の習得 各種サービスを 利用するための実装 開発 検証・改良 評価・論文化

4 ライブラリ化の現状 SlothLib 近い将来,Javaでも実装予定 Web関連のソフトウェアを構成する各種機能を実現
各種機能・既存アルゴリズムを共通インターフェースを持たせる ソフトウェアの試作開発・改良におけるコストを大幅に削減 C#による実装で.Net環境に対応 近い将来,Javaでも実装予定 各ソフトウェア部品が密に連携 類似機能には共通インターフェース グラフ表示 ・ノードとエッジで表現(beta) 各種文書読み込み ・WordやPDF文書の読込 クラスタリング ・階層型:4種 SlothLib Web情報収集 ・マルチスレッドで取得 ・文字コード自動判別 特徴ベクトル ・TF-IDF等ベクトル生成 ・ベクトルの各種演算 ・多様な正規化手法 ・類似度・距離計算など 形態素解析 ・茶筌 ・MeCab ・SSTagger ・Porter Stemmer Web検索 ・ページ (Google, Yahoo) ・Blog (Goo, Livedoor) ・動画 (Youtube, Yahoo) ・画像 (Google, Flickr)

5 1時間でできるプログラム例 – その1 検索エンジンから結果を取得して表示 Google で 京都 を検索 YouTube で 京都 を検索
Google SOAP Search API Yahoo ウェブ検索 Webサービス Livedoor blog 検索 Goo blog 検索 Youtube API Google で 京都 を検索 YouTube で 京都 を検索

6 1時間でできるプログラム例 – その2 Youtube映像検索&Viewer 京都 で検索 ビデオ 結果のリスト タグやコメント

7 1日でできるプログラム例 – その1 Yahoo!関連検索ワードもどき ①’使用する検索エンジンを簡単に変更することができる。
① 検索エンジンに対してクエリを投げ、結果を取得 ⑥ 左クリックすると「京都 ホテル」で検索した結果ページをブラウザで開く ② 検索結果のタイトルの一覧 ⑥ 右クリックすると「京都 ホテル」に対する関連検索ワードを新たに求める ③ 検索結果の スニペットの一覧 ④ スニペットにおける語の出現頻度を数える (TFベクトルの作成) ⑤ その語がどの検索結果に出現しているか

8 1日でできるプログラム例 – その2 Web検索を利用した兄弟概念を表す語の発見 (のプロトタイプシステム) 英語版の作成も容易に可能
① Google検索でタイトルとスニペットを100件取得。 ④ TFやTF-IDFなど、様々な重みづけを試しながら特徴語を抽出。 ② 茶筌による形態素解析を利用して解析。 ⑤各種アルゴリズムを用いたクラスタリングを試して実装。閾値操作をスライドバーで対応。 ②’解析器を交換することで容易に英語対応が可能。 ③ 特徴ベクトルライブラリの演算機能、ソート機能などを活用して結果の作成・表示。

9 追加1日でできるプログラム例 兄弟概念を表す語のグラフ表示

10 視覚的プログラミング環境 ドラッグ&ドロップで機能を配置 SlothLibの各種機能をブロックとして実装 ブロック間を接続して機能が連携
ブロックの動作はマウス操作で変更可能

11 ライブラリに関する情報 公開用Webページ コンタクト用アドレス
コンタクト用アドレス


Download ppt "情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優"

Similar presentations


Ads by Google