情報爆発に対応する 新IT基盤研究支援プラットフォームの構築 A01 支援班 / 中村聡史 京都大学 田中克己,田島敬史,小山聡,手塚太郎 アダムヤトフト,大島裕明(京都大学),喜連川優(東京大学)
支援班の活動計画の概要 次世代サーチ関連のソフトウエアライブラリの整備 戦略的調査 産学連携・国際連携支援 上記を担当する若手研究者2名程度を雇用
支援班の活動計画の概要 次世代サーチ関連のソフトウエアライブラリの整備 戦略的調査 産学連携・国際連携支援 「次世代サーチ」関連のSlothLibの開発・拡張 ユーザインタフェース関連 戦略的調査 「次世代サーチ」や「ウエブ信用度」関連の戦略的調査を実施 産学連携・国際連携支援 サーチベンダー・ポータル企業との折衝により,クエリログデータなどの貸し出し 共同研究プラットフォーム作り シンポジウムなどの開催 上記を担当する若手研究者2名程度を雇用 中村聡史+1名募集中
従来のサーチ関連の研究推進の問題点 ウェブ関連の研究における敷居の高さ 新しいアイディアを思いついても,研究に取り掛かる際に膨大な調査,学習,実装時間が必要となる 検索エンジンの利用方法(Google,Yahooなど) ウェブページの取得方法,リンクの取得方法 形態素解析,代表語抽出,クラスタリングなど 各研究者は独自に各種システム・サービスを使うための調査,開発を行っている 情報の共有がほとんど行われていない 独自のコードを組んでいるため再利用が困難 前 準 備 研 究 の 本 番 着想 必要なシステム サービスの調査 プログラミング 言語の習得 各種サービスを 利用するための実装 開発 検証・改良 評価・論文化
必要な技術を誰でも手軽に利用できる仕組みを構築 ソフトウエアライブラリ化の目的 日本の情報爆発に関する研究発展のため 必要な技術を誰でも手軽に利用できる仕組みを構築 従来技術のとりまとめ 各研究者が開発,公開している技術をとりまとめる 各種技術のコンポーネント化による利用簡易化 前準備がほとんど必要なくなる 研究者間での技術の共有が容易になる Visual Programming 機構による直感性向上 アイディアを手軽に形にし,テストできるようになる 議論しながらのプログラミングが可能になる 新人向けの教育用途としての利用も可能になる
ウェブサーチ関連のソフトウェアライブラリの現状 Web関連のソフトウェアを構成する各機能要素を実現 各種機能・既存アルゴリズムを共通APIを持たせて実装 ソフトウェアの試作開発・改良におけるコストを大幅に削減 JavaとC#による実装で広いプラットフォームに対応 これらの部品群の一部はアスペクト指向プログラミングにおけるDI(Dependency Injection=依存性の注入)によるコンポーネント化を実現し,コンポーネントの組み合わせはXMLによる記述で実現可能である 各ソフトウェア部品が密に連携 類似機能には共通インターフェース クラスタリング ・階層型:5種 ・非階層型:1種 Web情報収集 ・マルチスレッドで高速 ・文字コード自動判別 SlothLib 特徴ベクトル ・TF-IDF等ベクトル生成 ・ベクトルの各種演算 ・多様な正規化手法 ・類似度・距離計算など 形態素解析 ・茶筌 ・MeCab ・TreeTagger ・Porter Stermmer Web検索 ・Google (Text, Image) ・Infoseek (Text, Video) ・Yahoo! (Text, Image, Video) ・AltaVista (Text, Image, Video)
SlothLibの利用例 Web検索を利用した同位語発見システム プロトタイプシステムは1日で作成 メインアイデアの実装にのみ集中できる 英語版の作成も容易に可能 ① Google検索でタイトルとスニペットを100件取得。 ④ TFやTF-IDFによる重みづけを試しながら特徴語抽出を実装。 ② 茶筌による形態素解析を利用して解析。 ⑤ 結果のクラスタリングを各種アルゴリズムを試しながら実装。閾値操作をスライドバーで対応。 ②’解析器を交換することで容易に英語対応が可能。 ③ 特徴ベクトルライブラリの演算機能、ソート機能などを活用して結果の作成・表示。
サーチ関連ソフト開発のための Visual Programming コンポーネントを視覚化し,マウス操作で相互に接続することでプログラミングを行う プラグインという形でコンポーネントを読み込む 追加されたコンポーネントはツールウインドウに表示される コンポーネントは入出力をもつ 入力例: 検索キーワード,URL,テキストなど 出力例: 検索結果リスト,テキスト,代表語など コンポーネントの動作設定が可能 検索結果数,出力内容の設定など コンポーネントは自由に配置可能 マウスのドラッグアンドドロップ操作による機能の追加 コネクタの追加による入出力の流れ設定 より詳細なプログラミングのためのソースコード出力
海外の調査事例 スタンフォード大学のWeb調査 目的 Webへの信用度に関連して、利用者のWebサイトの認識に対し、どのような要因が影響を与えているのかを調査すること Webサイトの管理者や評価者などに対するガイドライン作成・発表につながる調査が最終目的 調査内容 Webサイトへの信用度と技術的要素 Webサイトへの信用度と信頼構築要素 Webサイトへの信用度とスポンサーシップ要素 規模 サンプル数:1481人(米国、フィンランド等) 調査質問数:55個 参照 B.J.Fogg, T.Kameda, J.Boyd, J.Marshall, R.Sethi, M.Sockol,“Stanford-Makovsy Web Credibility Study 2002: Investigating What Makes Web Sites Credible Today“,Report from Stanford Persuasive Technology Lab.(not peer reviewed),Spring 2002. http://captology.stanford.edu/pdf/Stanford-MakovskyWebCredStudy2002-prelim.pdf 目的にはありませんが、この論文をもってサイト作成のガイドラインを発表しており、 「知らしめる」というのはそこのあたりを指しているのではないかと思っています。 技術的要素とは、「リンクが正しく働く」「記述が正しい」というもの他に 引用や参照、著者の記述など、どちらかというと論文を発表しているサイトの 信頼度構築要素には「人から教えてもらった」「以前から知っていた」なども含まれています。 スポンサーシップ要素には「広告で宣伝されていた」というものがある一方で 「広告と本体を判別できない」や「広告がポップアップで表示される」なども含まれていました。
今後予定している戦略的調査 [6月時点] 研究プロジェクトの強い根拠となるような社会的な実態調査 一例としてWebの信頼性を中心に実施予定 サイト単位ではなく,個々の情報の信頼度に関する調査 Web上の情報を信用するときに重要視する要素 検索結果と共に提示して欲しいと思う情報 サンプル数:1000人程度 調査質問数:50程度 情報爆発の実態,サーチエンジンに対する不満・期待など,より範囲を広げて実施を計画
現状 情報爆発時代の検索にかかわる研究支援 ライブラリの開発 (200万円) ブロックプログラミング環境の実現 (150万円) 各種Web APIの利用(各種検索サービス) ウェブ取得・解析 言語処理 ユーザインタフェース ブロックプログラミング環境の実現 (150万円) Webページの整備 ドキュメントの整備 参加型開発システムの構築 (TortoiseSVN) 開発ML・ユーザMLの整備
現状 検索エンジンを利用した情報検索プロセスにおける信用度調査 1000人/40問程度のアンケート実装 (70万円程度) 9月中旬にプレ実験+再実装 9月下旬にアンケート実施 10月中にアンケート結果を発信
現状 情報爆発時代の企業などグループでの情報共有および意思決定に関する調査 経営学の視点からのアンケート調査 (70万円程度) 10月中旬に実装 11月~12月にアンケートを実施予定
現状 トップカンファレンスに関する報告 9月末の報告会でのWWW2006の研究動向報告 喜連川研究室豊田先生,田中研究室手塚先生ほか