情報爆発に対応する 新IT基盤研究支援プラットフォームの構築

Slides:



Advertisements
Similar presentations
ウィキについて 1 1040431 1 1040431 植木貴宏 植木貴宏. ウィキとは? ウェブブラウザを利用して Web サーバ 上のハイパーテキスト文書を書き換え るシステムの一種。 ウェブブラウザを利用して Web サーバ 上のハイパーテキスト文書を書き換え るシステムの一種。 Wiki とは、ハワイ語で「速い」を意味.
Advertisements

IBMユーザ研究会九州研T3 3.Web2.0を実際に使ってみた. Web2.0を実際に使ってみました 研究会をプロジェクトに見立 てて “ Google SpreadSheet ” で会議を開く “ SNS ” でコミュニケーションを補助する “ Wiki ” で成果物を共有する.
静岡大学情報学研究科 戸根木千洋 ユーザーイメージ収集 インターフェースの開発. 2 目次 背景と目的 研究の構成 研究の詳細 イメージ収集インターフェースの提案 映画イメージ収集システムの開発 システムの評価 今後の課題.
Integrated Personal Page C05823 森本万里子 C05829 西山礼恵 C05899 高木華子.
オープン&ビッグデータ活用・地方創生推進機構 事務局 オープン&ビッグデータ活用・地方創生推進機構 評価版ツールの状況報告 平成26年度第3回 技術委員会 資料3-1.
RSS,Atom の動向 理工学部 情報学科 3 年 片山友輝. 発表内容 ・ RSS,Atom おさらい ・なぜ Atom ができたか? ・ Atom の特徴 ・ Atom の動向 ・ Atom フィードの記述方法 ・ Atom 対応ツール ・参考文献・資料.
ユーザーイメージ収集 インターフェイスの開発
Web アプリをユーザー毎に カスタマイズ可能にする AOP フレームワーク
IIS 4.0で開発をするコツ Webアプリケーション構築.
ウェブの時空間解析技術 東京大学生産技術研究所 戦略情報融合国際研究センター 成果概要 ウェブアーカイブ ウェブ空間解析 ウェブ時系列解析
The Perl Conference Japan ’98 朝日奈アンテナによる コンテンツ情報の取得と利用
ヘルスケア連動型 市販薬検索システム 研究者 : 加納 えり 指導教員 : 越田 高志.
[グループ名]向けウェブナー [所属機関名] [日付] [発表者の氏名] [発表者の敬称/肩書]
表計算ソフトで動作するNEMUROの開発
情報学類 吉田光男 アドバイザー教官: 山本幹雄 先生
SlothLib.Web.
REST型Webサービスによる 楽曲検索システムの開発
参照共起分析の Webディレクトリへの適用
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
テキストマイニング, データマイニングと 社会活動のトレース
Object Group ANalizer Graduate School of Information Science and Technology, Osaka University OGAN visualizes representative interactions between a pair.
企業情報ポータルについて 近畿大学理工学部 情報学科3回生 藤森浩忠.
応用情報処理V 第1回 プログラミングとは何か 2004年9月27日.
リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究
オペレーティングシステムⅡ 第3回 講師 松本 章代 VirtuaWin・・・仮想デスクトップソフト 2009/10/16.
書誌情報を提供するサービスへ 「だれでも」書誌情報をダウンロードして再活用できる
卒業論文 最終発表 WWW情報検索 ナビゲーションシステムの設計と実装
共同ローカリゼーション フレームワーク 井上 謙次.
DixChange プロジェクト ~辞書共通化の試み~
テキストの類似度計算
応用情報処理V 第1回 プログラミングとは何か 2003年9月29日.
リファクタリングのための 変更波及解析を利用した テスト支援ツールの提案
基礎プログラミング演習 第1回.
Java ソフトウェア部品検索システム SPARS-J のための リポジトリ自動更新機能の実現
概要 Boxed Economy Simulation Platform(BESP)とその基本構造 BESPの設計・実装におけるポイント!
利用関係に基づく類似度を用いたJavaコンポーネント分類ツールの作成
事務所における情報化の問題点 データが所内で共有されていない、各課ごとに個別に利用されている
アップデート 株式会社アプライド・マーケティング 大越 章司
卒論の書き方: 参考文献について 2017年9月27日 小尻智子.
只見町 インターネット・エコミュージアムの「キーワード」検索の改善
コードクローン検出ツールを用いた ソースコード分析システムの試作と プログラミング演習への適用
Internet広域分散協調サーチロボット の研究開発
オープンソース開発支援のための ソースコード及びメールの履歴対応表示システム
COM コンポーネント・オブジェクト・モデル.
オープンソース開発支援のための リビジョン情報と電子メールの検索システム
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
すべて読む Microsoft SharePoint ニュース
テキストマイニング, データマイニングと 社会活動のトレース
Firebaseを用いた 位置情報共有システム
ソフトウェア保守のための コードクローン情報検索ツール
早稲田大学大学院 基幹理工学研究科 情報理工学専攻 後藤研究室 修士1年 魏 元
Spatial Linker - 空間コンテンツ融合の研究 -
Peer-to-Peerシステムにおける動的な木構造の生成による検索の高速化
コーディングパターンの あいまい検索の提案と実装
オブジェクトの協調動作を用いた オブジェクト指向プログラム実行履歴分割手法
発表32 レポート評価支援について (剽窃部分と指導箇所の検出)
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
プログラムの差分記述を 容易に行うための レイヤー機構付きIDEの提案
メソッドの同時更新履歴を用いたクラスの機能別分類法
統合開発環境のための プログラミング言語拡張 フレームワーク
第2回 Webサーバ.
Webページタイプによるクラスタ リングを用いた検索支援システム
エイリアス関係を考慮した Javaプログラム用静的スライシングツール
プログラムの一時停止時に 将来の実行情報を提供するデバッガ
知識ベースの試作計画 ●●●研究所 ●●●技術部 稲本□□ 1997年1月.
ベイジアンネットワークと クラスタリング手法を用いたWeb障害検知システムの開発
GluonJ を用いたビジネスロジックからのデータベースアクセスの分離
P2Pによる協調学習システム 唐澤 信介   北海道工業大学 電気工学専攻.
Presentation transcript:

情報爆発に対応する 新IT基盤研究支援プラットフォームの構築 A01 支援班 / 中村聡史 京都大学 田中克己,田島敬史,小山聡,手塚太郎 アダムヤトフト,大島裕明(京都大学),喜連川優(東京大学)

支援班の活動計画の概要 次世代サーチ関連のソフトウエアライブラリの整備 戦略的調査 産学連携・国際連携支援 上記を担当する若手研究者2名程度を雇用

支援班の活動計画の概要 次世代サーチ関連のソフトウエアライブラリの整備 戦略的調査 産学連携・国際連携支援 「次世代サーチ」関連のSlothLibの開発・拡張 ユーザインタフェース関連 戦略的調査 「次世代サーチ」や「ウエブ信用度」関連の戦略的調査を実施 産学連携・国際連携支援 サーチベンダー・ポータル企業との折衝により,クエリログデータなどの貸し出し 共同研究プラットフォーム作り シンポジウムなどの開催 上記を担当する若手研究者2名程度を雇用 中村聡史+1名募集中

従来のサーチ関連の研究推進の問題点 ウェブ関連の研究における敷居の高さ 新しいアイディアを思いついても,研究に取り掛かる際に膨大な調査,学習,実装時間が必要となる 検索エンジンの利用方法(Google,Yahooなど) ウェブページの取得方法,リンクの取得方法 形態素解析,代表語抽出,クラスタリングなど 各研究者は独自に各種システム・サービスを使うための調査,開発を行っている 情報の共有がほとんど行われていない 独自のコードを組んでいるため再利用が困難 前 準 備 研 究 の 本 番 着想 必要なシステム サービスの調査 プログラミング 言語の習得 各種サービスを 利用するための実装 開発 検証・改良 評価・論文化

必要な技術を誰でも手軽に利用できる仕組みを構築 ソフトウエアライブラリ化の目的 日本の情報爆発に関する研究発展のため 必要な技術を誰でも手軽に利用できる仕組みを構築 従来技術のとりまとめ 各研究者が開発,公開している技術をとりまとめる 各種技術のコンポーネント化による利用簡易化 前準備がほとんど必要なくなる 研究者間での技術の共有が容易になる Visual Programming 機構による直感性向上 アイディアを手軽に形にし,テストできるようになる 議論しながらのプログラミングが可能になる 新人向けの教育用途としての利用も可能になる

ウェブサーチ関連のソフトウェアライブラリの現状 Web関連のソフトウェアを構成する各機能要素を実現 各種機能・既存アルゴリズムを共通APIを持たせて実装 ソフトウェアの試作開発・改良におけるコストを大幅に削減 JavaとC#による実装で広いプラットフォームに対応 これらの部品群の一部はアスペクト指向プログラミングにおけるDI(Dependency Injection=依存性の注入)によるコンポーネント化を実現し,コンポーネントの組み合わせはXMLによる記述で実現可能である 各ソフトウェア部品が密に連携 類似機能には共通インターフェース クラスタリング ・階層型:5種 ・非階層型:1種 Web情報収集 ・マルチスレッドで高速 ・文字コード自動判別 SlothLib 特徴ベクトル ・TF-IDF等ベクトル生成 ・ベクトルの各種演算 ・多様な正規化手法 ・類似度・距離計算など 形態素解析 ・茶筌 ・MeCab ・TreeTagger ・Porter Stermmer Web検索 ・Google (Text, Image) ・Infoseek (Text, Video) ・Yahoo! (Text, Image, Video) ・AltaVista (Text, Image, Video)

SlothLibの利用例 Web検索を利用した同位語発見システム プロトタイプシステムは1日で作成 メインアイデアの実装にのみ集中できる 英語版の作成も容易に可能 ① Google検索でタイトルとスニペットを100件取得。 ④ TFやTF-IDFによる重みづけを試しながら特徴語抽出を実装。 ② 茶筌による形態素解析を利用して解析。 ⑤ 結果のクラスタリングを各種アルゴリズムを試しながら実装。閾値操作をスライドバーで対応。 ②’解析器を交換することで容易に英語対応が可能。 ③ 特徴ベクトルライブラリの演算機能、ソート機能などを活用して結果の作成・表示。

サーチ関連ソフト開発のための Visual Programming コンポーネントを視覚化し,マウス操作で相互に接続することでプログラミングを行う プラグインという形でコンポーネントを読み込む 追加されたコンポーネントはツールウインドウに表示される コンポーネントは入出力をもつ 入力例: 検索キーワード,URL,テキストなど 出力例: 検索結果リスト,テキスト,代表語など コンポーネントの動作設定が可能 検索結果数,出力内容の設定など コンポーネントは自由に配置可能 マウスのドラッグアンドドロップ操作による機能の追加 コネクタの追加による入出力の流れ設定 より詳細なプログラミングのためのソースコード出力

海外の調査事例 スタンフォード大学のWeb調査 目的 Webへの信用度に関連して、利用者のWebサイトの認識に対し、どのような要因が影響を与えているのかを調査すること Webサイトの管理者や評価者などに対するガイドライン作成・発表につながる調査が最終目的 調査内容 Webサイトへの信用度と技術的要素 Webサイトへの信用度と信頼構築要素 Webサイトへの信用度とスポンサーシップ要素 規模 サンプル数:1481人(米国、フィンランド等) 調査質問数:55個 参照 B.J.Fogg, T.Kameda, J.Boyd, J.Marshall, R.Sethi, M.Sockol,“Stanford-Makovsy Web Credibility Study 2002: Investigating What Makes Web Sites Credible Today“,Report from Stanford Persuasive Technology Lab.(not peer reviewed),Spring 2002. http://captology.stanford.edu/pdf/Stanford-MakovskyWebCredStudy2002-prelim.pdf 目的にはありませんが、この論文をもってサイト作成のガイドラインを発表しており、 「知らしめる」というのはそこのあたりを指しているのではないかと思っています。 技術的要素とは、「リンクが正しく働く」「記述が正しい」というもの他に 引用や参照、著者の記述など、どちらかというと論文を発表しているサイトの 信頼度構築要素には「人から教えてもらった」「以前から知っていた」なども含まれています。 スポンサーシップ要素には「広告で宣伝されていた」というものがある一方で 「広告と本体を判別できない」や「広告がポップアップで表示される」なども含まれていました。

今後予定している戦略的調査 [6月時点] 研究プロジェクトの強い根拠となるような社会的な実態調査 一例としてWebの信頼性を中心に実施予定 サイト単位ではなく,個々の情報の信頼度に関する調査 Web上の情報を信用するときに重要視する要素 検索結果と共に提示して欲しいと思う情報 サンプル数:1000人程度 調査質問数:50程度 情報爆発の実態,サーチエンジンに対する不満・期待など,より範囲を広げて実施を計画

現状 情報爆発時代の検索にかかわる研究支援 ライブラリの開発 (200万円) ブロックプログラミング環境の実現 (150万円) 各種Web APIの利用(各種検索サービス) ウェブ取得・解析 言語処理 ユーザインタフェース ブロックプログラミング環境の実現 (150万円) Webページの整備 ドキュメントの整備 参加型開発システムの構築 (TortoiseSVN) 開発ML・ユーザMLの整備

現状 検索エンジンを利用した情報検索プロセスにおける信用度調査 1000人/40問程度のアンケート実装 (70万円程度) 9月中旬にプレ実験+再実装 9月下旬にアンケート実施 10月中にアンケート結果を発信

現状 情報爆発時代の企業などグループでの情報共有および意思決定に関する調査 経営学の視点からのアンケート調査 (70万円程度) 10月中旬に実装 11月~12月にアンケートを実施予定

現状 トップカンファレンスに関する報告 9月末の報告会でのWWW2006の研究動向報告 喜連川研究室豊田先生,田中研究室手塚先生ほか