国立情報学研究所 大向 一輝 協力 沼 晃介・鈴木 聡・上松 大輝・間瀬 哲也

Slides:



Advertisements
Similar presentations
IBMユーザ研究会九州研T3 3.Web2.0を実際に使ってみた. Web2.0を実際に使ってみました 研究会をプロジェクトに見立 てて “ Google SpreadSheet ” で会議を開く “ SNS ” でコミュニケーションを補助する “ Wiki ” で成果物を共有する.
Advertisements

Community Web プラットフォーム 大向 一輝(国立情報学研究所) 松尾 豊 (産業技術総合研究所) 松村 真宏(大阪大学) 武田 英明(国立情報学研究所) JSAI2005 近未来チャレンジ.
2016/7/21 情報経済システム論 情報経済システム論:第1回 担当教員 黒田敏史 1. 教員の紹介 黒田 敏史(くろだ としふみ) – 略歴 1978年2月10日生まれ 1996年 神奈川県立藤沢西高校卒業 1997年 東京理科大学理学部物理学科中退 1999年 京都大学経済学部入学 2005年.
音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
顔表情クラスタリングによる 映像コンテンツへのタギング
人工知能特論 8.教師あり学習と教師なし学習
ウェブの時空間解析技術 東京大学生産技術研究所 戦略情報融合国際研究センター 成果概要 ウェブアーカイブ ウェブ空間解析 ウェブ時系列解析
状況に応じたサービスを 提供するための人や物に 共通の情報管理
[グループ名]向けウェブナー [所属機関名] [日付] [発表者の氏名] [発表者の敬称/肩書]
情報処理基礎 2006年 6月 1日.
コミュニティ・ツールを支える 技術と標準化動向・課題
SPA 報告
情報学類 吉田光男 アドバイザー教官: 山本幹雄 先生
オープンデータ流通推進コンソーシアム 情報流通連携基盤外部仕様書の 改訂案
Shelf-Navigator ユーザ動作による書籍相関抽出機構
参照共起分析の Webディレクトリへの適用
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
Linked e-Stat インディゴ株式会社 STAT DASH グランプリ 2016 行政サービス開拓部門 2016/3/5
テキストマイニング, データマイニングと 社会活動のトレース
Object Group ANalizer Graduate School of Information Science and Technology, Osaka University OGAN visualizes representative interactions between a pair.
NIIメタデータデータベースの構想 国立情報学研究所 開発・事業部 コンテンツ課 米 澤 誠
リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究
SMSを利用した コミュニケーションシステムの開発
Piggy Bank: Experience the Semantic Web Inside Your Web Browser
セマンティックWebの現在 ISWC2005参加報告
異種センサを用いた人の行動検知 研究概要 研究の独自性 isi担当 高汐グループ成果 スライド到着待ち yasu担当.
BML (Broadcast Markup Language)
ユビキタス環境における コミュニケーション・ツール選択支援機構の提案
固有空間における コンピュータシステムの障害検知
自動車レビューにおける検索と分析 H208032 松岡 智也 H208060 中西 潤 H208082 松井泰介.
GPS搭載携帯電話を用いた 位置情報付きWeblog投稿・検索システムの設計と実装
Peer to Peer(P2P)の概要と 研究の進捗
「串刺し」研究アプローチの例 e-learning e-space 動画配信 システム SOI Smart Web ストリーミング技術
検索エンジンを利用した Covert Channelの検出
資料1-6 平成26年度 第1回技術委員会資料 支援ツール群整備方針
KMSF-CODEアーキテクチャ における動的QOS制御
環境リスクマネジメントに関する 検索システム
只見町 インターネット・エコミュージアムの「キーワード」検索の改善
WWW上の効率的な ハブ探索法の提案と実装
社会シミュレーションのための モデル作成環境
データ工学特論 第六回 木村昌臣.
インターネット利用法実習 経営工学基礎演習a(第3週).
物履歴に基づいた ユーザプロファイリング機構の構築
ソースコードの特徴量を用いた機械学習による メソッド抽出リファクタリング推薦手法
高汐 一紀 慶應義塾大学 新しい空間の創出:uPlatea 新しい道具の創出: u-Photo 思考する家具・部材: u-Texture
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
北陸先端科学技術大学院大学 中田豊久,金井秀明,國藤進
テキストマイニング, データマイニングと 社会活動のトレース
実空間における関連本アウェアネス 支援システム
Spatial Linker - 空間コンテンツ融合の研究 -
楽天広場が仕掛ける webサービスの世界 2003/6/13 楽天株式会社 田中良和.
資料2-2 平成26年度 第2回技術委員会資料 次年度検討テーマ案
Webからの 人間関係ネットワークの抽出と 情報支援
エコマップ班 総合政策学部2年 飯塚直 2005年2月8日 厳網林研究会
構造的類似性を持つ半構造化文書における頻度分析
ETPB: Extraction of Context from Pedestrians' Behavior
大規模コーパスに基づく同義語・多義語処理
資料3-2 平成26年度 第3回技術委員会資料 次年度テーマの検討
Amicus: A Group Abstraction for Mobile Group Communications
ソフトウェア理解支援を目的とした 辞書の作成法
The Personal Publication Reader: Illustrating Web Data Extraction, Personalization and Reasoning for the Semantic Web Robert Baumgartner*, Nicola Henze+,
わかりやすいパターン認識 第6章 特徴空間の変換 6.5 KL展開の適用法 〔1〕 KL展開と線形判別法 〔2〕 KL展開と学習パターン数
複数活動履歴を基にしたユーザの関心情報の抽出
Webページタイプによるクラスタ リングを用いた検索支援システム
時間情報に基づく多様な中心性に着目した 動的ネットワーク分析の提案
Stefania Ghita, Wolfgang Nejdl, and Raluca Paiu 東京電機大学 土屋 吉寛
慶應義塾大学 政策・メディア研究科 修士課程 2年 間 博人
P2Pによる協調学習システム 唐澤 信介   北海道工業大学 電気工学専攻.
Presentation transcript:

国立情報学研究所 大向 一輝 協力 沼 晃介・鈴木 聡・上松 大輝・間瀬 哲也 サーベイ: Blog研究の現在 2005 国立情報学研究所 大向 一輝 協力 沼 晃介・鈴木 聡・上松 大輝・間瀬 哲也

サーベイの目的 Blog研究の動向 Blogをテーマとする論文(2003年以降) CiteSeer:22件(Blogs)11件(Blogging) CiNii:18件 Blog研究は「研究」か? 書籍・解説・講演論文が大多数を占める 査読付き論文がほとんどない 手段としてのBlog 扱いやすいデータセットとしてBlogが使われている

サーベイの目的 研究にとってのBlogの位置づけ,Blogにとっての研究の位置づけを明確にしたい 各研究者がBlogをどう見ているかを知る 話題提供 Microformats

サーベイ対象 WWW2005 Second Annual Workshop on the Weblogging Ecosystem: Aggregation, Analysis and Dynamics (2005.5) 発表件数:10 http://www.blogpulse.com/www2005-workshop.html 第19回人工知能学会全国大会 (2005.6) 発表件数:7(総数280以上) http://www-kasm.nii.ac.jp/jsai2005/schedule/ WWW2005 Developers’ Day - Microformats http://tantek.com/presentations/2005/05/what-are-microformats/ その他

Blog研究のトレンド(2004) Weblogging Ecosystem WS Keynoteより Blog Census Information(ブログ国勢調査) Link Diffusion(リンク構造分析) Ethnography・ Cultural Studies (民俗学とカルチュラル・スタディーズ) クローリング戦略・カテゴライズ スパム防止

Weblogging Ecosystem 2004 How can we measure the influence of the blogosphere? Blog検索の方法論 Automatic Collection and Monitoring of Japanese Weblogs Web日記からのエントリー抽出 Implicit Structure and the Dynamic of Blogspace トピック・引用関係の時系列分析(パターンマッチング) BlogPulse: Automated Trend Discovery for Weblogs 機械学習・NLPによるトレンド分析 Personal Knowledge Publishing Suite with Weblog RSS・FOAFを用いた情報流通 Mapping the Blogospere in America Bloggerを地図上にマッピング Blogs as “Protected Space” インタビューによるBloggerの心理研究

Blog研究のトレンド(2005) 時系列分析 リンク構造 個人とそのつながり メタデータ Bloggerの行動分析

時系列分析 Blogのリアルタイム性を利用 「Instant Messaging to the Web」[Quan04] ある瞬間のホットトピックを抽出することが目的 キーワード抽出 Blogger(個人)抽出

時系列分析 Discovering Important Bloggers Based on a Blog Thread Analysis [Nakajima(NICT)] 引用関係・TrackBackからBlogエントリーの時系列スレッド構造を抽出 スレッドの分析からAgitator・Summarizerとして機能している書き手を発見 リンク数・スレッド内エントリー数の変化率・トピックの内容変化

時系列分析 Analyzing concerns of people using Weblog articles and real world temporal data [Fukuhara(NICT)] Blogのエントリに含まれる単語の時系列的出現パターンの分類 トピックに共起するサブトピックの変遷

時系列分析 Differences between Blogs and Web Diaries [Fujiki(東工大)] Weblogにおける語の広がり方に基づいたキーワード抽出 [岡田(東京理大)] 語の出現頻度が上昇傾向であるもの=ホットトピック コメントがつきやすい語=ホットトピック Differences between Blogs and Web Diaries [Fujiki(東工大)] BlogWatcher(バースト)を利用したホットトピックの抽出 Blog・Web日記をデータセットとした場合の比較

リンク構造分析 Blog環境に特化したネットワーク分析手法の導入 PageRankの限界 リンクスパム CMSによる大量のリンク生成 情報提供者・評価者としての「個人」 個人を評価するアルゴリズム コミュニティ発見

リンク構造分析 Extracting Latent Weblog Communities: A Partitioning Algorithm for Bipartite Graphs [Ishida(東京農大)] 引用元(Blog)と引用先を分離し,2分グラフを構築 ポータル向けにリンクが集中してしまう 大量のアフィリエイトリンクなどにより,巨大な2分グラフができてしまう 関連性が最も弱い要素をつなぐパス(WP)を作成し,そのパスのBetweennessを用いてクラスタリング

リンク構造分析 The EigenRumor Algorithm for Ranking Blogs [Fujimura(NTT)] コンテンツ間リンクを「情報提供者-コンテンツ」「情報評価者-コンテンツ」リンクに分割 情報提供者としての評価・情報評価者としての評価・コンテンツの評価を固有ベクトル法で計算

個人とそのつながり Blogは「個人」を代表する 複数のコンテンツをまとめる主体 読み手・書き手・編集者を兼ねる Blogger同士のつながり→ソーシャルネットワーク 個人の存在を考慮する手法には適用しやすい 協調フィルタリング アクセス制御

個人とそのつながり bloggerの嗜好を利用した協調フィルタリングによるWeb情報推薦システム[小原(東京電大)] ニュースへのリンクの有無から計算 コールドスタート問題を回避 実世界の社会ネットワークに基づく情報共有システム[森(東大)] 抽出・構築された社会ネットワークを利用したアクセス制御

メタデータ Blogツール=メタデータ生成器 標準的なRSS以外のメタデータを付加したい アプリケーションとともに設計 例 位置情報 コンテキスト 実世界でのコミュニケーションイベント

メタデータ Learning Contextualised Weblog Topics [Avesani(IRST)] 例:分散型アマゾンレビュー 同一コンテキストをどのように判別するか Tagを利用しても表記のゆれが残る ローカルコンテキストを利用したカテゴリ名マッチング Aさんの「Blog」とBさんの「Blogging」を統一 Syntactic・Semantic・Inductiveな手法が必要

メタデータ GIS & Blogosphere [Hurst(Intelliseek)] BlogマイニングシステムとGISシステムをつなぐ Livejournal・XangaからBlogを収集 ユーザが半手動で位置を登録 Livejournal:Givenの地名セット Xanga:Metro(Tagのようなもの) 地名のマッチング 曖昧性が高い(複数候補にマッチする)

メタデータ タグ付けされた場所に基づいたコミュニケーション支援[上松(横国大)] ランドマーク・地名のFolksonomy GPS携帯電話を用いることで絶対位置とのリンク付け ActionLog[沼(総研大)] 実世界でのイベント情報メタデータ(タイトル・時刻)を利用したコンテンツ作成支援

Bloggerの行動分析 Blogがつくりだす人々の振るまいを分析 ミクロ分析 マクロ分析

Bloggerの行動分析 Weblogネットワークの特徴とユーザの行動に関する分析[古川(東京理科大)] ブックマーク・コメント・TrackBack・定期的閲覧・内容的類似性 機械学習による決定木の作成 定期的に閲覧しているBloggerがまた閲覧しているものは,自分にとっても有用である 内容的類似性は大きな影響を与えない

Bloggerの行動分析 The Political Blogosphere and the 2004 U.S. Election: Divided They Blog [Glance(Intelliseek)] アメリカ大統領選における右派・左派のBlogの記事の傾向を分析 同派内リンクは多く,派を越えるリンクは少ない 同派内の記事の類似性は高く,派を越えると低い

Blog研究の今後 ここまでのまとめ リアルタイム性 時系列分析 個人性・コミュニケーション性 リンク構造 個人とそのつながり インフラストラクチャー メタデータ 結果としての人の振る舞い Bloggerの行動分析 Blogは「情報を必要な人にできるだけ速く届けるためのメディア」 SNS・その他ソーシャルウェアを含む

Blog研究の今後 「情報を必要な人にできるだけ速く届けるためのメディア」の使用前・使用後 小さなWebではない 工学系:どうやって実現するか (メタ)データ アプリケーション セマンティックWebの出番? 社会系:何が実現されたか 書き手のモダリティ・振る舞い 国際的な分析

Microformats XHTMLに付加するためのメタデータ・フレームワーク 「小文字のセマンティックWeb」の一種 例:XFN(XHTML Friends Network) <a href=http://i2k.example.org rel="friend met"> Microformats Family XFN hCalendar:カレンダー・イベント情報(iCalendar) hCard:アドレス帳(vCard) hReview:レビュー RelNoFollow:検索エンジンのリンク評価禁止

Microformats 用途ごとに仕様を決める XMDP:XHTML Metadata Profiles 語彙の説明 コンテンツ本体への埋め込み ネームスペースのようなもの <head profile=“http://gmpg.org/xfn/11”> メタデータ <a href=http://i2k.example.org rel=“CC by-sa” rel=“nofollow”>

Microformats Less Syntax XHTMLタグのアトリビュートのみ class=“***” rel=“***” Less Semantics エージェントによる概念の自動発見は不可能 そもそも既知の問題だけを対象としている Application Dependent Microformatsを認識できるアプリケーションがなければ意味がない(ただし害もない) セマンティックWebも同じ セマンティックWebへの道 相互運用性があればなんとかなる リンクへのrel要素の付加はRDFのモデルと同じ? まずはメタデータの絶対量が増えることが重要

まとめ Blog研究の現在 2005 Web研究 != Blog研究 になりはじめてきた コミュニケーションメディアとしてのBlog 即時性 個人性 コミュニケーション・インタラクション コミュニティを支えるメタデータ MicroformatsとセマンティックWeb 恐れるに足らず(たぶん味方) UI・UEが引き起こすインパクトは侮れない Continue to「Blog研究の現在 2006」…