国立情報学研究所 大向 一輝 協力 沼 晃介・鈴木 聡・上松 大輝・間瀬 哲也 サーベイ: Blog研究の現在 2005 国立情報学研究所 大向 一輝 協力 沼 晃介・鈴木 聡・上松 大輝・間瀬 哲也
サーベイの目的 Blog研究の動向 Blogをテーマとする論文(2003年以降) CiteSeer:22件(Blogs)11件(Blogging) CiNii:18件 Blog研究は「研究」か? 書籍・解説・講演論文が大多数を占める 査読付き論文がほとんどない 手段としてのBlog 扱いやすいデータセットとしてBlogが使われている
サーベイの目的 研究にとってのBlogの位置づけ,Blogにとっての研究の位置づけを明確にしたい 各研究者がBlogをどう見ているかを知る 話題提供 Microformats
サーベイ対象 WWW2005 Second Annual Workshop on the Weblogging Ecosystem: Aggregation, Analysis and Dynamics (2005.5) 発表件数:10 http://www.blogpulse.com/www2005-workshop.html 第19回人工知能学会全国大会 (2005.6) 発表件数:7(総数280以上) http://www-kasm.nii.ac.jp/jsai2005/schedule/ WWW2005 Developers’ Day - Microformats http://tantek.com/presentations/2005/05/what-are-microformats/ その他
Blog研究のトレンド(2004) Weblogging Ecosystem WS Keynoteより Blog Census Information(ブログ国勢調査) Link Diffusion(リンク構造分析) Ethnography・ Cultural Studies (民俗学とカルチュラル・スタディーズ) クローリング戦略・カテゴライズ スパム防止
Weblogging Ecosystem 2004 How can we measure the influence of the blogosphere? Blog検索の方法論 Automatic Collection and Monitoring of Japanese Weblogs Web日記からのエントリー抽出 Implicit Structure and the Dynamic of Blogspace トピック・引用関係の時系列分析(パターンマッチング) BlogPulse: Automated Trend Discovery for Weblogs 機械学習・NLPによるトレンド分析 Personal Knowledge Publishing Suite with Weblog RSS・FOAFを用いた情報流通 Mapping the Blogospere in America Bloggerを地図上にマッピング Blogs as “Protected Space” インタビューによるBloggerの心理研究
Blog研究のトレンド(2005) 時系列分析 リンク構造 個人とそのつながり メタデータ Bloggerの行動分析
時系列分析 Blogのリアルタイム性を利用 「Instant Messaging to the Web」[Quan04] ある瞬間のホットトピックを抽出することが目的 キーワード抽出 Blogger(個人)抽出
時系列分析 Discovering Important Bloggers Based on a Blog Thread Analysis [Nakajima(NICT)] 引用関係・TrackBackからBlogエントリーの時系列スレッド構造を抽出 スレッドの分析からAgitator・Summarizerとして機能している書き手を発見 リンク数・スレッド内エントリー数の変化率・トピックの内容変化
時系列分析 Analyzing concerns of people using Weblog articles and real world temporal data [Fukuhara(NICT)] Blogのエントリに含まれる単語の時系列的出現パターンの分類 トピックに共起するサブトピックの変遷
時系列分析 Differences between Blogs and Web Diaries [Fujiki(東工大)] Weblogにおける語の広がり方に基づいたキーワード抽出 [岡田(東京理大)] 語の出現頻度が上昇傾向であるもの=ホットトピック コメントがつきやすい語=ホットトピック Differences between Blogs and Web Diaries [Fujiki(東工大)] BlogWatcher(バースト)を利用したホットトピックの抽出 Blog・Web日記をデータセットとした場合の比較
リンク構造分析 Blog環境に特化したネットワーク分析手法の導入 PageRankの限界 リンクスパム CMSによる大量のリンク生成 情報提供者・評価者としての「個人」 個人を評価するアルゴリズム コミュニティ発見
リンク構造分析 Extracting Latent Weblog Communities: A Partitioning Algorithm for Bipartite Graphs [Ishida(東京農大)] 引用元(Blog)と引用先を分離し,2分グラフを構築 ポータル向けにリンクが集中してしまう 大量のアフィリエイトリンクなどにより,巨大な2分グラフができてしまう 関連性が最も弱い要素をつなぐパス(WP)を作成し,そのパスのBetweennessを用いてクラスタリング
リンク構造分析 The EigenRumor Algorithm for Ranking Blogs [Fujimura(NTT)] コンテンツ間リンクを「情報提供者-コンテンツ」「情報評価者-コンテンツ」リンクに分割 情報提供者としての評価・情報評価者としての評価・コンテンツの評価を固有ベクトル法で計算
個人とそのつながり Blogは「個人」を代表する 複数のコンテンツをまとめる主体 読み手・書き手・編集者を兼ねる Blogger同士のつながり→ソーシャルネットワーク 個人の存在を考慮する手法には適用しやすい 協調フィルタリング アクセス制御
個人とそのつながり bloggerの嗜好を利用した協調フィルタリングによるWeb情報推薦システム[小原(東京電大)] ニュースへのリンクの有無から計算 コールドスタート問題を回避 実世界の社会ネットワークに基づく情報共有システム[森(東大)] 抽出・構築された社会ネットワークを利用したアクセス制御
メタデータ Blogツール=メタデータ生成器 標準的なRSS以外のメタデータを付加したい アプリケーションとともに設計 例 位置情報 コンテキスト 実世界でのコミュニケーションイベント
メタデータ Learning Contextualised Weblog Topics [Avesani(IRST)] 例:分散型アマゾンレビュー 同一コンテキストをどのように判別するか Tagを利用しても表記のゆれが残る ローカルコンテキストを利用したカテゴリ名マッチング Aさんの「Blog」とBさんの「Blogging」を統一 Syntactic・Semantic・Inductiveな手法が必要
メタデータ GIS & Blogosphere [Hurst(Intelliseek)] BlogマイニングシステムとGISシステムをつなぐ Livejournal・XangaからBlogを収集 ユーザが半手動で位置を登録 Livejournal:Givenの地名セット Xanga:Metro(Tagのようなもの) 地名のマッチング 曖昧性が高い(複数候補にマッチする)
メタデータ タグ付けされた場所に基づいたコミュニケーション支援[上松(横国大)] ランドマーク・地名のFolksonomy GPS携帯電話を用いることで絶対位置とのリンク付け ActionLog[沼(総研大)] 実世界でのイベント情報メタデータ(タイトル・時刻)を利用したコンテンツ作成支援
Bloggerの行動分析 Blogがつくりだす人々の振るまいを分析 ミクロ分析 マクロ分析
Bloggerの行動分析 Weblogネットワークの特徴とユーザの行動に関する分析[古川(東京理科大)] ブックマーク・コメント・TrackBack・定期的閲覧・内容的類似性 機械学習による決定木の作成 定期的に閲覧しているBloggerがまた閲覧しているものは,自分にとっても有用である 内容的類似性は大きな影響を与えない
Bloggerの行動分析 The Political Blogosphere and the 2004 U.S. Election: Divided They Blog [Glance(Intelliseek)] アメリカ大統領選における右派・左派のBlogの記事の傾向を分析 同派内リンクは多く,派を越えるリンクは少ない 同派内の記事の類似性は高く,派を越えると低い
Blog研究の今後 ここまでのまとめ リアルタイム性 時系列分析 個人性・コミュニケーション性 リンク構造 個人とそのつながり インフラストラクチャー メタデータ 結果としての人の振る舞い Bloggerの行動分析 Blogは「情報を必要な人にできるだけ速く届けるためのメディア」 SNS・その他ソーシャルウェアを含む
Blog研究の今後 「情報を必要な人にできるだけ速く届けるためのメディア」の使用前・使用後 小さなWebではない 工学系:どうやって実現するか (メタ)データ アプリケーション セマンティックWebの出番? 社会系:何が実現されたか 書き手のモダリティ・振る舞い 国際的な分析
Microformats XHTMLに付加するためのメタデータ・フレームワーク 「小文字のセマンティックWeb」の一種 例:XFN(XHTML Friends Network) <a href=http://i2k.example.org rel="friend met"> Microformats Family XFN hCalendar:カレンダー・イベント情報(iCalendar) hCard:アドレス帳(vCard) hReview:レビュー RelNoFollow:検索エンジンのリンク評価禁止
Microformats 用途ごとに仕様を決める XMDP:XHTML Metadata Profiles 語彙の説明 コンテンツ本体への埋め込み ネームスペースのようなもの <head profile=“http://gmpg.org/xfn/11”> メタデータ <a href=http://i2k.example.org rel=“CC by-sa” rel=“nofollow”>
Microformats Less Syntax XHTMLタグのアトリビュートのみ class=“***” rel=“***” Less Semantics エージェントによる概念の自動発見は不可能 そもそも既知の問題だけを対象としている Application Dependent Microformatsを認識できるアプリケーションがなければ意味がない(ただし害もない) セマンティックWebも同じ セマンティックWebへの道 相互運用性があればなんとかなる リンクへのrel要素の付加はRDFのモデルと同じ? まずはメタデータの絶対量が増えることが重要
まとめ Blog研究の現在 2005 Web研究 != Blog研究 になりはじめてきた コミュニケーションメディアとしてのBlog 即時性 個人性 コミュニケーション・インタラクション コミュニティを支えるメタデータ MicroformatsとセマンティックWeb 恐れるに足らず(たぶん味方) UI・UEが引き起こすインパクトは侮れない Continue to「Blog研究の現在 2006」…