Presentation is loading. Please wait.

Presentation is loading. Please wait.

国立情報学研究所 大向 一輝 協力 沼 晃介・鈴木 聡・上松 大輝・間瀬 哲也

Similar presentations


Presentation on theme: "国立情報学研究所 大向 一輝 協力 沼 晃介・鈴木 聡・上松 大輝・間瀬 哲也"— Presentation transcript:

1 国立情報学研究所 大向 一輝 協力 沼 晃介・鈴木 聡・上松 大輝・間瀬 哲也
サーベイ: Blog研究の現在 2005 国立情報学研究所 大向 一輝 協力 沼 晃介・鈴木 聡・上松 大輝・間瀬 哲也

2 サーベイの目的 Blog研究の動向 Blogをテーマとする論文(2003年以降)
CiteSeer:22件(Blogs)11件(Blogging) CiNii:18件 Blog研究は「研究」か? 書籍・解説・講演論文が大多数を占める 査読付き論文がほとんどない 手段としてのBlog 扱いやすいデータセットとしてBlogが使われている

3 サーベイの目的 研究にとってのBlogの位置づけ,Blogにとっての研究の位置づけを明確にしたい 各研究者がBlogをどう見ているかを知る
話題提供 Microformats

4 サーベイ対象 WWW2005 Second Annual Workshop on the Weblogging Ecosystem: Aggregation, Analysis and Dynamics (2005.5) 発表件数:10 第19回人工知能学会全国大会 (2005.6) 発表件数:7(総数280以上) WWW2005 Developers’ Day - Microformats その他

5 Blog研究のトレンド(2004) Weblogging Ecosystem WS Keynoteより
Blog Census Information(ブログ国勢調査) Link Diffusion(リンク構造分析) Ethnography・ Cultural Studies (民俗学とカルチュラル・スタディーズ) クローリング戦略・カテゴライズ スパム防止

6 Weblogging Ecosystem 2004 How can we measure the influence of the blogosphere? Blog検索の方法論 Automatic Collection and Monitoring of Japanese Weblogs Web日記からのエントリー抽出 Implicit Structure and the Dynamic of Blogspace トピック・引用関係の時系列分析(パターンマッチング) BlogPulse: Automated Trend Discovery for Weblogs 機械学習・NLPによるトレンド分析 Personal Knowledge Publishing Suite with Weblog RSS・FOAFを用いた情報流通 Mapping the Blogospere in America Bloggerを地図上にマッピング Blogs as “Protected Space” インタビューによるBloggerの心理研究

7 Blog研究のトレンド(2005) 時系列分析 リンク構造 個人とそのつながり メタデータ Bloggerの行動分析

8 時系列分析 Blogのリアルタイム性を利用 「Instant Messaging to the Web」[Quan04]
ある瞬間のホットトピックを抽出することが目的 キーワード抽出 Blogger(個人)抽出

9 時系列分析 Discovering Important Bloggers Based on a Blog Thread Analysis [Nakajima(NICT)] 引用関係・TrackBackからBlogエントリーの時系列スレッド構造を抽出 スレッドの分析からAgitator・Summarizerとして機能している書き手を発見 リンク数・スレッド内エントリー数の変化率・トピックの内容変化

10 時系列分析 Analyzing concerns of people using Weblog articles and real world temporal data [Fukuhara(NICT)] Blogのエントリに含まれる単語の時系列的出現パターンの分類 トピックに共起するサブトピックの変遷

11 時系列分析 Differences between Blogs and Web Diaries [Fujiki(東工大)]
Weblogにおける語の広がり方に基づいたキーワード抽出 [岡田(東京理大)] 語の出現頻度が上昇傾向であるもの=ホットトピック コメントがつきやすい語=ホットトピック Differences between Blogs and Web Diaries [Fujiki(東工大)] BlogWatcher(バースト)を利用したホットトピックの抽出 Blog・Web日記をデータセットとした場合の比較

12 リンク構造分析 Blog環境に特化したネットワーク分析手法の導入 PageRankの限界 リンクスパム CMSによる大量のリンク生成
情報提供者・評価者としての「個人」 個人を評価するアルゴリズム コミュニティ発見

13 リンク構造分析 Extracting Latent Weblog Communities: A Partitioning Algorithm for Bipartite Graphs [Ishida(東京農大)] 引用元(Blog)と引用先を分離し,2分グラフを構築 ポータル向けにリンクが集中してしまう 大量のアフィリエイトリンクなどにより,巨大な2分グラフができてしまう 関連性が最も弱い要素をつなぐパス(WP)を作成し,そのパスのBetweennessを用いてクラスタリング

14 リンク構造分析 The EigenRumor Algorithm for Ranking Blogs [Fujimura(NTT)]
コンテンツ間リンクを「情報提供者-コンテンツ」「情報評価者-コンテンツ」リンクに分割 情報提供者としての評価・情報評価者としての評価・コンテンツの評価を固有ベクトル法で計算

15 個人とそのつながり Blogは「個人」を代表する 複数のコンテンツをまとめる主体 読み手・書き手・編集者を兼ねる
Blogger同士のつながり→ソーシャルネットワーク 個人の存在を考慮する手法には適用しやすい 協調フィルタリング アクセス制御

16 個人とそのつながり bloggerの嗜好を利用した協調フィルタリングによるWeb情報推薦システム[小原(東京電大)]
ニュースへのリンクの有無から計算 コールドスタート問題を回避 実世界の社会ネットワークに基づく情報共有システム[森(東大)] 抽出・構築された社会ネットワークを利用したアクセス制御

17 メタデータ Blogツール=メタデータ生成器 標準的なRSS以外のメタデータを付加したい アプリケーションとともに設計 例 位置情報
コンテキスト 実世界でのコミュニケーションイベント

18 メタデータ Learning Contextualised Weblog Topics [Avesani(IRST)]
例:分散型アマゾンレビュー 同一コンテキストをどのように判別するか Tagを利用しても表記のゆれが残る ローカルコンテキストを利用したカテゴリ名マッチング Aさんの「Blog」とBさんの「Blogging」を統一 Syntactic・Semantic・Inductiveな手法が必要

19 メタデータ GIS & Blogosphere [Hurst(Intelliseek)] BlogマイニングシステムとGISシステムをつなぐ
Livejournal・XangaからBlogを収集 ユーザが半手動で位置を登録 Livejournal:Givenの地名セット Xanga:Metro(Tagのようなもの) 地名のマッチング 曖昧性が高い(複数候補にマッチする)

20 メタデータ タグ付けされた場所に基づいたコミュニケーション支援[上松(横国大)] ランドマーク・地名のFolksonomy
GPS携帯電話を用いることで絶対位置とのリンク付け ActionLog[沼(総研大)] 実世界でのイベント情報メタデータ(タイトル・時刻)を利用したコンテンツ作成支援

21 Bloggerの行動分析 Blogがつくりだす人々の振るまいを分析 ミクロ分析 マクロ分析

22 Bloggerの行動分析 Weblogネットワークの特徴とユーザの行動に関する分析[古川(東京理科大)]
ブックマーク・コメント・TrackBack・定期的閲覧・内容的類似性 機械学習による決定木の作成 定期的に閲覧しているBloggerがまた閲覧しているものは,自分にとっても有用である 内容的類似性は大きな影響を与えない

23 Bloggerの行動分析 The Political Blogosphere and the 2004 U.S. Election: Divided They Blog [Glance(Intelliseek)] アメリカ大統領選における右派・左派のBlogの記事の傾向を分析 同派内リンクは多く,派を越えるリンクは少ない 同派内の記事の類似性は高く,派を越えると低い

24 Blog研究の今後 ここまでのまとめ リアルタイム性 時系列分析 個人性・コミュニケーション性 リンク構造 個人とそのつながり
インフラストラクチャー メタデータ 結果としての人の振る舞い Bloggerの行動分析 Blogは「情報を必要な人にできるだけ速く届けるためのメディア」 SNS・その他ソーシャルウェアを含む

25 Blog研究の今後 「情報を必要な人にできるだけ速く届けるためのメディア」の使用前・使用後 小さなWebではない
工学系:どうやって実現するか (メタ)データ アプリケーション セマンティックWebの出番? 社会系:何が実現されたか 書き手のモダリティ・振る舞い 国際的な分析

26 Microformats XHTMLに付加するためのメタデータ・フレームワーク 「小文字のセマンティックWeb」の一種
例:XFN(XHTML Friends Network) <a href= rel="friend met"> Microformats Family XFN hCalendar:カレンダー・イベント情報(iCalendar) hCard:アドレス帳(vCard) hReview:レビュー RelNoFollow:検索エンジンのリンク評価禁止

27 Microformats 用途ごとに仕様を決める XMDP:XHTML Metadata Profiles 語彙の説明
コンテンツ本体への埋め込み ネームスペースのようなもの <head profile=“ メタデータ <a href= rel=“CC by-sa” rel=“nofollow”>

28 Microformats Less Syntax XHTMLタグのアトリビュートのみ class=“***” rel=“***”
Less Semantics エージェントによる概念の自動発見は不可能 そもそも既知の問題だけを対象としている Application Dependent Microformatsを認識できるアプリケーションがなければ意味がない(ただし害もない) セマンティックWebも同じ セマンティックWebへの道 相互運用性があればなんとかなる リンクへのrel要素の付加はRDFのモデルと同じ? まずはメタデータの絶対量が増えることが重要

29 まとめ Blog研究の現在 2005 Web研究 != Blog研究 になりはじめてきた コミュニケーションメディアとしてのBlog 即時性
個人性 コミュニケーション・インタラクション コミュニティを支えるメタデータ MicroformatsとセマンティックWeb 恐れるに足らず(たぶん味方) UI・UEが引き起こすインパクトは侮れない Continue to「Blog研究の現在 2006」…


Download ppt "国立情報学研究所 大向 一輝 協力 沼 晃介・鈴木 聡・上松 大輝・間瀬 哲也"

Similar presentations


Ads by Google