ブログマイニングによる観光情報分 析 北海道工業大学 情報デザイン学科 岩佐渉、三田村保、湯川恵子、大堀隆文.

Slides:



Advertisements
Similar presentations
IBMユーザ研究会九州研T3 3.Web2.0を実際に使ってみた. Web2.0を実際に使ってみました 研究会をプロジェクトに見立 てて “ Google SpreadSheet ” で会議を開く “ SNS ” でコミュニケーションを補助する “ Wiki ” で成果物を共有する.
Advertisements

11 月 17 日 インターネット検索の基礎 インターネット検索 最近の話題 宿題披露 興味を持っているものを検索してみ よう どんな時にインターネット検索するか 宿題 授業資料
人間とコンピュータ インターネット検索 11 月 10 日, 11 月 17 日, 11 月 24 日.
DTM を使った楽曲制作 DTM を扱う職業などの調査 北海道情報大学 情報メディア学 部 情報メディア学科 新井山ゼミ 宮本 拓美.
1 朝日新聞社 デジタル事業本部 デジタル営業セクション TEL:03-5540-7212 FAX:03-5541-8997 1 住まい K-4 K-5 K-2 K-3 K-1 ※パックメニューをご参照ください ( V-10 フッターワイドビジョン) ▼ メニュー構成.
RSS & Atom API 理工学部 情報学科 3 年 片山友輝. 発表内容 ・ RSS とは? ・ Atom とは? ・ RSS 対応ツール ・ RSS の研究室での利用価値 ・今後の課題 ・参考文献・資料.
カーリルを利用した 書籍活用 / 蔵書管理システム 研究者: J0639 山中勇太 指導教員:越田高志.
1 EASE プロジェクトにおける EPM ( Empirical Project Monitor) を用いたプロジェクト管理デモ 奈良先端科学技術大学院大学 産学官連携研究員 松村 知子 2005 年 9 月 30 日 JISA 経営者セミナー.
Copyright©2005 Affiliate Ad, Company アフリエイトアド事業の ご紹介 アフリエイトアド株式会社 林 香.
ブログ blog ・ブログとは何 か? ・ブログとは何 か? ・ブログの始め方・ブログの使い方 Copyright Ⓒ 2005 Chiaki Emi All right reserved Ver 1.0.
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
ホームページ活用勉強会+ホームページ作成体験会 スマートフォン時代のホームページ活用術
ウェブの時空間解析技術 東京大学生産技術研究所 戦略情報融合国際研究センター 成果概要 ウェブアーカイブ ウェブ空間解析 ウェブ時系列解析
最新ファイルの提供を保証する代理FTPサーバの開発
ヘルスケア連動型 市販薬検索システム 研究者 : 加納 えり 指導教員 : 越田 高志.
・ホームページ製作業務のご案内 ・各種プランのご案内 ・基本構成 ・オプション構成 ・サイト構築までの流れ
初めてのパソコン目次へ パソコンでできること
Twitterの発言に基づくウェブページ推薦システム
第2章 ネットサービスとその仕組み(前編) [近代科学社刊]
情報処理基礎 2006年 6月 1日.
WordPressの基礎.
クチコミPress 掲載ガイド:2009年1月-3月 ご提案書.
Google 【日本語】の利用 5-4 【日本語】Google 69) (2010/04/23現在)
共催:武蔵工業大学環境情報学部(横浜キャンパス)
「ブログ実践講座」 平成21年1月24日(土) 主催:ABS21 協力:青葉区社会福祉協議会.
情報技術と著作権.
Webネットワークにおける 研究者間の分析
参照共起分析の Webディレクトリへの適用
2016/05/30 駒澤大学 経営学部 市場戦略学科 Mr4026 ばーちー
前回までの配布資料(Webにないもの):教室の後方
前回までの配布資料(Webにないもの):教室の後方
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
テキストマイニング, データマイニングと 社会活動のトレース
Webサイト運営 09fi118 橋倉伶奈 09fi131 本間昂 09fi137 三上早紀.
リサーチ&プランニング 第4回情報処理の自動化、エージェント化
ディレクトリリスト広告 ジェネラル広告商品 掲載期間 12週単位で任意
双鶴同窓会ホームページ 運用開始説明会 双鶴同窓会ホームページ運営委員会 制作部会.
自動車レビューにおける検索と分析 H208032 松岡 智也 H208060 中西 潤 H208082 松井泰介.
ア ド ポ ス ト Last Update on:2012/06/01.
サイボウズスタートアップス株式会社
アクセスログ解析 専修大学 ネットワーク情報学部.
1DS05196G 豊田 真大 1DS05200R 橋元 史記 1DS05211K 李 子真 指導教員・・・角准教授
日本語解析済みコーパス管理ツール 「茶器」
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
検索エンジンを利用した Covert Channelの検出
情報管理論 2018/11/9 情報分析の道具 2018/11/9 情報分析の道具 情報分析の道具.
Webデザイン入門  WEB広告による収益.
チーム よせあつめ 検索エンジンについて.
インタネットマーケティング グーグルの戦略
11.Webサイトとデータベース, Webサイト+ブログシステムの開設手順例
1DS05174T 有光慶祐 1DS05185P 切原有一 1DS05192W 添田真由
東京大学OPAC Plus “言選Web” -関連学術用語による日本語文献情報への 簡易ナビゲーションシステム-
環境リスクマネジメントに関する 検索システム
移動エントロピーによる 動的ネットワーク化を用いた SNSと商品購買の相互関係の分析
情報処理概論Ⅰ 2007 第5回 2019/4/7 情報処理概論Ⅰ 第5回.
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
エピソード記憶に訴えるBookmarkless Bookmarkの実現
Webネットワークにおける 研究者間の分析
テキストマイニング, データマイニングと 社会活動のトレース
御中 ~ WEBサイトアクセス解析レポート.
  JSTChina         中国文献データベース.
岡村耕二 情報ネットワーク 岡村耕二 情報ネットワーク.
Googleの マーケティング戦略 馬 橋琳.
構造的類似性を持つ半構造化文書における頻度分析
売れるためのWEBサイト構築.
岡村耕二 情報ネットワーク 岡村耕二 情報ネットワーク.
ジェンダー学:様々な分野の中のジェンダー分析の対象
Mixiの経営戦略 2008年7月2日 吉野 正和.
複数活動履歴を基にしたユーザの関心情報の抽出
P2Pによる協調学習システム 唐澤 信介   北海道工業大学 電気工学専攻.
Presentation transcript:

ブログマイニングによる観光情報分 析 北海道工業大学 情報デザイン学科 岩佐渉、三田村保、湯川恵子、大堀隆文

はじめに ブログ:日々更新される日記的サイト ブログ開設数 868 万人、インターネット利用者全体の 11% 現在、北海道では観光産業が基幹産業として 非常に重要視されている 「北海道」というキーワードを含むブログは ブログ検索サイトで検索すると 150 万以上存 在する 本研究では、ブログマイニングツールの開発 を行い、ブログと観光との関連についての研 究の基礎的な検討を行った

内容 ブログマイニング FC2 ブログ 開発ツール「 blogHITer 」  システム構成  形態素解析ツール「 chasen 」  分析結果 「旅行」カテゴリユーザの分析

ブログマイニング web マイニング技術利用によりブログを解析し、社 会情勢やコミュニティの存在など有益な情報を取り 出すこと web マイニング データベース技術、情報検索技術、自然言語処理技 術との関連性も深く、データマイニング技術と連携 している。  web コンテンツマイニング :web ページを構成するテキスト 情報  web 構造マイニング :web ページ間を結ぶリンク構造情報  web 利用マイニング :web ページへのアクセスログ 本研究は、 web コンテンツマイニングであり、 ブログの内容を対象としている。

主なブログ Autopage FC2 ブログ goo ブログ JUGEM livedoor ブログ Seesaa ブログ So-net blog Yahoo! ブログ アメーバブログウェブリブログエキサイトブログココログ ドリコムブログはてなダイアリーヤプログ!楽天ブログ 主なブログとして 16 種類挙げる。

FC2 ブログ 様々なカテゴリ のブログを作る ことが可能 全てにおいて優 良で、幅広い目 的にあったサー ビスを展開。 登録者数は 80 万 人以上。

blogHITer の構成 ブログ収集 ブログ解析  バースト検索  傾向分析  行動分析

ブログ収集 Getfc2.java newentry.rdf を解析 fc2.txt に必要なデータを保 存 Entry.java fc2.txt からデータを読込む ブログにアクセスし、内容を 保存

ブログ解析 バースト検索 検索された言葉に関して、ブ ログ著者間の使用頻度を検索 し表示する機能 傾向分析 指定されたユーザ ID や月に関 して、それぞれの言葉の使用 頻度を検索し表示する機能 行動分析 ブログ記入時間がいつだった かを表示する機能

Chasen について 自然言語処理のうち、形態素解析( Morphological Analysis )に用いられるツール。 奈良先端科学技術大学院大学の自然言語処理学講座 で開発がなされ、フリーで配布されている。

収集ブログデータ  収集対象: FC2 ブログ  収集範囲: 2005/7/1 ~ 2006/6/31  収集 ID 数: 338 件  総記事数: 32,841 個  最小記事数: 1 個  最大記事数: 364 個  平均記事数: 97.1 個

バースト検索結果 ( 検索語 = 「冬休み」 ) 冬休み期間である 12 月、 1 月が回数が多い。 7 月、 8 月は回数が少ない。

検索語「知床」と「世界遺産」の結果

傾向分析結果 ( ユーザ ID= 「 156 」 ) 「写真」という言葉が 多く、趣味が写真で あると考えられる。 「 156 」は昼にブログ を書いていることが わかる。 実際に「 156 」のブロ グを確認したところ、 写真関係の記事が多 い。

行動分析結果(全ユーザ) ブログ記入時間の 1 時間毎の総計を分析することが出来る。 個々の行動分析をまとめて見ることが出来る。

行動分析の総計のグラフ 22 時から 1 時までの夜間にブログを投稿している人が多い (25%) 昼時である 12 時が多い (8%) 朝方の 5 時、 6 時は投稿している人はほとんどいない (1.3%)

ブログと観光との比較分析 一般ユーザと旅行カテゴリユーザの比較  行動分析  バースト検索

FC2 ブログカテゴリ一覧 地域情報 旅行 海外情報 スポーツ ファイナンス 学校・教育 福祉・ボランティ ア 学問・文化・芸術 お笑い ギャンブル 謎 独身・フリー 心と身体 サブカル その他 アダルト 計 47 個 日記 ニュース ブログ モブログ 音楽 映画 政治・経済 オンラインゲーム ゲーム アニメ・コミック 本・雑誌 小説・文学 車・バイク テレビ・ラジオ アイドル・芸能 就職・お仕事 恋愛 ファッション・ブラ ンド 結婚・家庭生活 育児 ペット 趣味・実用 ライフ 株式・投資・マネー アフィリエイト グルメ ヘルス・ダイエット ビジネス コンピュータ 携帯電話・ PHS 写真

収集ブログデータ ( 旅行カテゴリ )  収集対象: FC2 ブログ・旅行カテゴリ  収集範囲: 2006/1/1 ~ 2006/12/31  収集 ID 数: 111 件  総記事数: 8699 個  最小記事数: 1 個  最大記事数: 363 個  平均記事数: 78.0 個

旅行カテゴリと一般の行動分析比較 一般は夜間に更新することが多いのに対し、旅行カテゴ リは 18 時 - が多い。

旅行カテゴリの傾向分析 ( ユーザ ID= 「 chikatetsu 」 ) 地下鉄関係の人である と推測できる。 夕方から夜にかけて更 新することが多い。 実際に、確認したとこ ろ駅員であった。

検索語「観光」での検索結果 338 人中 92 人 (27.2 % ) から検出した。 検出回数 ( 回 ) 記事数 ( 件 ) 割合 ( % ) 2005 年 7 月 年 8 月 年 9 月 年 10 月 年 11 月 年 12 月 年 1 月 年 2 月 年 3 月 年 4 月 年 5 月 年 6 月

検索語「旅行」での検索結果 338 人中 192 人 (56.8 % ) から検出した。 検出回数 ( 回 ) 記事数 ( 件 ) 割合 ( % ) 2005 年 7 月 年 8 月 年 9 月 年 10 月 年 11 月 年 12 月 年 1 月 年 2 月 年 3 月 年 4 月 年 5 月 年 6 月

「観光」の検出人数 7 、 8 月が多い。 徐々に下がっていくグラフ。 検出人数 ( 人 ) 総人数 ( 人 ) 割合 ( % ) 2005 年 7 月 年 8 月 年 9 月 年 10 月 年 11 月 年 12 月 年 1 月 年 2 月 年 3 月 年 4 月 年 5 月 年 6 月

「旅行」の検出人数 検出人数 ( 人 ) 総人数 ( 人 ) 割合 ( % ) 2005 年 7 月 年 8 月 年 9 月 年 10 月 年 11 月 年 12 月 年 1 月 年 2 月 年 3 月 年 4 月 年 5 月 年 6 月 、 8 月や 3 、 4 月に検出される人数が多い。 ほぼ一定なグラフ。

終わりに ブログ分析ツール blogHITer の開発  ブログの記事が投稿された時間を表示する行動分析  そのユーザーがどのような単語を多く使っているか という傾向分析 今後の展開  記事内容、トラックバック、コメント、アフィリエ イトの分析  他のブログ (livedoor ブログ等 ) のマイニング  ブログ検索エンジン ( テクノラティ等 ) の活用 観光とブログ分析の比較  一般ユーザと旅行カテゴリユーザとの比較  観光データとの比較

ブログマイニングによる観光情報分 析 北海道工業大学 情報デザイン学科 岩佐渉、三田村保、湯川恵子、大堀隆文