ブログマイニングによる観光情報分 析 北海道工業大学 情報デザイン学科 岩佐渉、三田村保、湯川恵子、大堀隆文
はじめに ブログ:日々更新される日記的サイト ブログ開設数 868 万人、インターネット利用者全体の 11% 現在、北海道では観光産業が基幹産業として 非常に重要視されている 「北海道」というキーワードを含むブログは ブログ検索サイトで検索すると 150 万以上存 在する 本研究では、ブログマイニングツールの開発 を行い、ブログと観光との関連についての研 究の基礎的な検討を行った
内容 ブログマイニング FC2 ブログ 開発ツール「 blogHITer 」 システム構成 形態素解析ツール「 chasen 」 分析結果 「旅行」カテゴリユーザの分析
ブログマイニング web マイニング技術利用によりブログを解析し、社 会情勢やコミュニティの存在など有益な情報を取り 出すこと web マイニング データベース技術、情報検索技術、自然言語処理技 術との関連性も深く、データマイニング技術と連携 している。 web コンテンツマイニング :web ページを構成するテキスト 情報 web 構造マイニング :web ページ間を結ぶリンク構造情報 web 利用マイニング :web ページへのアクセスログ 本研究は、 web コンテンツマイニングであり、 ブログの内容を対象としている。
主なブログ Autopage FC2 ブログ goo ブログ JUGEM livedoor ブログ Seesaa ブログ So-net blog Yahoo! ブログ アメーバブログウェブリブログエキサイトブログココログ ドリコムブログはてなダイアリーヤプログ!楽天ブログ 主なブログとして 16 種類挙げる。
FC2 ブログ 様々なカテゴリ のブログを作る ことが可能 全てにおいて優 良で、幅広い目 的にあったサー ビスを展開。 登録者数は 80 万 人以上。
blogHITer の構成 ブログ収集 ブログ解析 バースト検索 傾向分析 行動分析
ブログ収集 Getfc2.java newentry.rdf を解析 fc2.txt に必要なデータを保 存 Entry.java fc2.txt からデータを読込む ブログにアクセスし、内容を 保存
ブログ解析 バースト検索 検索された言葉に関して、ブ ログ著者間の使用頻度を検索 し表示する機能 傾向分析 指定されたユーザ ID や月に関 して、それぞれの言葉の使用 頻度を検索し表示する機能 行動分析 ブログ記入時間がいつだった かを表示する機能
Chasen について 自然言語処理のうち、形態素解析( Morphological Analysis )に用いられるツール。 奈良先端科学技術大学院大学の自然言語処理学講座 で開発がなされ、フリーで配布されている。
収集ブログデータ 収集対象: FC2 ブログ 収集範囲: 2005/7/1 ~ 2006/6/31 収集 ID 数: 338 件 総記事数: 32,841 個 最小記事数: 1 個 最大記事数: 364 個 平均記事数: 97.1 個
バースト検索結果 ( 検索語 = 「冬休み」 ) 冬休み期間である 12 月、 1 月が回数が多い。 7 月、 8 月は回数が少ない。
検索語「知床」と「世界遺産」の結果
傾向分析結果 ( ユーザ ID= 「 156 」 ) 「写真」という言葉が 多く、趣味が写真で あると考えられる。 「 156 」は昼にブログ を書いていることが わかる。 実際に「 156 」のブロ グを確認したところ、 写真関係の記事が多 い。
行動分析結果(全ユーザ) ブログ記入時間の 1 時間毎の総計を分析することが出来る。 個々の行動分析をまとめて見ることが出来る。
行動分析の総計のグラフ 22 時から 1 時までの夜間にブログを投稿している人が多い (25%) 昼時である 12 時が多い (8%) 朝方の 5 時、 6 時は投稿している人はほとんどいない (1.3%)
ブログと観光との比較分析 一般ユーザと旅行カテゴリユーザの比較 行動分析 バースト検索
FC2 ブログカテゴリ一覧 地域情報 旅行 海外情報 スポーツ ファイナンス 学校・教育 福祉・ボランティ ア 学問・文化・芸術 お笑い ギャンブル 謎 独身・フリー 心と身体 サブカル その他 アダルト 計 47 個 日記 ニュース ブログ モブログ 音楽 映画 政治・経済 オンラインゲーム ゲーム アニメ・コミック 本・雑誌 小説・文学 車・バイク テレビ・ラジオ アイドル・芸能 就職・お仕事 恋愛 ファッション・ブラ ンド 結婚・家庭生活 育児 ペット 趣味・実用 ライフ 株式・投資・マネー アフィリエイト グルメ ヘルス・ダイエット ビジネス コンピュータ 携帯電話・ PHS 写真
収集ブログデータ ( 旅行カテゴリ ) 収集対象: FC2 ブログ・旅行カテゴリ 収集範囲: 2006/1/1 ~ 2006/12/31 収集 ID 数: 111 件 総記事数: 8699 個 最小記事数: 1 個 最大記事数: 363 個 平均記事数: 78.0 個
旅行カテゴリと一般の行動分析比較 一般は夜間に更新することが多いのに対し、旅行カテゴ リは 18 時 - が多い。
旅行カテゴリの傾向分析 ( ユーザ ID= 「 chikatetsu 」 ) 地下鉄関係の人である と推測できる。 夕方から夜にかけて更 新することが多い。 実際に、確認したとこ ろ駅員であった。
検索語「観光」での検索結果 338 人中 92 人 (27.2 % ) から検出した。 検出回数 ( 回 ) 記事数 ( 件 ) 割合 ( % ) 2005 年 7 月 年 8 月 年 9 月 年 10 月 年 11 月 年 12 月 年 1 月 年 2 月 年 3 月 年 4 月 年 5 月 年 6 月
検索語「旅行」での検索結果 338 人中 192 人 (56.8 % ) から検出した。 検出回数 ( 回 ) 記事数 ( 件 ) 割合 ( % ) 2005 年 7 月 年 8 月 年 9 月 年 10 月 年 11 月 年 12 月 年 1 月 年 2 月 年 3 月 年 4 月 年 5 月 年 6 月
「観光」の検出人数 7 、 8 月が多い。 徐々に下がっていくグラフ。 検出人数 ( 人 ) 総人数 ( 人 ) 割合 ( % ) 2005 年 7 月 年 8 月 年 9 月 年 10 月 年 11 月 年 12 月 年 1 月 年 2 月 年 3 月 年 4 月 年 5 月 年 6 月
「旅行」の検出人数 検出人数 ( 人 ) 総人数 ( 人 ) 割合 ( % ) 2005 年 7 月 年 8 月 年 9 月 年 10 月 年 11 月 年 12 月 年 1 月 年 2 月 年 3 月 年 4 月 年 5 月 年 6 月 、 8 月や 3 、 4 月に検出される人数が多い。 ほぼ一定なグラフ。
終わりに ブログ分析ツール blogHITer の開発 ブログの記事が投稿された時間を表示する行動分析 そのユーザーがどのような単語を多く使っているか という傾向分析 今後の展開 記事内容、トラックバック、コメント、アフィリエ イトの分析 他のブログ (livedoor ブログ等 ) のマイニング ブログ検索エンジン ( テクノラティ等 ) の活用 観光とブログ分析の比較 一般ユーザと旅行カテゴリユーザとの比較 観光データとの比較
ブログマイニングによる観光情報分 析 北海道工業大学 情報デザイン学科 岩佐渉、三田村保、湯川恵子、大堀隆文