複数活動履歴を基にしたユーザの関心情報の抽出 卒業論文中間発表 環境情報学部 鈴木 慧(suzuk)
Outline 背景 問題 目的 アプローチ 関連研究 今後の予定 まとめ
背景 デジタル化 コンピュータ上の作業の普及 デバイスの普及 書類: ドキュメントファイル 連絡: メールボックス 情報源: Web 書類: ドキュメントファイル 連絡: メールボックス 情報源: Web デバイスの普及 デジタルカメラ: 画像ファイル GPS: 位置情報
日々の活動をアーカイブする機会が増加 日々、活動の記録を電子的に保存する その日得た経験を保存 一連の作業プロセスを記録 blogでは、日々の気になった情報、感想、意見など GPSでは一日の生活空間を取得
本研究ではユーザが関心のある情報を関心情報と呼ぶ 後から活動履歴を参照するには 活動履歴の1つ1つは断片的な情報 自分の関心のある情報を抽出して見たい 今自分が関心のある情報を抽出して見られたら便利 ユーザが関心のある情報を取得する必要がある 本研究ではユーザが関心のある情報を関心情報と呼ぶ
問題意識 複数活動履歴を統一的に扱うシステムがない Blog 検索ワード 位置情報のメタ情報 画像ファイル 関心を抱いていること 作業プロセス 役に立った情報へのリン 検索ワード Google検索で検索した単語 位置情報のメタ情報 位置に関連したメタ情報を取得できることを想定 画像ファイル 取得した位置情報のメタ情報と関連づけられる
目的 複数の活動履歴からユーザの関心情報と合う履歴を抽出する 自分の活動履歴を参照 他人の活動履歴を参照 自分の生活、仕事ぶりを見返す 他人の蓄積された経験を取得 他人が通った作業プロセスを確認 知識の整理 知識の獲得
アプローチ 重み付けされた単語セットとしてユーザの関心情報を表現 活動履歴に関心情報を付加してindexingしておく 変わらない関心単語 固定ユーザプロファイルに書いておく それ以外 活動履歴からユーザの関心情報を抽出 どの活動履歴を優先するか重み付けする 活動履歴に関心情報を付加してindexingしておく 関心情報と合う活動履歴を抽出する際に高速化 現在の自分の位置を結果に反映させる 学校にいる場合、電車に乗ってる場合など
活動履歴からユーザの関心情報を抽出 重み付けされた単語セットのモデルとして表現 Blog 単語セット 位置情報のメタ情報 原宿 1.0 blog内の形態素解析とtfidfによる頻出単語 各単語に重み付け 位置情報のメタ情報 位置にリンクしたデータベースから取得 観光地、お店など Googleで調べる検索ワード 単語セット 原宿 1.0 新宿 1.0 GAP 0.8 イタリア料理 0.6
どの活動履歴を優先するか 検索単語 blog内の頻出単語 位置情報に関連した情報 最近検索されたもの 検索単語、位置情報に関連したもの 頻繁に寄る場所 新規性のある場所
動作モデル図 1つ1つがblog,検索単語、位置情報のメタ情報、画像ファイル 活動履歴 関心情報 A B A A A B A A B time line 関心情報Aのときに活動履歴を参照 抽出された活動履歴 A A A A A A time line
シナリオ1 10年前にはまっていたゲームについて 検索して調べ出す 誰を仲間にすればいい? 自分の10年前の日記履歴 いい思い出だなぁ。。。 対象ゲームに関心があった情報 今日枕元に、FFVが置いてあった。サンタさんは本当にいるんだ!
シナリオ2 渋谷のお店に買い物に行った日 書き込む 重み付けUp 渋谷の A店でBを買った 他人の日記履歴 今後B店に行ってみるか 別のB店のCの方が良かった
システム概要 活動履歴取得Agent 活動履歴 レポジトリ 関心情報算出エンジン 関心情報フィルタ 現在の関心情報 活動履歴保存 活動履歴参照 関心情報算出エンジン 関心情報保存 関心情報フィルタ 更新 参照 現在の関心情報
関連研究 My Life Bits 生活上で取得できるあらゆる電子情報を記録する 取得情報の整理、解析を行っている
今後の予定 8月 実装と調査 9月9日 ユビキタスコンピューティングシステム研究 11月24日 情報処理学会全国大会
まとめと課題 複数活動履歴からユーザの関心情報を抽出 抽出できた関心情報から関心のある活動履歴を抽出する
やるべきこと 興味という単語を別のものに置き換える どれを優先するかのアルゴリズム シナリオを3本 システム概要図 @リーダーを使ってできるシナリオを一本 システム概要図 10年単位で一回変わるくらいなら自分で入力してもよい 分類をリアルワールド的にすればよい 情報フィルタリングについて 「今」乗っている乗り物など「今の状況」を反映させる
やるべきこと 統一的に別種の履歴を扱う、シナリオを言う 関心事を抽出することは確定している
メモ 日記履歴だけを関心情報の抽出に使うのか? 関心情報を使うのは日記履歴だけなのか? Webページのような、まとまった情報を扱うページでは検索エンジンだけでよい blogのようなまとまってない情報を関心事でフィルタする際に有用
メモ 頻出単語から、興味のある「分野」を抽出することは可能なのか? Winnyのクラスタリング Winnyの良いとこ:自主的にクラスタを変えることができる RSSクローラーで同じクラスタの人を見つけてくる 同じクラスタの人がチェックしたアイテムは、本来気になるものでなくとも提示する Webで興味ある情報を参照するのは、見出しとそれに対するコメントが気になったからである みんなの興味対象が一極集中することはいいことか? マニアックな人の意見も反映させたい データを取得してくるAgent データを利用するアプリケーション どのようにデータを保存しておくかが大切
slide repository
ユーザの関心に基づいた 日記データ参照機構の構築 ユーザの関心に基づいた 日記データ参照機構の構築 卒業論文中間発表 環境情報学部 鈴木 慧(suzuk)
機能 履歴の関心事によるカテゴリ分け、フィルタリング 他人の作業プロセスを参照できる 自分と似た嗜好の人物の発見および情報取得 過去履歴の整理 他人の作業プロセスを参照できる 自分と似た嗜好の人物の発見および情報取得
日記履歴の利用 自分の日記履歴 他人の日記履歴 自分の生活、仕事振りを見返す 蓄積された経験を得ることができる 他人が通った作業プロセスを確認できる 知識の整理 知識の獲得
問題 時間が経ち情報が増えると興味のあるものを見つけにくくなる 他人の情報の場合はさらに大変 興味の対象も移り変わる Web blog履歴 検索履歴 blog履歴 Web 検索履歴 blog履歴 Web 検索履歴 blog履歴 位置情報 履歴 位置情報 履歴 位置情報 履歴
シナリオ2 あるサーバ管理者 検索したり、blogに作業内容を書く 書いてある通りにやってもだめだ 他人の日記履歴 ここを変えればいいのか こうしたらよかったぞ 今日もだめだった
日記履歴の取得種類に商品タグを追加すると シナリオ3 物にタグがついた世界 秋葉原のお店Aで 商品のタグを取得する この商品気になるなぁ・・・ タグ取っておくか 日記履歴の取得種類に商品タグを追加すると 黒がでるらしいですよ もう少し待ってみるか
目的 ユーザの興味に基づいてデータをフィルタリングする 同じ興味を持った他者の日記履歴を共有できる場合、他者の経験を獲得できる
保存される興味情報 全体的な興味情報 種別ごと blog 位置情報 検索単語
日記履歴の利用 自分の日記履歴 他人の日記履歴 自分の生活、仕事振りを見返す 蓄積された経験を得ることができる 他人が通った作業プロセスを確認できる 知識の整理 知識の獲得
10年単位で考える 日記履歴の1つ1つは断片的な情報 今自分が関心のある情報を統合して見られたら便利 自分の関心のある情報を統合して見たい ユーザの関心情報を取得する必要がある
問題意識 取得できる日記履歴を統一的に扱うシステムがない
目的 複数日記履歴からユーザの関心情報を抽出し、関心のある日記履歴を統合する
ユーザの関心情報の抽出 重み付けされた単語セットのモデルとして表現 検索単語 blog内の形態素解析とtfidfによる頻出単語 各単語に重み付け 位置情報に関連した情報 位置にリンクしたデータベースから取得 観光地、お店など