Twitterの発言に基づくウェブページ推薦システム H208029 京極明宏 H208068 林一輝
研究動機 Twitter上の書き込みから、その人が興味をもちそうなことや新しい発見につながりそうなことを推薦できればその人の役にたてるのではないかと思い、この研究に取り組んだ。
研究目的 Twitterのユーザー名を入力すると、そのユーザーの興味のありそうなウェブページを推薦するシステムの構築。 興味のあるキーワード(プリウス、iphoneなど)を見つけ出し、関連のあるページを検索エンジンYahooを使いリンク集を提示する。
実際のシステム
実際のシステム
提案手法 TwitterAPIを用いてユーザーの最近のTweet200件を取り出す・・・1 単語(キーワード)を検索エンジン(Yahoo)にかけ、ウェブページを推薦する・・・3
Twitterの説明
TwitterAPIを用いてTweetを取り出す・・・1 TwitterAPIを使用するとユーザーのTwitter情報が XML形式で保存され、そこの<text></text>の間にユーザーのTweetが含まれる。 実際に必要なのはTweetだけなので、ほかの情報は削除する。 本研究ではユーザーの最近のTweetを約200個使用する。(ユーザーが発言したものだけ)
TwitterAPIを用いてTweetを取り出す・・・1
Tweetを解析・・・2 ユーザーがどのような分野(カテゴリ)に興味があるか調べる。 どの分野に興味があるか決定したら、その分野からキーワードを抽出していく。
Tweetを解析・・・2 Tweetを解析するためにMeCab(形態素解析器)と「はてなキーワード」を使用する。
Tweetを解析・・・2 はてなキーワードをMeCab(形態素解析器)に辞書として追加 人手で作成されたキーワード集(カテゴリ分け) 追加したはてなキーワード 260,000キーワード カテゴリ 一般 読書 音楽 映画 ウェブ コンピュータ 動植物 テレビ アニメ 食 スポーツ ゲーム マンガ アイドル 社会 地理 アート サイエンス はてな
Tweetを解析・・・2 @Melia765 もののけ姫を久しぶりに見た 一般的な形態素解析器(MeCab) もののけ姫を久しぶりに見た 一般的な形態素解析器(MeCab) もの / のけ / 姫 / を / 久しぶり / に / 見 / た はてなキーワードを辞書として追加後(MeCab) もののけ姫 / を / 久しぶり / に / 見 / た
Tweetを解析・・・2 はてなキーワードを追加した辞書で形態素解析を行う。(例) もののけ姫を久しぶりに見た もののけ姫 名詞,固有名詞,movie,*,*,*,もののけ姫,もののけひめ,もののけひめ を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 久しぶり 名詞,一般,*,*,*,*,久しぶり,ヒサシブリ,ヒサシブリ に 助詞,格助詞,一般,*,*,*,に,ニ,ニ 見 動詞,自立,*,*,一段,連用形,見る,ミ,ミ た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ EOS
Tweetを解析・・・2 このようにユーザーのTweetを解析していきカテゴリを調べてユーザーの興味分野を推定する。 もののけ姫 名詞,固有名詞,movie,*,*,*,もののけ姫,もののけひめ,もののけひめ 映画について言及している。 このようにユーザーのTweetを解析していきカテゴリを調べてユーザーの興味分野を推定する。
カテゴリに付与されている単語を調べる。 ・・・2 ユーザーの興味分野を示すカテゴリから検索エンジン(Yahoo)にかけるキーワードの抽出を行なう。カテゴリ情報をもつ単語を本研究ではキーワードとして扱う。
カテゴリに付与されている単語を調べる。 ・・・2 もののけ姫 名詞,固有名詞,movie,*,*,*,もののけ姫,もののけひめ キーワード カテゴリ
ウェブページを推薦する・・・3 キーワードを多い順(上位5位まで)から表示し、一番多いものを検索にかける。 Melia765 [[“movie”, 5],[“tv”, 3], [“anime”, 2], [“game”, 1], ["science", 0], ["idol", 0], ["geography", 0], ["music", 0], ["art", 0], ["hatena", 0], ["elec", 0], ["comic", 0], ["web", 0], ["sports", 0], ["book", 0], ["society", 0], ["food", 0]] 1 もののけ姫 ->3 2 タイタニック ->2 3 猿の惑星 ->1 keyword = もののけ姫
ウェブページを推薦する・・・3 Keywordが検索エンジン(Yahoo)にかけられkeywordに基づいたリンク集が表示される。
検証 Twitterを使用している人を対象に実際に使ってもらい評価をしてもらう。 対象人数はTwitter利用者(Tweet200件以上)10人である。 ユーザーが新しい発見などを見いだせるか試してもらう。
検証結果 良い評価 興味のなかったキーワードに対して、ウェブページをみたら興味を持った。 普段どのようなTweetをしているか分かった。 興味のなかったキーワードに対して、ウェブページをみたら興味を持った。 普段どのようなTweetをしているか分かった。 悪い評価 リンク集で表示されるので、どのページを見たらよいのかわからない。
考察 キーワードに関してはユーザーの興味、関心のあるものが選ばれている。 興味のないキーワードに対してもウェブページをみてもらうことで興味を持ってもらえた。 しかし推薦されるウェブページがリンク集で表示されるため内容が分かりにくい。
改善案と展望 リンク集で表示する仕方を変える。 ウェブページの種類をカテゴリに合わせて用意し見やすくする。 ウェブページの種類をカテゴリに合わせて用意し見やすくする。 検証、改善を続け研究動機に近づくようにしていくことが展望でもあり課題でもある。
質問、コメントをお願いします
質問 カテゴリが同順位になってしまったら? tv=3 idol=3 しゃべくり007 AKB48 しゃべくり007 前田敦子 しゃべくり007 前田敦子 わらっていいとも 大島優子 しゃべくり007が二つあるのでこちらが優先される。
質問 キーワードとカテゴリが同じ数になってしまったら? tv=3 idol=3 しゃべくり007 AKB48 わらっていいとも 大島優子 わらっていいとも 大島優子 しゃべくり007とAKB48が同じ数だけあるので両方検索エンジンにかける。
カテゴリ分けを使った理由 キーワードだけを多い順で取得 AKB48・・1番多い カテゴリを使うと Book = 5 Idol = 3 このユーザーは本に興味がある。 なので本の分野からキーワードを抽出して推薦したほうがユーザーにとって興味、関心が見つかりやすい。