Twitterの発言に基づくウェブページ推薦システム

Slides:



Advertisements
Similar presentations
人間とコンピュータ インターネット検索 11 月 10 日, 11 月 17 日, 11 月 24 日.
Advertisements

卒業論文審査会 Web の読みやすさ実験ツールの開発 岩手県立大学 ソフトウェア情報学部 ソフトウェア情報学部 4 年 柴田 大樹 指導教員:鈴木克明 藤原康宏 市川尚.
北海道大学理学部地球科学科地球物理学 惑星物理学研究室 B4 加藤 学
最大エントロピーモデルに基づく形態素解析と辞書による影響
ウェブの時空間解析技術 東京大学生産技術研究所 戦略情報融合国際研究センター 成果概要 ウェブアーカイブ ウェブ空間解析 ウェブ時系列解析
ヘルスケア連動型 市販薬検索システム 研究者 : 加納 えり 指導教員 : 越田 高志.
形態素周辺確率を用いた 分かち書きの一般化とその応用
てやんでい!職人気質 株式会社ブースターテクノロジー
小学校3年 指導資料例データ.
国内線で新千歳空港を利用している航空会社はどこですか?
「ICT社会におけるコミュニケーション力の育成」 研修モジュール C-6:ポスターセッション
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
REST型Webサービスによる 楽曲検索システムの開発
動画投稿サイトによる広告 宣伝効果の研究 本多 俊元.
相互評価システムの開発と大学情報科目における利用 柴田好章(名古屋大学大学院) 小川亮(富山大学教育学部)
<4日目内容> 今後のスケジュール HP更新内容の確認 課題の確認 (i-sys) 発表準備・予行演習の進め方について
参照共起分析の Webディレクトリへの適用
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
経営学部 キャリアマネジメント学科 宮前 駿史
テキストマイニング, データマイニングと 社会活動のトレース
ヒューマンインターフェース ~ウェブサイト評価~
卒論中間発表 WWW検索キーワードナビゲーションシステムの設計と実装
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
4Y-4 印象に残りやすい日本語パスワードの合成法
リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究
卒業論文 最終発表 WWW情報検索 ナビゲーションシステムの設計と実装
図書館ツール発想日記 ~「東京大学内のサイトから関連学術用語のデータを得る」(仮称)システムへの寄り道思考経路~
形態素解析および係り受け解析・主語を判別
DixChange プロジェクト ~辞書共通化の試み~
ONLINE植物アルバム 運営のサポート 情報数理専攻   D8691 根本亜由美 1.
大阪教育大学大学院教育学研究科 総合基礎科学専攻 中窪 仁
情報検索演習 第8回 パソコンを起動しておくこと 前から4列目までに着席すること 2005年11月30日 後期 水曜5限
コンピュータ基礎実習上級 #10 絶対パスによる指定
自動車レビューにおける検索と分析 H208032 松岡 智也 H208060 中西 潤 H208082 松井泰介.
アクセスログ解析 専修大学 ネットワーク情報学部.
Semi-Supervised QA with Generative Domain-Adaptive Nets
2016年度秋期 成果発表会 2016年11月25日 大阪開発センター 技術一部 畑中 龍樹.
平成22年6月15日 図書系職員のための アプリケーション開発講習会
練習問題アイテムバンクの開発研究 ~再生形式~
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
Yahoo! JAPANと広告の関係 大東文化大学 7班 鈴木  惇 瀬戸 祥雄 長嶺 麻乃.
東京大学OPAC Plus “言選Web” -関連学術用語による日本語文献情報への 簡易ナビゲーションシステム-
環境リスクマネジメントに関する 検索システム
只見町 インターネット・エコミュージアムの「キーワード」検索の改善
WWW上の効率的な ハブ探索法の提案と実装
ネットショップデザイン入門Ⅰ・ⅡSEO 2013/12/18 Webデザイン入門 SEOの基本.
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
PowerPoint へようこそ 簡単に操作するための 5 つのヒント.
1.Webサイトの情報を活用しよう プレゼンテーション資料
移動エントロピーによる 動的ネットワーク化を用いた SNSと商品購買の相互関係の分析
一人暮らしの男性のための料理検索システムの設計
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
形態素解析ドライバモデルの実装と コーパスの品詞体系変換への応用
中京大学 情報理工学部 情報知能学科 H 中畑 淳貴 H 堀田 将克
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
エピソード記憶に訴えるBookmarkless Bookmarkの実現
テキストマイニング, データマイニングと 社会活動のトレース
ブラウザを快適に操作するツールの開発 藤村研究室 1DS04179M 阪上 翔伍.
実空間における関連本アウェアネス 支援システム
早稲田大学大学院 基幹理工学研究科 情報理工学専攻 後藤研究室 修士1年 魏 元
コーディングパターンの あいまい検索の提案と実装
本日のスケジュール 14:45~15:30 講義 15:30~16:15 企画書レビューシート記入 16:15~16:30 休憩
売れるためのWEBサイト戦略.
自然言語処理2015 Natural Language Processing 2015
車内広告の現状と効果を 高めるための研究 森本 早貴.
複数活動履歴を基にしたユーザの関心情報の抽出
Webページタイプによるクラスタ リングを用いた検索支援システム
自然言語処理2016 Natural Language Processing 2016
ブログアクセスアップの方法  周 嘉鏐
Presentation transcript:

Twitterの発言に基づくウェブページ推薦システム H208029 京極明宏 H208068 林一輝

研究動機 Twitter上の書き込みから、その人が興味をもちそうなことや新しい発見につながりそうなことを推薦できればその人の役にたてるのではないかと思い、この研究に取り組んだ。

研究目的 Twitterのユーザー名を入力すると、そのユーザーの興味のありそうなウェブページを推薦するシステムの構築。 興味のあるキーワード(プリウス、iphoneなど)を見つけ出し、関連のあるページを検索エンジンYahooを使いリンク集を提示する。

実際のシステム

実際のシステム

提案手法 TwitterAPIを用いてユーザーの最近のTweet200件を取り出す・・・1 単語(キーワード)を検索エンジン(Yahoo)にかけ、ウェブページを推薦する・・・3

Twitterの説明

TwitterAPIを用いてTweetを取り出す・・・1 TwitterAPIを使用するとユーザーのTwitter情報が XML形式で保存され、そこの<text></text>の間にユーザーのTweetが含まれる。 実際に必要なのはTweetだけなので、ほかの情報は削除する。 本研究ではユーザーの最近のTweetを約200個使用する。(ユーザーが発言したものだけ)

TwitterAPIを用いてTweetを取り出す・・・1

Tweetを解析・・・2 ユーザーがどのような分野(カテゴリ)に興味があるか調べる。 どの分野に興味があるか決定したら、その分野からキーワードを抽出していく。

Tweetを解析・・・2 Tweetを解析するためにMeCab(形態素解析器)と「はてなキーワード」を使用する。

Tweetを解析・・・2 はてなキーワードをMeCab(形態素解析器)に辞書として追加 人手で作成されたキーワード集(カテゴリ分け) 追加したはてなキーワード 260,000キーワード カテゴリ 一般 読書 音楽 映画 ウェブ コンピュータ 動植物 テレビ アニメ 食 スポーツ ゲーム マンガ アイドル 社会 地理 アート サイエンス はてな

Tweetを解析・・・2 @Melia765 もののけ姫を久しぶりに見た 一般的な形態素解析器(MeCab)   もののけ姫を久しぶりに見た 一般的な形態素解析器(MeCab)   もの / のけ / 姫 / を / 久しぶり / に / 見 / た   はてなキーワードを辞書として追加後(MeCab)   もののけ姫 / を / 久しぶり / に / 見 / た  

Tweetを解析・・・2 はてなキーワードを追加した辞書で形態素解析を行う。(例) もののけ姫を久しぶりに見た もののけ姫 名詞,固有名詞,movie,*,*,*,もののけ姫,もののけひめ,もののけひめ を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 久しぶり 名詞,一般,*,*,*,*,久しぶり,ヒサシブリ,ヒサシブリ に 助詞,格助詞,一般,*,*,*,に,ニ,ニ 見 動詞,自立,*,*,一段,連用形,見る,ミ,ミ た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ EOS

Tweetを解析・・・2 このようにユーザーのTweetを解析していきカテゴリを調べてユーザーの興味分野を推定する。 もののけ姫   名詞,固有名詞,movie,*,*,*,もののけ姫,もののけひめ,もののけひめ                    映画について言及している。  このようにユーザーのTweetを解析していきカテゴリを調べてユーザーの興味分野を推定する。

カテゴリに付与されている単語を調べる。 ・・・2 ユーザーの興味分野を示すカテゴリから検索エンジン(Yahoo)にかけるキーワードの抽出を行なう。カテゴリ情報をもつ単語を本研究ではキーワードとして扱う。

カテゴリに付与されている単語を調べる。 ・・・2     もののけ姫 名詞,固有名詞,movie,*,*,*,もののけ姫,もののけひめ   キーワード       カテゴリ

ウェブページを推薦する・・・3 キーワードを多い順(上位5位まで)から表示し、一番多いものを検索にかける。 Melia765 [[“movie”, 5],[“tv”, 3], [“anime”, 2], [“game”, 1], ["science", 0], ["idol", 0], ["geography", 0], ["music", 0], ["art", 0], ["hatena", 0], ["elec", 0], ["comic", 0], ["web", 0], ["sports", 0], ["book", 0], ["society", 0], ["food", 0]]   1 もののけ姫 ->3 2 タイタニック ->2 3 猿の惑星 ->1 keyword = もののけ姫

ウェブページを推薦する・・・3 Keywordが検索エンジン(Yahoo)にかけられkeywordに基づいたリンク集が表示される。

検証 Twitterを使用している人を対象に実際に使ってもらい評価をしてもらう。 対象人数はTwitter利用者(Tweet200件以上)10人である。 ユーザーが新しい発見などを見いだせるか試してもらう。

検証結果 良い評価 興味のなかったキーワードに対して、ウェブページをみたら興味を持った。 普段どのようなTweetをしているか分かった。  興味のなかったキーワードに対して、ウェブページをみたら興味を持った。  普段どのようなTweetをしているか分かった。          悪い評価  リンク集で表示されるので、どのページを見たらよいのかわからない。

考察 キーワードに関してはユーザーの興味、関心のあるものが選ばれている。 興味のないキーワードに対してもウェブページをみてもらうことで興味を持ってもらえた。 しかし推薦されるウェブページがリンク集で表示されるため内容が分かりにくい。

改善案と展望 リンク集で表示する仕方を変える。 ウェブページの種類をカテゴリに合わせて用意し見やすくする。 ウェブページの種類をカテゴリに合わせて用意し見やすくする。  検証、改善を続け研究動機に近づくようにしていくことが展望でもあり課題でもある。

      質問、コメントをお願いします

質問 カテゴリが同順位になってしまったら? tv=3 idol=3 しゃべくり007 AKB48 しゃべくり007 前田敦子 しゃべくり007 前田敦子 わらっていいとも          大島優子 しゃべくり007が二つあるのでこちらが優先される。

質問 キーワードとカテゴリが同じ数になってしまったら? tv=3 idol=3 しゃべくり007 AKB48 わらっていいとも 大島優子 わらっていいとも          大島優子 しゃべくり007とAKB48が同じ数だけあるので両方検索エンジンにかける。

カテゴリ分けを使った理由 キーワードだけを多い順で取得 AKB48・・1番多い カテゴリを使うと Book = 5 Idol = 3 このユーザーは本に興味がある。 なので本の分野からキーワードを抽出して推薦したほうがユーザーにとって興味、関心が見つかりやすい。