Presentation is loading. Please wait.

Presentation is loading. Please wait.

ベイズフィルタリングを用いた 口コミの分類 ―自分好みの店の抽出―

Similar presentations


Presentation on theme: "ベイズフィルタリングを用いた 口コミの分類 ―自分好みの店の抽出―"— Presentation transcript:

1 ベイズフィルタリングを用いた 口コミの分類 ―自分好みの店の抽出―
情報理工学科 A  牛窪 麻衣

2 研究背景 口コミサイトとは? ある商品やサービス等に対して,消費者が自由な評価を書き込むことや,閲覧することができるサイト
多くのユーザーに利用されている (私も利用者の一人です!) 口コミとは,ある商品やサービスに対して,利用者によって寄せられた評価やコメントのことを指します.これは,サービスを提供する側ではなく,実際の利用者の意見を反映しているものです. 現在では,口コミサイトとしてウェブページ上に投稿したり参照することのできるサイトが設けられています。これらのサイトは私たちの消費者行動にも大きな変化をもたらしていて,何かを買ったりサービスを受ける際に,事前に口コミを参考にしたりします. この図を見てください.これが現在の口コミサイト利用者数です. [1]NECビッグローブ2007年度調査より参照

3 ホームページhotpepper beautyより抜粋

4 HOTPEPPER Beauty お店からのアピール ホームページhotpepper beautyより抜粋

5 ホームページhotpepper beautyより抜粋

6 ホームページhotpepper beautyより抜粋

7 研究背景 口コミサイト 利点と欠点 利点 欠点 実際に利用経験を持つ消費者によって書かれている ・ 読むのが面倒
口コミサイト 利点と欠点 一般論と自身の体験談より 利点 実際に利用経験を持つ消費者によって書かれている ・ 読むのが面倒 広告会社や売り手にとって都合のよいことは 書かれていない 欠点 例えば,サービスを提供するサロン(美容院、ネイルサロん)の広告の場合,これは広告会社やサロンの営利目的のため作られているため,彼らにとって都合のよい情報が「多く」ふくまれている. 【欠点】黄泉のが面倒 人気サイトでは、一つのサロンにたいして40~50件もの口コミが投稿されていたりもする [1]NECビッグローブ2007年度調査より参照

8 研究の目的 提案手法 対象 口コミサイトに寄せられた口コミを自動で分類・抽出する
[2] 研究の目的 口コミサイトに寄せられた口コミを自動で分類・抽出する 目的① 全ての口コミに点数をつけ並べ替える 目的② 良い/悪い(自分にとって必要/不必要)に自 動分類する 提案手法 対象 HOTPEPPER beauty[2]に 投稿された口コミ ・ネイルサロンに着目  -全てのサロンに点数を付け、ランキング    にする  - good/bad に自動分類して不要な口コミ は読まなくても良いようにする ベイズフィルタリングを 口コミサイトへ適応   スパムメールフィルタリングの代表例 目的1:テキストデータを定量化する. 【学習していくプログラム】口コミは自由記述文で書かれているため,定まった形やルールがない.そのため,良いか悪いかを教えるたびに学習していくプログラムを利用する. 【提案手法】ベイズフィルタリングについて詳しくはのちほど. 【対象】ホットペッパーの掲載サロン数(すごいことをPR) ネイルサロンに着目した理由

9 ベイズフィルタリングの説明 ベイズフィルタリングは どのようにテキストの定量化を行い 評価するのか?

10 ベイズフィルタリングを用いたテキストの評価方法
概要 1.トレーニングを行う 分類器のトレーニングを行う 2.各単語の確率算出 トレーニングデータを基に,各単語が各カテゴリに出現する確率を算出する 3.ドキュメント全体の確率を算出 手順2の情報を基に,評価したいドキュメントが各カテゴリに出現する確率を算出する ベイズフィルタリングがどのようにテキストを評価しているのか,基本的な流れを説明します. よって,トレーニングが大事である.   分類 分類

11 ベイズフィルタリングは正答例を見せることで その都度学習していくプログラム
ベイズフィルタリングを用いたテキストの評価方法 1.分類器のトレーニングを行う ベイズフィルタリングは正答例を見せることで その都度学習していくプログラム Ex) 【トレーニングの様子】   「スタッフ が 良い」‘good’   「対応 が 丁寧」‘good’   「残念です」‘bad’

12 ベイズフィルタリングを用いたテキストの評価方法
2.各単語の確率を算出する ―トレーニングデータを基に, 各単語が各カテゴリに出現する確率を算出する 単語 good(頻度) Bad(頻度) スタッフ 0.5 0.0 1.0 良い 対応 丁寧 残念 です 【トレーニング例】 スタッフ が 良い ‘good’         対応 が 丁寧   ‘good’ 残念です       ‘bad’

13 ベイズフィルタリングを用いたテキストの評価方法
3.ドキュメント全体の確率を算出する 評価したいドキュメントがあるカテゴリに属する確率 Ex) A=評価したいドキュメント  Pr(good|A )= 0.7 Pr(bad|A )= 0.3 ドキュメントAはgoodカテゴリ に分類されると推測できる! では、評価したいドキュメントがあるカテゴリに属する確率はどのように算出するのか? 【ベイズの定理】    Pr(A|B)  = Pr(B|A) × Pr(A)/Pr(B) Pr(カテゴリ|ドキュメント) =Pr(ドキュメント|カテゴリ)×Pr(カテゴリ)/Pr(ドキュメント)

14 ベイズフィルタリングを用いたテキストの評価方法
3.ドキュメント全体の確率を算出する 【トレーニングデータ】 スタッフ が 良い ‘good’         対応 が 丁寧   ‘good’ 残念です       ‘bad’ 単語 good(頻度) Bad(頻度) スタッフ 0.5 0.0 1.0 良い 対応 丁寧 残念 です Pr(カテゴリ|ドキュメント) =Pr(ドキュメント|カテゴリ)×Pr(カテゴリ)/Pr(ドキュメント) Pr(ドキュメント|カテゴリ)の算出 →☆単純な単語の掛け合わせでOK          Ex. 「対応 が 丁寧」の場合 Pr(カテゴリ)の算出 あるカテゴリが全体に占める確率 Pr(good)=2/3=0.66 Pr(bad)=1/3=0.33 Pr(good|A) =0.25×0.66=0.16 Pr(bad|A) =0×0.33 =0 ドキュメントAは goodである! Pr(ドキュメント)の算出  必要なし!

15 この方法を 口コミサイトに適応させる!

16 Bの方が良い内容であると言えるだろうか?
ベイズフィルタリングのチューニング 1 算出した数値は,このままでは比較に使えない これまで, Pr(good|A)=1.8 Pr(bad|A)=0.7 Pr(good|B)=3.0 Pr(bad|B)=1.7 Pr(good|A)=1.8 Bの方が良い内容であると言えるだろうか? 言えない。 新たに,比較したいテキスト間で共通に使える数値を設定しないといけない. テキストの比較に用いる数値= (スコア) Pr(good|ドキュメント) Pr(bad|ドキュメント) で算出。

17 ベイズフィルタリングの チューニング完了

18 解析を行う 【対象】 HOTPEPPER beautyに掲載されている190件のネイルサロンに寄せられた口コミ
消費者の嗜好4パターン[3]を想定 嗜好1: 可愛くて褒められる仕上がりのネイルサロン 嗜好2: 施術が早くて,丁寧なサロン 嗜好3: 初めてでも安心して通えるサロン 嗜好4: 店の対応や接客が良いサロン しきい値の設定は,口コのは良い口コミの方がおおいから、ただスコアで分けても意味がないことを言う. [3]Hotpepper beauty ネイルサロンの基礎知識を参照

19 190件のサロンを対象に解析を行った 嗜好1:可愛くてほめられる仕上がりンネイルサロン 解析結果 上位のスコア間に
      嗜好1:可愛くてほめられる仕上がりンネイルサロン 上位のスコア間に 大きな差が出る対数分布の形 スコアは,最高198.2,最低1.5 y = log x の曲線に近くなった. グラフのR-2 乗値は0.9589

20 全ての嗜好は共通して,上位のスコアに 大きな差が出る対数分布の形をとった 解析結果

21 被験者による評価実験 目的 本研究のプログラムが,どの程度使えるものなのかを被験者を用いて評価する 評価基準
プログラムによる並べ替え 被験者による並べ替え 対象 被験者20名(各嗜好に5名ずつ) 差!

22 被験者対象実験結果 嗜好1 96%で一致 順位 1 2 3 4 5 システム (サロンNo) A (No.129) B (No.163) C
嗜好1 96%で一致 順位 システム (サロンNo) A (No.129) B (No.163) C (No.188) D (No.137) E (No.105) 被験者1 被験者2 被験者3 被験者4 被験者5

23 被験者対象実験結果 誤差は? <システムの性能> 平均すると89.5 %であり,システムの性能は高いと言える.
嗜好1 96%で一致 嗜好2 74%で一致 順位 システム (サロンNo) A (No.129) B (No.163) C (No.188) D (No.137) E (No.105) 被験者1 被験者2 被験者3 被験者4 被験者5 順位 システム (サロンNo) A (No.130) B (No.161) C (No.132) D (No.51) E (No.175) 被験者1 被験者2 被験者3 被験者4 被験者5 嗜好3 96%で一致 嗜好4 94%で一致 順位 システム (サロンNo) A (No.130) B (No.89) C (No.108) D (No.26) E (No.43) 被験者1 被験者2 被験者3 被験者4 被験者5 順位 システム (サロンNo) A (No.100) B (No.89) C (No.108) D (No.26) E (No.43) 被験者1 被験者2 被験者3 被験者4 被験者5 <システムの性能> 平均すると89.5 %であり,システムの性能は高いと言える. 誤差は?

24 誤差は何からきたものか? 順位の高いサロンにおいて,並べ替え 結果にばらつきがみられた.
誤差は何からきたものか?  順位の高いサロンにおいて,並べ替え 結果にばらつきがみられた. 順位 システム (サロンNo) A (No.129) B (No.163) C (No.188) D (No.137) E (No.105) 被験者1 被験者2 被験者3 被験者4 被験者5 1 位のサロンと2位のサロン間に77 もの差があるが,「1 位と2 位のサロンの口コミに違いを感じなかった」と回答する被験者も数名見受けられた. 構成したシステムと,人の感じ方に違いがあるのでは?

25 構成したシステムと人との感じ方の違い システムは,【可愛い】という表現が出現すればするだけ,単純にスコアが加算されていくように構成されている
人間は,【かわいい】という表現に出くわす機会が一定量を超えると,それ以上プラスの評価にはつながらないのではないか?

26 まとめ 課題 ①口コミを自動分類したい ②ベイズフィルタリングを適応させた ③解析結果を被験者実験により評価した ④精度は高い
①口コミを自動分類したい ②ベイズフィルタリングを適応させた ③解析結果を被験者実験により評価した ④精度は高い 課題 ①人間の評価感度に近づける ②単語の前後関係を意識した評価方法の提案 以上です.ご清聴ありがとうございました.

27 ベイズフィルタリングをそのまま口コミに適応させていいのか?
問題点は3つ。

28 ①確率の掛け算のため,長文なるとエラーが起こる
ベイズフィルタリングのチューニング 1 ①確率の掛け算のため,長文なるとエラーが起こる Pr(ドキュメント|カテゴリ)の求め方は 「スタッフ の 接客  が  丁寧 で  良い 」   0.5×0.3×0.4×0.6×0.8×0.6×0.8=0.013 単語一つ一つの小数の掛け算で求めていたため   少し長い文になると      e-23   もっと長い文になると    エラーが起きてしまう そこで,各単語のスコアが1以上になるように変更した 「スタッフ の 接客 が  丁寧  で  良い」  0.5 ×0.3×0.4×0.6×0.8×0.6×0.8 = 0.013 →1.5 ×1.3×1.4×1.6×1.8×1.6×1.8 =  できれば、何文字くらいでエラー??

29 ②あまりトレーニングできていない単語が多い
ベイズフィルタリングのチューニング 2 ②あまりトレーニングできていない単語が多い 口コミは自由記述文で書かれているため, 不正確な日本語が多く含まれる. (かわいい≒かわいー) 「仮の確率・重み」の設定 重み付き確率は実例を基に算出した確率と仮の確率との平均に 重みを付けて返す. 例えば,【money】という単語が一度だけbad カテゴリでトレーニングされた場合,(重み:1,仮の確率:0.5) Good=   Good=0.5 Bad=   Bad=0.75 実装しましたとか言うと,なんかやったっぽい!  アニメーションで段階的に!!  【設定】  重み=1.0   仮確率=1.0 従来の算出法 重みづけを行ったもの

30 評価基準 被験者による評価実験 システムによる解析結果と,被験者による順位付け結果を比較する 3つが一致!!
3/6の割合で結果が一致したといえる 順位 システム A B C D 被験者 順位が大きいものから 矢印は、 小さいものへと向かう B B B A A A C D C D C D システム 被験者 両者の比較


Download ppt "ベイズフィルタリングを用いた 口コミの分類 ―自分好みの店の抽出―"

Similar presentations


Ads by Google