自動車レビュー簡潔化の手法の提案 情報理工学部・情報知能学科 4年 H206010 内輪健一 H206036 鈴木貴裕
研究背景 近年レビューサイトの利用者が増え、レビューの数が膨大になっており、レビューすべてを見て評価の内容を把握することが非常に困難である。 横川くんの研究はバイクのレビューをもとにしていますが、自分たちは自動車のレビューをもとにしています。 自動車のレビューはバイクのレビューとは違い、レビュー数が多いため、この研究ではまとめるということを目的としています。
carviewのフィットのレビュー このレビューは自動車のレビューですが、このレビューだけで900件ほどあり、 このように、その物に対する評価が書き込まれています
研究目的 複数あるレビューを簡潔な形にすること ひとつひとつのレビューでは整理されていますが、 レビューすべてを見ようとするときに、全体を把握するのは困難なため、レビューを簡潔な形にすることにしました。
理想形 1つのページに情報が集約されている 実現するために レビューをカテゴリに分類する (カテゴリはレビューされている物の特徴) レビュー中にどのような意見が多いか見られるようにする 簡潔な形はどのようなものか考えたときに、 1つのページに情報が集約されており、かつ見る情報が少ないものが簡潔な形と言えるのではないかと考えています。
システムの全体図 実現するために、このような流れでシステムを組みました。 まずレビューサイトからレビューを抽出します。 レビュー文をもとに辞書を作成し、その辞書をもとに文を分類します。 分類した文の中からいくつかの文を選び、ウェブ上に公開するという流れです。
利用するレビューの種類 自動車レビュー 特徴を比較的とらえやすい 生活に身近なため利用者が多い 利用するレビューですが、特徴を比較的とらえやすいことと、 生活に身近なため利用者が多いという点から自動車のレビューを選んでいます。
利用するサイトについて carviewという自動車サイトのユーザーレポートを利用する (http://www.carview.co.jp/userreport/) 主な理由 ・比較的レビュー数が多い ・満足点と不満点が別々に書かれており、これらの判断をするシステム を作らなくてよい プリウス フィット シビック carview 377 925 424 価格.com 105 149 Yahoo!自動車 657 673 93 自動車のレビューサイトもいくつかあると思いますが、レビューの比較的多いサイトを利用しています。 プリウスが若干劣っていますが、総合的に見てレビュー数の多いcarviewというサイトを利用します。
carviewのプリウスのレビュー
レビューを簡潔化するために 複数あるレビューから特徴的な文をまとめる 二人別々にアプローチを考案 整理されていない状態から、何かを元にして文をまとめればいいのではないかと考えた。
2つのアプローチについて 単語からのアプローチ 係り受けからのアプローチ 人が車を評価する上で使われる単語で文を分類 ・レビューに存在する頻出語から、車に関係するものを選出する ・選出した語をもとにして文章を分類する 係り受けからのアプローチ レビュー中に多く出現する意見をもとに文を分類 ・レビューに存在する文法的に係り合った語と語の頻度を出す ・頻度が高いものが含まれている文を選出する 単語からのアプローチでは、人が車を語る上で使う単語で文を分類すれば、まとまるのではないかという考えから 係り受けからのアプローチでは、レビュー中にどういう意見が多く存在するかが分かればまとまるのではないかという考えから
単語からのアプローチ(1) 10車種の頻出単語を出力する ミニバン、軽自動車、スポーツカー、コンパクトカー、ハイブリットカー それぞれのジャンルでレビュー数が多いものから2車種ずつ
単語からのアプローチ(2) 頻出単語を走行性能、内装、外装という3つのカテゴリに分類する 各カテゴリに含まれる単語に基づいて、文を小分類する 燃費 走行 加速 運転 エンジン ハンドル パワー モーター アシスト ブレーキ 視界 室内 席 内装 シート 装備 インテリア メータ オーディオ エアコン トランク 外装 剛性 オープン ボディ デザイン リア 幅 塗装 頻出単語を走行性能、内装、外装という3つのカテゴリに分類する 各カテゴリに含まれる単語に基づいて、文を小分類する
プリウス満足点
係り受けからのアプローチ(1) CaboCha(係り受け解析器)を用いてレビュー中の係り受けの頻度を求める。 単語は名詞・形容詞・副詞のみを使用する プリウスにおいて
係り受けからのアプローチ(2) 「燃費-良い」のような主語+述語のものとは違い、「静粛-性」のような複合語の場合はそれ自身が良いのか悪いのか分からない。 そのためさらに係り受けを調べ、人手で作成した良い表現と悪い表現の辞書にマッチしたもののみ頻度を求めた。 ポジティブ ネガティブ 良い 十分 最高 快適 嬉しい 安定 抜群 便利 満足 素晴らしい 顔負け 好み 悪い しんどい がさつ 酷い 不満 不評 嫌い 不快 最悪 貧相 狭い 安っぽい 良い頻度表を作るために
プリウス満足点
ウェブ公開 第1版 単語からのアプローチ 文章を圧縮のみでいいと思って
係り受けからのアプローチ
評価方法 研究協力者10人にウェブページを見てもらう 2つのアプローチの比較 2つのウェブページの改良点 どちらが見やすいか どちらが使いやすいか 2つのウェブページの改良点
評価結果 単語からのアプローチ7人 係り受けからのアプローチ3人
具体的な感想 単語からのアプローチ 係り受けからのアプローチ 「項目ごとにまとまっていて見やすい」、「情報量が多くて良い」 「項目ごとにまとまっていて見やすい」、「情報量が多くて良い」 「文の量が多くてわかりにくい」、「ぱっと見てわかりにくい」 係り受けからのアプローチ 「ポイントで見たい時に見られる」、「文をあまり読む必要がない」 「係りと頻度でまとめると使いにくい」、「細かく切りすぎて見にくい」
考察 なぜ単語からのアプローチが多かったか 視覚的な部分に対する評価が多い 文のみの圧縮だけでは簡潔化に限界がある カテゴリに分けられており、視覚的に見やすかった 視覚的な部分に対する評価が多い 文のみの圧縮だけでは簡潔化に限界がある
改善案 グラフを入れることで視覚的に把握できるようにする 通常の状態では文を隠すようにしておく http://www.st.chukyo-u.ac.jp/h206036/top.html 「ぱっと見てわかりにくい」という意見をもとに、グラフを入れることで視覚的に把握できるようにする 「文の量が多くてわかりにくい」という意見をもとに、Javaスクリプトを使い、クリックすると文が出現するようにする
修正後の考察 理想形に近づいたか 1つのページに情報が集約されている グラフを使うことで見る情報量が減った
展望 二つのアプローチの統合 すべて自動化 評価点数のグラフ化 様々なレビューに応用 ポジティブネガティブの判別 ポジティブネガティブの判別 Carviewにはユーザーが点数をつけるところがあり、それをグラフ化することでも簡潔化になると考える。 平均点数は乗っているが、何点が何人とかはのっていないので、それをグラフにする。 横川くんが行っていた、ポジティブネガティブの判別を組み込む