プロ野球の実況ツイートを対象とした マルチラベル分類

Slides:



Advertisements
Similar presentations
生物統計学・第 4 回 比べる準備をする 平均、分散、標準偏差、標準誤差、標準 化 2015 年 10 月 20 日 生命環境科学域 応用生命科学類 尾形 善之.
Advertisements

嗜好ベクトルの近似による サービス享受条件の自動設定 立命館大学大学院 理工学研究科 データ工学研究室 ◎川成宗剛,山原裕之, 原田史子, 島川博光 2007 年 9 月 6 日.
三木 光範 (同志社大学工学部) 廣安 知之 (同志社大学工学部) 花田 良子 (同志社大学工学部学部 生) 水田 伯典 (同志社大学大学院) ジョブショップスケジューリング問 題への 分散遺伝的アルゴリズムの適用 Distributed Genetic Algorithm for Job-shop.
自動映像生成のための パーティクルフィルタによるボールの追 跡 2007 年 3 月 21 日 神戸大学大学院自然科学研究科 矢野 一樹.
電子書籍の検索機能の改善 木下研究室 201002713 鴫原 善寿. 背景 スマートフォンなどの携帯端末の普及と ともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、 持ち運びも容易になるなど様々な恩恵を もたらした。
世帯マイクロデータの適合度評価における 重みの決定手法
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
ユーザーイメージ収集 インターフェイスの開発
顔表情クラスタリングによる 映像コンテンツへのタギング
「ベースボール統一球は変わったのか」を検証,予測する。
野球好き女子の増加の理由と野球観戦の新たな価値について
到着時刻と燃料消費量を同時に最適化する船速・航路計画
Building text features for object image classification
最大エントロピーモデルに基づく形態素解析と辞書による影響
点対応の外れ値除去の最適化によるカメラの動的校正手法の精度向上
「わかりやすいパターン認識」 第1章:パターン認識とは
日本大学文理学部 情報システム解析学科 山本広大
Twitterの発言に基づくウェブページ推薦システム
Deep learningによる 読唇システム
Pattern Recognition and Machine Learning 1.5 決定理論
得点と打率・長打率・出塁率らの関係 政治経済学部経済学科 ●年●組 ●● ●●.
1210170060経営学部商学科マーケティング戦略コース 刀谷 遼
群論とルービックキューブ 白柳研究室  水野貴裕.
圧縮類似度を用いた方言の自動分類 ~ライス符号を用いた前処理~ ~連結クラスタリング法~ ~余弦類似度を用いた方言分類木の評価~
BaseBallについて・・・・・・!!
中間発表用スライド 田中健太.
1DS04168E 梅根綾花 1DS04184E 清 泰裕 1DS04197P 福井千尋
Web画像を用いた マルチモーダル情報による物体認識
雑音重み推定と音声 GMMを用いた雑音除去
小学校における英語指導は、中学校での英語学習にどのような影響を与えるか?
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
日本大学 文理学部 情報システム解析学科 谷研究室 益田真太郎
Webで恋愛の類型を測り集計しレポートにまとめる
農業経営分析 -データに基づく但馬牛肥育とその限界について-
自動車レビューにおける検索と分析 H208032 松岡 智也 H208060 中西 潤 H208082 松井泰介.
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
プログラム実行履歴を用いたトランザクションファンクション抽出手法
視点移動カメラにおけるカメラキャリブレーション
RoboCupサッカーにおける 戦術的パターンの抽出
機械翻訳勉強会 NTCIR-7について 2007年10月16日 奈良先端大D1小町守.
利用関係に基づく類似度を用いたJavaコンポーネント分類ツールの作成
中京大学 情報理工学部 機械情報学科 H 野口裕司
4人版リバーシYoninの解析 情報論理研究室 藤本 侑花
生物統計学・第3回 全体を眺める(1) R、クラスタリング、ヒートマップ、各種手法
ソースコードの特徴量を用いた機械学習による メソッド抽出リファクタリング推薦手法
言語XBRLで記述された 財務諸表の分析支援ツールの試作
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
外部仕様書・オープンデータガイド精査方針
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
GPGPUによる 飽和高価値 アイテム集合マイニング
不確実データベースからの 負の相関ルールの抽出
音声分析 フーリエ解析の定性的理解のために.
第二回 Javaの開発環境 04A2029           古賀慎也.
論文紹介: “Joint Embedding of Words and Labels for Text Classification”
コードクローン分類の詳細化に基づく 集約パターンの提案と評価
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
項目間の対応関係を用いた XBRL財務報告書自動変換ツールの試作
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
ブースティングとキーワードフィルタリング によるシステム要求検出
岩手県立大学ソフトウエア情報学部 3年 鈴木研究室所属 井ノ上 憲司
A-17 検索履歴のプライバシーを秘匿した ユーザクラスタリング
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
イメージや意識通りの動きの習得 ~野球の打撃において~
Webページタイプによるクラスタ リングを用いた検索支援システム
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
識別子の読解を目的とした名詞辞書の作成方法の一試案
雑音環境下における Sparse Coding声質変換 3-P-49d
転移学習 Transfer learning
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

プロ野球の実況ツイートを対象とした マルチラベル分類 日本大学文理学部 情報システム解析学科尾崎研究室 山田慎也

Twitterでは「実況書き込み」が行われている 研究の背景 Twitterでは「実況書き込み」が行われている 実況書き込みは 野球中継などでも行われている

ツイートの分類が最低限必要 これらをまとめるサイトが欲しい・・・ 第一歩として・・・ Twitter の実況書き込みを利用したスポーツ映像の要約 (小林尊志 ,野田雅文, 出口大輔, 高橋友和 ,井手一郎 ,  村瀬洋/2011) ツイートを用いた野球のLiveシステムの研究 (Hogun Park, Sun-Bum Youn, Geun Young Lee, Heedong Ko/2011) 第一歩として・・・ ツイートの分類が最低限必要

分類ラベル 状況 解説 応援 実際のツイートを見てみると。。 例1 澤村投手続投か…ボールのキレも落ちてきているが リリーフ陣が疲れてるから仕方ないか。 傷を広げないでほしい。頑張れ! ・澤村投手続投 ・リリーフ陣が 疲れてる ・ボールの キレも落ちて きている ・頑張れ! 状況 解説 応援

野次 状況 感想 状況 解説 感想 応援 野次 その他 例2 今回使用するラベル バカかてめえ。ゲッツーとか・・・腹立つわ。 一つのツイートには、複数の内容が含まれる。 一つのツイートに、複数のラベルを割り当てる(タグ付け) 今回使用するラベル 状況 解説 感想 応援 野次 その他 

研究の背景 試合の実況ツイートを集め、分類すると ユーザーの意見、考え、感想が分かる というわけで・・・ 実際に自分の手で振り分けてみました

データについて ・データセットは野球のデータを使用 ・収集期間は2013年5月14 日から6 月20 日の間に Twitter4Jを利用 ・データセットは野球のデータを使用 ・収集期間は2013年5月14 日から6 月20 日の間に  行われた2013 年度日本生命セ・パ交流戦の  読売ジャイアンツの全24試合を対象 ・24試合 13勝10敗1分け .565  交流戦順位3位  ●巨 人 3―5 ロッテ○ ○巨 人 5―4 ロッテ● ○巨 人 7―2 西 武● ○巨 人 2―1 西 武● ●巨 人 3―7 日本ハム○ ●巨 人 1―2日本ハム○ ●巨 人 1―2 楽 天○ ○巨 人 10―4 楽天● ○巨 人 3―2 オリックス● △巨 人 5―5 オリックス△ ●巨 人 0―5 ソフトバンク○ ●巨 人 2―3 ソフトバンク○ ●巨 人 3―4 ロッテ ○ ●巨 人 2―3 ロッテ○ ●巨 人 1―5 西 武○ ○巨 人 7―3 西 武● ○巨 人 4―1 日本ハム● ○巨 人 4―2 日本ハム● ○巨 人 5―3 楽 天 ● ●巨 人 3―5 楽 天○ 〇巨 人 7―1 オリックス● ○巨 人 3―0 オリックス● 〇巨 人 6―1 ソフトバンク● ○巨 人 11―3 ソフトバンク●

46,912ツイート ラベル数の内訳 総ツイート数 解説が一番多い ラベル数が1: 63.9% ラベル数が2: 35.0% ラベル数が1: 63.9% ラベル数が2: 35.0% ラベル数が3 : 1.1%  ラベル数が1:解説、状況など ラベル数が2:解説と状況、状況と感想など ラベル数が3:解説と状況と感想、解説と感想と野次など 解説が一番多い

機械学習を使うには、データを属性ベクトルで表す 文字数はそのツイートの文字数 頻出用語は収集した ツイートから作成 選手名の有無 野球用語の有無 感情語の有無 応援用語の有無 野次用語の有無 今回使用する属性 ・文字数  ・頻出用語 ・選手名  ・野球用語  ・感情語  ・応援用語  ・野次用語   判定にはそれぞれ辞書を作成し、用いた ‐使用した辞書 ・選手名辞書・野球用辞書・感情語辞書 ・応援用語辞書・野次用語辞書 ・頻出用語辞書・標準のIPA 辞書

例 ・クソ!!誉めるところ全くない。 ムカつくわ 選手名、応援用語、野球用語が判定される 野次用語、感情語の属性が判定される ・ロペスナイスヒット!!! ・クソ!!誉めるところ全くない。  ムカつくわ 選手名、応援用語、野球用語が判定される 野次用語、感情語の属性が判定される

分類について 分類‐ ある事例に対し,その事例が 属するラベルを決定する問題 応援のみ 状況 解説 応援 単一ラベル分類 マルチラベル分類 各事例を一つの ラベルに分類 マルチラベル分類 各事例を複数の ラベルに 同時に分類 まだいける!がんばれ! 澤村投手続投か… ボールのキレも落ちてきているが リリーフ陣が疲れてるから 仕方ないか。 傷を広げないでほしい。頑張れ! 応援のみ 状況 解説 応援

Problem Transformation Gjorgji Madjarov ら(2012) An extensive experimental comparison of methods for multi-label learning Pattern Recognition 45 3084-3104 マルチラベル分類 Problem Transformation Algorithm Adaptation 問題を複数の単一ラベル問題へと変換する 問題変換に基づく手法 既存アルゴリズムの 拡張を伴うアルゴリズム適応に基づく手法 Rakel ML-KNN BP-MLL MMP PCT PPT BR RPC CLR

評価基準 ①事例に基づく評価基準 ②ラベルに基づく評価基準 Gjorgji Madjarov ら(2012) An extensive experimental comparison of methods for multi-label learning Pattern Recognition 45 3084-3104 評価基準 ・マルチラベル分類での、分類精度の評価に関して 大きく2つのカテゴリが提案されている ①事例に基づく評価基準 事例ごとに評価値を算出し、その平均を求める ②ラベルに基づく評価基準 ラベル毎に評価値を算出してから平均を求める ラベル毎の集計後に評価値を算出する

2 1 2 1 F値 ①事例に基づく評価基準 tweet 解説 状況 感想 ・・・ 1 2 3 左:実際 / 右:予測 その他 左:実際 / 右:予測 tweet 解説 状況 感想 ・・・ その他 1 1/1 1/1 0/1 ・・・ 0/0 2 0/1 1/0 1/0 ・・・ 0/0 それぞれ 平均を 3 0/0 0/0 0/0 ・・・ 1/1 出している ・・・ 事例(今回はtweet)にラベルが 存在しているかいないか実際に予測 予測:1 予測:0 ・F値 ・再現率 ・適合率 ・ハミングロス ・精度 2 1 再現率: 実際:1 調和平均 2 1 実際:0 適合率: F値

2 1 2 1 F値 ②ラベルに基づく評価基準 tweet 解説 状況 感想 ・・・ 1 2 3 左:実際 / 右:予測 その他 Micro 左:実際 / 右:予測 tweet 解説 状況 感想 ・・・ その他 1 1/0 1/1 0/1 ・・・ 0/0 2 0/1 1/0 1/0 ・・・ 0/0 3 Micro 0/0 0/0 0/0 ・・・ 1/1 ・・・ Macro それぞれ平均を出している 予測:1 予測:0 ・MacroF値 ・Macro再現率 ・Macro適合率 ・MicroF値 ・Micro再現率 ・Micro適合率 2 1 再現率: 実際:1 調和平均 2 1 実際:0 適合率: F値

実験について 実験の目的 ①手法間(アルゴリズム間)の比較 -ライブラリMulanを使用 ②どのくらいの学習データが必要・適切なのか

例 ①直前N試合による比較  N=3の時  直前3試合(1,2,3試合目)を使い4試合目を予測 1 2 3 4 5 ・・・ 24 直前3試合(2,3,4試合目)を使い5試合目を予測 1 2 3 4 5 ・・・ 24 直前3試合(21,22,23試合目)を使い24試合目を予測 1 2 ・・・ 21 22 23 24

例 ②累積(1~N試合)による比較  累積3試合(1,2,3試合目)を使い4試合目を予測 1 2 3 4 5 ・・・ 24 累積4試合(1、2,3,4試合目)を使い5試合目を予測 1 2 3 4 5 ・・・ 24 累積23試合(1,2,・・・,23試合目)を使い24試合目を予測 1 2 ・・・ 21 22 23 24

これら2つの手法(アルゴリズム)と 11個の評価値を使って分類を行う では結果を見てみましょう

累積による比較 F値 Micro F値 Macro F値 F値、MicroF値はあまり差がないがMacroF値はRakelの方が大きい ML-KNN F値 Micro F値 Macro F値 F値、MicroF値はあまり差がないがMacroF値はRakelの方が大きい

直前N試合による比較 全体的にあまり数値が高くない。 特にmacroF値が低いという結果になった F値 microF値 macroF値 直前1試合 52.8% 52.4% 19.9% 直前2試合 51.4% 19.3% 直前3試合 52.2% 51.0% 19.0% 直前4試合 52.6% 51.3% 18.6% 直前5試合 52.3% 51.1% 18.5% 直前6試合 51.5% 50.1% 17.4% 直前7試合 50.0% 16.7% 直前8試合 51.6% 50.5% 17.3% 直前9試合 50.4% 17.1% 直前10試合 17.2% 全体的にあまり数値が高くない。 特にmacroF値が低いという結果になった

ラベル別の結果 解説はとてもよく当たるが、応援は全く当たらない N 評価値 解説 実況 感想 応援 野次 その他 1 再現率 91.0% 30.3% 5.1% 0.9% 6.7% 15.2% 適合率 68.7% 30.7% 16.8% 3.8% 17.8% 22.5% F値 77.6% 22.8% 5.4% 1.3% 6.4% 11.9% 2 91.3% 26.5% 3.4% 0.4% 6.1% 14.9% 67.8% 35.6% 19.6% 15.6% 21.2% 23.1% 77.4% 20.4% 4.7% 0.8% 5.5% 14.3% 3 91.4% 24.8% 3.3% 0.2% 4.2% 15.9% 68.1% 38.0% 16.1% 5.6% 21.9% 20.3% 77.5% 20.1% 0.3% 5.2% 14.8% 4 93.2% 22.3% 2.4% 0.7% 12.9% 31.9% 16.3% 10.3% 23.7% 21.0% 78.0% 19.5% 3.6% 6.2% 5 22.1% 1.8% 0.1% 5.0% 11.3% 66.8% 27.4% 16.7% 2.1% 25.3% 18.9% 2.8% 12.6% 解説はとてもよく当たるが、応援は全く当たらない

ー結論 ―考察 ―今後の課題 生のデータを自分で振り分け、データセットを作った 自動分類を試みた ・辞書作成があまりうまくいかず、よい結果を得られなかった    のではないか ・手法間では差があまりない ・評価基準ではMacroF値が極端に低かった ―今後の課題 ・対戦チームごとに比較する ・まとめサイトにする際視覚化を行う