状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化

Slides:



Advertisements
Similar presentations
自動映像生成のための パーティクルフィルタによるボールの追 跡 2007 年 3 月 21 日 神戸大学大学院自然科学研究科 矢野 一樹.
Advertisements

音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
顔表情クラスタリングによる 映像コンテンツへのタギング
最大エントロピーモデルに基づく形態素解析と辞書による影響
Deep learningによる 読唇システム
音響モデルを利用したシングルチャネルに よる音源方向推定
国内線で新千歳空港を利用している航空会社はどこですか?
音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討
車内状況アウェアネスのための 感情音データベースの設計と評価
Web画像を用いた マルチモーダル情報による物体認識
雑音重み推定と音声 GMMを用いた雑音除去
徳島大学工学部知能情報工学科 A1 グループ 学部4年 森陽司
PSOLA法を用いた極低ビットレート音声符号化に関する検討
ランダムプロジェクションを用いた 音声特徴量変換
神戸大学工学部 松政 宏典,滝口 哲也,有木 康雄 追手門学院大学経済学部 李 義昭 神戸大学発達科学部 中林 稔堯
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
3次キュムラントのバイスペクトラムと PCAによる音声区間検出
自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討
Buried Markov Modelを用いた 構音障害者の音声認識の検討
非負値行列因子分解による 構音障害者の声質変換
複数尤度を用いた 3次元パーティクルフィルタによる選手の追跡 IS1-39
複数の言語情報を用いたCRFによる音声認識誤りの検出
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
視点移動カメラにおけるカメラキャリブレーション
音高による音色変化に着目した音源同定に関する研究
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
1-R-19 発話に不自由のある聴覚障害者の発話音声認識の検討
Specmurtを利用した調波構造行列による 混合楽音解析の検討
NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘 ・ 滝口哲也 ・ 有木康雄 (神戸大) 概要 従来手法の問題点 提案手法
5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3
1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6
構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究
顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識
Number of random matrices
各会話シーン毎に、発話(音源)方向を推定
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による 顔・視線方向同時推定 顔・視線同時推定 研究背景
AdaBoostを用いた システムへの問い合わせと雑談の判別
ブースティングとキーワードフィルタリング によるシステム要求検出
HMM音声合成における 変分ベイズ法に基づく線形回帰
重みつきノルム基準によるF0周波数選択を用いた Specmurtによる多重音解析
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
ベイズ音声合成における 事前分布とモデル構造の話者間共有
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラの検討
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
第5回音声ドキュメント処理ワークショップ (2011/3/7)
音響特徴量を用いた自閉症児と定型発達児の識別
音響伝達特性を用いたシングルチャネル音源方向推定
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
自己縮小画像と混合ガウス分布モデルを用いた超解像
CSP係数の識別に基づく話者の 頭部方向の推定
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
ランダムプロジェクションを用いた音響モデルの線形変換
雑音環境下における Sparse Coding声質変換 3-P-49d
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
Presentation transcript:

状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化 単語共起に注目した野球実況中継の構造化 神戸大学 佐古,滝口,有木 状況推定音声認識 (空振り 三振) 三振 ストライク ボール Out 0S 0B 2S 2B (投げ ストライク) 1S 2B 2S 2B 2S 3B 1S 2B 2S 3B S: ストライク B: ボール カウント2&2 発話に応じて状況を推定 状況に応じて言語モデルを切替え 状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化

単語と状況の関係 状況によって発話されやすい単語 状況(状態)を遷移させる単語 野球の場合 状況を遷移させる単語 ストライク ボール 1S 2B 2S 2B 2S 3B フォアボール カウント1&2 三振 状況に依存して発話されやすい単語

状況依存言語モデル 状況に応じた言語モデルを作成 状況によって確率の高い/低い単語が存在 推定誤りを防ぐ効果 カウント1&2 三振 確率: 低 1S 2B 2S 2B 2S 3B フォアボール カウント1&2 三振 確率: 高

単語共起に注目した 野球実況中継の構造化 神戸大学 佐古淳 滝口哲也 有木康雄

背景・目的 背景 目的 マルチメディアコンテンツの増大 検索を容易にするための情報が必要 ハイライトシーンを配信 状況推定音声認識 状況推定精度の向上 → 構造化精度の向上 音声認識精度の向上 野球実況中継の構造化

音声認識の問題点 音声認識結果を利用して構造化 認識誤りが問題 野球実況中継タスクの場合 音響モデル・言語モデル適応を行ってWER: 70%程度 正解「ファールボール…(次の投球)…投げた、空振り三振」 誤り「フォアボール…(次の投球)…投げた、空振り三振」 尤度 空振り三振! 投げた… … フォアボール 空振り三振! 投げた… … ファールボール … 時間

認識結果のみを用いた構造化 構造の推定を間違う 試合の状況に注目 フォアボール → 次のバッター 次のバッター → (1球目で)空振り三振 フォアボール → 次のバッター 次のバッター → (1球目で)空振り三振 認識結果 尤度 空振り三振! 投げた… … フォアボール 空振り三振! 投げた… … ファールボール … 時間 おかしい 試合の状況に注目

状況を推定する音声認識の枠組み 単純な認識結果を用いて状況を推定すると…… 単語認識誤りを修正できない 正解単語はワードグラフ(候補単語)内に存在する可能性 状況依存を考慮することで正解単語を選択 単語認識誤りを修正できない 状況を推定する音声認識の枠組み 単語認識誤りを修正 正しい状況推定

状況に注目した音声認識 単語は状況に依存して発話 状況がもつ制約 単語と状況の関係 状況 単語 音声 認識単語から状況を推定

状況が持つ制約 野球の場合 ストライクカウント3は存在しない ボールカウント3以外からのフォアボールはない S: ストライク B: ボール Out 0S 0B 2S 2B 1S 2B 2S 3B S: ストライク B: ボール 1S 3B 4B 0S 0B

単語と状況の関係 状況によって発話されやすい単語 状況(状態)を遷移させる単語 野球の場合 状況を遷移させる単語 ストライク ボール 1S 2B 2S 2B 2S 3B フォアボール カウント1&2 三振 状況に依存して発話されやすい単語

状況推定音声認識の定式化 観測音声Oから単語系列Wと状況系列Sを同時に推定 近似 状況依存 音響モデル 状況遷移モデル 状況依存 言語モデル

状況を推定しない音声認識との比較 状況推定しない 状況推定音声認識 W: 単語系列 O: 音響特徴系列 S: 状況系列 音響モデル 言語モデル 状況依存 音響モデル 状況遷移 モデル 状況依存 言語モデル

状況を推定する音声認識 状況毎に 推定される 単語が異なる 状況 状況Z 状況D 状況C 状況B 状況A 単語A 単語G 単語H 単語J … 単語A 単語B 単語G 単語H 単語J 尤度 単語I 時間 状況Z 尤度 時間 状況D 尤度 時間 状況C 状況 尤度 時間 状況B … 単語A 単語B 単語C 単語D 単語F 尤度 単語E 時間 状況A

野球実況中継の構造化 映像と音声のシーケンスに階層のある情報を付与 構造=刻々と変化する試合の状況のシーケンス 映像・音声のシーケンス イニング 1st top アウトカウント 0 out 1 out 構造情報 ストライクカウント 0S 1S 2S 0S 1S ボールカウント 0B 1B 0B 1B 構造=刻々と変化する試合の状況のシーケンス

状況依存音響モデル 状況に応じた音響モデルを作成 興奮していない区間のデータをベースライン アナウンサーが興奮している区間のデータで教師あり適応 認識時 P(O|W,平常)とP(O|W,興奮)を比較 P(O|W, 興奮)の方が高い → 興奮するような状況と推定

状況推定モデル 発話から状況遷移を推定 野球の場合 「投げた直球ストライク」のようにキーワードが離れる場合がある 単一のキーワードでなく付随する単語もセット (空振り 三振) Out 0S 0B (投げた ストライク) (打ち ファールボール) 2S 2B 1S 2B 2S 3B S: ストライク B: ボール (投げた ボール) 1S 3B 4B 0S 0B (ボール フォアボール)

状況依存言語モデル 状況に応じた言語モデルを作成 状況によって確率の高い/低い単語が存在 推定誤りを防ぐ効果 カウント1&2 三振 確率: 低 1S 2B 2S 2B 2S 3B フォアボール カウント1&2 三振 確率: 高

実験 状況推定音声認識を用いて野球中継の構造化実験 タスク: 2003年 9月 7日 阪神・ヤクルト戦 状況 状況モデル・状況依存言語モデル タスク: 2003年 9月 7日 阪神・ヤクルト戦 状況 アウトカウント×3 ストライクカウント×3 ボールカウント×4 興奮/平常 状況モデル・状況依存言語モデル 試合の書き起こしテキストから学習 72状態

実験 音響モデル MLLR+MAPにより教師あり適応(興奮・平常別) 言語モデル Webコーパス(57万形態素) 約1時間文の実況中継書き起こし文書を言語モデル融合 サンプリング周波数 特徴パラメータ フレーム長 フレーム周期 窓タイプ 16KHz MFCC(25次元) 20ms 10ms ハミング窓 タイプ 混合数 244音節 32混合 母音(V) 子音+母音(CV) 5状態3ループ 7状態5ループ 音響分析条件 H M

実験結果 評価 結果 キーワード: ストライク・ボール・ファール・フォアボール アウト・三振・空振り 構造化正解率: 投球毎のSBOの正解率 ストライク・ボール・ファール・フォアボール アウト・三振・空振り 構造化正解率: 投球毎のSBOの正解率 結果 ベースライン 提案手法 キーワード正解精度 66.8% 69.1% 構造化正解率 - 73.3% (音響・言語モデル 適応は行ったもの)

まとめ まとめ 今後の課題 状況の制約を用いることで認識誤りを回避 単語の共起から状況遷移を推定することで誤りが改善 現状では、まだ状況の制約を持つ場面が少ない 今後の課題 状況の制約を増やす必要性 豊富な“状況”の定義 “状況”構築の自動化

状況の定義 基本的に何を状況と定義してもよい 野球の場合 72個の状況 音響モデルへの影響 言語モデルへの影響 状況自身が状況遷移に制約を持つ 野球の場合 言語に関して アウトカウント ストライクカウント ボールカウント 音響に関して 興奮するような状況かどうか 好ましい 本研究の目的(構造化) 72個の状況

考察 状況の遷移に制約がある場合に有効 興奮音声の問題 一般に状況推定を間違うと認識率低下 しかし、実はこれが大事 これによって間違ったパスが消え、正しいパスが残る 制約が強い方が間違ったパスを消しやすい もっとも強い制約は意味の制約(?) 野球に関する制約しか用いていないので回復するのはそこだけ

まとめ まとめ 今後の課題 状況推定音声認識を提案 状況の制約を用いることで認識誤りを回避可能 キーワード正解制度を2.3%改善 野球中継の構造化について よりリッチな状況の利用(状況の制約を増やす) 興奮音声への対処 状況推定音声認識について 汎用的な状況の自動発見