Presentation is loading. Please wait.

Presentation is loading. Please wait.

状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化

Similar presentations


Presentation on theme: "状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化"— Presentation transcript:

1 状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
単語共起に注目した野球実況中継の構造化 神戸大学 佐古,滝口,有木 状況推定音声認識 (空振り 三振) 三振 ストライク ボール Out 0S 0B 2S 2B (投げ ストライク) 1S 2B 2S 2B 2S 3B 1S 2B 2S 3B S: ストライク B: ボール カウント2&2 発話に応じて状況を推定 状況に応じて言語モデルを切替え 状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化

2 単語と状況の関係 状況によって発話されやすい単語 状況(状態)を遷移させる単語 野球の場合 状況を遷移させる単語 ストライク ボール
1S 2B 2S 2B 2S 3B フォアボール カウント1&2 三振 状況に依存して発話されやすい単語

3 状況依存言語モデル 状況に応じた言語モデルを作成 状況によって確率の高い/低い単語が存在 推定誤りを防ぐ効果 カウント1&2 三振
確率: 低 1S 2B 2S 2B 2S 3B フォアボール カウント1&2 三振 確率: 高

4 単語共起に注目した 野球実況中継の構造化 神戸大学 佐古淳 滝口哲也 有木康雄

5 背景・目的 背景 目的 マルチメディアコンテンツの増大 検索を容易にするための情報が必要 ハイライトシーンを配信 状況推定音声認識
状況推定精度の向上 → 構造化精度の向上 音声認識精度の向上 野球実況中継の構造化

6 音声認識の問題点 音声認識結果を利用して構造化 認識誤りが問題 野球実況中継タスクの場合
音響モデル・言語モデル適応を行ってWER: 70%程度 正解「ファールボール…(次の投球)…投げた、空振り三振」 誤り「フォアボール…(次の投球)…投げた、空振り三振」 尤度 空振り三振! 投げた… フォアボール 空振り三振! 投げた… ファールボール 時間

7 認識結果のみを用いた構造化 構造の推定を間違う 試合の状況に注目 フォアボール → 次のバッター 次のバッター → (1球目で)空振り三振
フォアボール → 次のバッター 次のバッター → (1球目で)空振り三振 認識結果 尤度 空振り三振! 投げた… フォアボール 空振り三振! 投げた… ファールボール 時間 おかしい 試合の状況に注目

8 状況を推定する音声認識の枠組み 単純な認識結果を用いて状況を推定すると…… 単語認識誤りを修正できない
正解単語はワードグラフ(候補単語)内に存在する可能性 状況依存を考慮することで正解単語を選択 単語認識誤りを修正できない 状況を推定する音声認識の枠組み 単語認識誤りを修正 正しい状況推定

9 状況に注目した音声認識 単語は状況に依存して発話 状況がもつ制約 単語と状況の関係 状況 単語 音声 認識単語から状況を推定

10 状況が持つ制約 野球の場合 ストライクカウント3は存在しない ボールカウント3以外からのフォアボールはない S: ストライク B: ボール
Out 0S 0B 2S 2B 1S 2B 2S 3B S: ストライク B: ボール 1S 3B 4B 0S 0B

11 単語と状況の関係 状況によって発話されやすい単語 状況(状態)を遷移させる単語 野球の場合 状況を遷移させる単語 ストライク ボール
1S 2B 2S 2B 2S 3B フォアボール カウント1&2 三振 状況に依存して発話されやすい単語

12 状況推定音声認識の定式化 観測音声Oから単語系列Wと状況系列Sを同時に推定 近似 状況依存 音響モデル 状況遷移モデル 状況依存 言語モデル

13 状況を推定しない音声認識との比較 状況推定しない 状況推定音声認識 W: 単語系列 O: 音響特徴系列 S: 状況系列 音響モデル
言語モデル 状況依存 音響モデル 状況遷移 モデル 状況依存 言語モデル

14 状況を推定する音声認識 状況毎に 推定される 単語が異なる 状況 状況Z 状況D 状況C 状況B 状況A 単語A 単語G 単語H 単語J
単語A 単語B 単語G 単語H 単語J 尤度 単語I 時間 状況Z 尤度 時間 状況D 尤度 時間 状況C 状況 尤度 時間 状況B 単語A 単語B 単語C 単語D 単語F 尤度 単語E 時間 状況A

15 野球実況中継の構造化 映像と音声のシーケンスに階層のある情報を付与 構造=刻々と変化する試合の状況のシーケンス 映像・音声のシーケンス
イニング 1st top アウトカウント 0 out 1 out 構造情報 ストライクカウント 0S 1S 2S 0S 1S ボールカウント 0B 1B 0B 1B 構造=刻々と変化する試合の状況のシーケンス

16 状況依存音響モデル 状況に応じた音響モデルを作成 興奮していない区間のデータをベースライン
アナウンサーが興奮している区間のデータで教師あり適応 認識時 P(O|W,平常)とP(O|W,興奮)を比較 P(O|W, 興奮)の方が高い → 興奮するような状況と推定

17 状況推定モデル 発話から状況遷移を推定 野球の場合 「投げた直球ストライク」のようにキーワードが離れる場合がある
単一のキーワードでなく付随する単語もセット (空振り 三振) Out 0S 0B (投げた ストライク) (打ち ファールボール) 2S 2B 1S 2B 2S 3B S: ストライク B: ボール (投げた ボール) 1S 3B 4B 0S 0B (ボール フォアボール)

18 状況依存言語モデル 状況に応じた言語モデルを作成 状況によって確率の高い/低い単語が存在 推定誤りを防ぐ効果 カウント1&2 三振
確率: 低 1S 2B 2S 2B 2S 3B フォアボール カウント1&2 三振 確率: 高

19 実験 状況推定音声認識を用いて野球中継の構造化実験 タスク: 2003年 9月 7日 阪神・ヤクルト戦 状況 状況モデル・状況依存言語モデル
タスク: 2003年 9月 7日 阪神・ヤクルト戦 状況 アウトカウント×3 ストライクカウント×3 ボールカウント×4 興奮/平常 状況モデル・状況依存言語モデル 試合の書き起こしテキストから学習 72状態

20 実験 音響モデル MLLR+MAPにより教師あり適応(興奮・平常別) 言語モデル Webコーパス(57万形態素)
約1時間文の実況中継書き起こし文書を言語モデル融合 サンプリング周波数 特徴パラメータ フレーム長 フレーム周期 窓タイプ 16KHz MFCC(25次元) 20ms 10ms ハミング窓 タイプ 混合数 244音節 32混合 母音(V) 子音+母音(CV) 5状態3ループ 7状態5ループ 音響分析条件 H M

21 実験結果 評価 結果 キーワード: ストライク・ボール・ファール・フォアボール アウト・三振・空振り 構造化正解率: 投球毎のSBOの正解率
ストライク・ボール・ファール・フォアボール アウト・三振・空振り 構造化正解率: 投球毎のSBOの正解率 結果 ベースライン 提案手法 キーワード正解精度 66.8% 69.1% 構造化正解率 - 73.3% (音響・言語モデル 適応は行ったもの)

22 まとめ まとめ 今後の課題 状況の制約を用いることで認識誤りを回避 単語の共起から状況遷移を推定することで誤りが改善
現状では、まだ状況の制約を持つ場面が少ない 今後の課題 状況の制約を増やす必要性 豊富な“状況”の定義 “状況”構築の自動化

23 状況の定義 基本的に何を状況と定義してもよい 野球の場合 72個の状況 音響モデルへの影響 言語モデルへの影響
状況自身が状況遷移に制約を持つ 野球の場合 言語に関して アウトカウント ストライクカウント ボールカウント 音響に関して 興奮するような状況かどうか 好ましい 本研究の目的(構造化) 72個の状況

24 考察 状況の遷移に制約がある場合に有効 興奮音声の問題 一般に状況推定を間違うと認識率低下 しかし、実はこれが大事
これによって間違ったパスが消え、正しいパスが残る 制約が強い方が間違ったパスを消しやすい もっとも強い制約は意味の制約(?) 野球に関する制約しか用いていないので回復するのはそこだけ

25 まとめ まとめ 今後の課題 状況推定音声認識を提案 状況の制約を用いることで認識誤りを回避可能 キーワード正解制度を2.3%改善
野球中継の構造化について よりリッチな状況の利用(状況の制約を増やす) 興奮音声への対処 状況推定音声認識について 汎用的な状況の自動発見


Download ppt "状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化"

Similar presentations


Ads by Google