ブースティングとキーワードフィルタリング によるシステム要求検出 神戸大学大学院 自然科学研究科 佐古淳,滝口哲也,有木康雄
背景・目的 音声による機器の操作 雑談に反応してシステムが誤動作 ロボット・カーナビなど スイッチを用いた音声入力制御 使いにくい・音声を使うメリットが減少 スイッチレスで 自動的にシステム要求と雑談を判別
目的 システム要求と雑談の判別 「こっちに、 えーと、来て」 「どうやって 動かすの?」 「こっちに来て」 って言うと動くよ 了解 …… えーと、来て」 「どうやって 動かすの?」 「こっちに来て」 って言うと動くよ 了解 …… ……
従来手法 キーワード・スポッティング 問題点 柔軟な表現の受理が困難 ネットワークの構築コスト ガベージ・モデルの構築方法 単語ベース ネットワーク文法 ガベージ・モデル 問題点 柔軟な表現の受理が困難 ネットワークの構築コスト ガベージ・モデルの構築方法 単語ベース 自動的に学習
単語ベースでの要求検出 単語ベースで受理(検出) 問題点 「えー こっちに 来て ちょうだい」 「こっちに えーと 来て」 「こっちに 来て って言うと」 わき出しに弱い
提案手法 単語ベースで受理+拒否 単語による要求・雑談への重み付き投票で判別 えー こっちに 来て ちょうだい こっちに えーと 来て こっちに 来て って言うと システム要求 雑談 投票 単語による要求・雑談への重み付き投票で判別 どの単語を用いるか - 投票の重みは? ブースティングにより学習
ブースティング ブースティングによるテキスト分類 注目する単語と投票重みをコーパスから学習 Decision Stumps [Schapire,98] 単語ベースの単純・高速な手法 true システム要求 単語Aがある 単語Aがない 雑談 false 注目する単語と投票重みをコーパスから学習
コーパス 収録環境 規模 2人とロボットが存在 人同士で会話しながら任意にシステム要求 マイクは発話者2人の胸元に設置 コマンドは8種 異なり単語数:約700語 規模 1時間程度(実質発話時間は20分程度) 切り出し後にラベル付与 330発話(うち49発話がシステム要求)
コーパス 具体例 ラベル 発話内容 -1 こっち 、 こっち で よかっ た っけ こっち に 来 て 、 とか 言う と +1 +1:システム要求 -1:雑談 具体例 ラベル 発話内容 -1 こっち 、 こっち で よかっ た っけ こっち に 来 て 、 とか 言う と +1 こっち に 来 て ください ふふふ 来 た こっち おいでー あと 写真 を 撮っ て が ある なあ 写真 を 撮っ て
実験 音声認識結果に対する要求検出 音声認識結果に対する要求検出
音声認識結果の判別 音響分析条件・HMM サンプリング周波数 特徴パラメータ フレーム長 フレーム周期 窓タイプ 16KHz サンプリング周波数 特徴パラメータ フレーム長 フレーム周期 窓タイプ 16KHz MFCC(25次元) 20ms 10ms ハミング窓 タイプ 混合数 244音節 32混合 母音(V) 子音+母音(CV) 5状態3ループ 7状態5ループ 音響分析条件 H M
音声認識結果の判別 実験条件 音響モデル: CSJベースにMLLR+MAP適応 言語モデル: 書き起こしから学習 認識結果 未知語なし(語彙数700語) 話者Aの認識に、話者Bのモデルを利用 認識結果 単語正解精度:42.1% キーワードF値:0.76
音声認識結果の判別 AdaBoostにより選択された素性語例 素性語例(キーワード) システム 要 求 ください 写真 来て 向こう おいで 場所 止まっ 雑 談 で たら ん って が ない とか の あー よ ちょっと 素性語数:約40語 /700語
音声認識結果の判別 実験結果 Leave-one-out 法により実験 結果はF値が最大のケース 適合率 再現率 F値 unigram 0.92 bi-gram 0.94 0.93 高精度に判別可能
従来手法 キーワード・スポッティング 問題点 問題点 柔軟な表現の受理が困難 ネットワーク文法の構築コスト ガベージ・モデルの構築方法
キーワード・フィルタリング ブースティングによる学習の結果…… 未知語発話時…… システム要求素性 雑談素性 約20語 約20語 ガベージ・モデル 語彙全体 約660語 未知語発話時…… ガベージ単語と認識 :判別に影響無し 雑談素性と認識 :問題低 システム要求素性と認識:問題あり
未知語を含む要求検出 未知語がある場合でも頑健に動作 辞書から単語を削除(キーワード以外) 要求検出F値 F 値 辞書未知語率 1 0.9 0.8 0.7 F 値 0.6 0.5 0.4 未知語がある場合でも頑健に動作 0.3 0.2 0.1 10% 20% 30% 40% 50% 辞書未知語率
まとめ システム要求と雑談の判別 音声認識結果(言語情報)を利用 今後の課題 単語認識精度:42.1%において 適合率:0.94 再現率:0.92 F値:0.93 未知語に対しても頑健に動作 今後の課題 タスクの規模・難易度の向上 言語のみで判別不能なケースへの対応