音声情報とベイジアンネットを 用いた感性情報処理システム 室蘭工業大学 大学院工学研究科 博士前期課程 情報工学専攻 久保研究室 原 正一
発表目次 研究背景・目的 構築するシステムの概要 実施した予備実験の説明 今後の計画
人 対 機械のコミュニケーションの円滑化を目指して コンピュータシステムの急速な普及 よりフレンドリで親しみやすいユーザインタフェースが求められてきている (カウンセリング,ペットロボットなど) ユーザの状態に応じて,システムの応答を変化させる コンピュータによる人間の心身状態の認識
従来研究のアプローチ 状態認識のための情報源 感情は曖昧で,厳密にモデル化するほど 識別可能ではない 表情や動作 音声の韻律や発話内容 などから感情をモデル化 ↓ 感情は曖昧で,厳密にモデル化するほど 識別可能ではない
感性情報処理の実現 目的 方法 音声を入力とし,感情・疲労度などの心身状態を推定して出力するシステムの構築 音声・感情間の関連をベイジアンネットによってモデル化 そのモデルにより推論を行う
ベイジアンネット 複数の確率変数の間の依存関係を非循環性有向グラフによって表す その間の定量的な関係を条件付き確率で表現したモデル A B C
システム概要 クライアント 音声特徴量 抽出 ベイジアン ネット 音声 感情・疲労度
音声特徴量の抽出① (システムの入力) ピッチ 振幅 声帯振動の基本周波数 高低の印象を与える 音声波形における振動する波の変動量 声の大きさを表す
音声特徴量の抽出② (システムの入力) ホルマント周波数 スペクトル 音声生成における声道の共振によって生じる 母音の特定に利用される 信号を構成している周波数成分の分布
感情・疲労度(システムの出力) プルチックの基本感情 疲労度 以下の5組を出力とする 喜び - 平静 - 悲しみ 受容 - 平静 - 嫌悪 以下の5組を出力とする 喜び - 平静 - 悲しみ 受容 - 平静 - 嫌悪 恐れ - 平静 - 怒り 予期 - 平静 - 驚き 疲労 - 普通 - 快調
推定システムのベイジアンネット 音声特徴量と感情・疲労度の データをもとにして,構造決定 したベイジアンネットを用意する 以下の式にて推論を行う
音声資料の収集 知り合い同士の2名のユーザの会話を録音し,サンプルデータを収集する 手順 録音時間の目安について通知し,なるべく普段どおりに会話してもらう その会話をそれぞれ別々に記録する 記録後,会話中の感情・疲労度などを,話者本人へのアンケートによって調べる 会話の音声データを感情・疲労度ごとに分類し,サンプルデータとする
予備実験 (音声特徴量間の関連性のモデル化) 目的 システムに利用するアプリケーションの特性の把握 実験環境の検証(本実験での使用に耐えうるか) 特徴量,及びその量子化法に関する妥当性の検証 録音からモデル構築までの一連の流れの習熟
予備実験 環境 ソフトウェア ハードウェア 会話: MSN messenger service の音声チャット 録音: Rockoon 予備実験 環境 ソフトウェア 会話: MSN messenger service の音声チャット 録音: Rockoon 音声特徴量抽出: Praat ベイジアンネットモデル構築: BayoNet ハードウェア ヘッドセットマイク オンボードのサウンドカード
得られた音声資料 被験者 録音設定 データ 8人(20代 男6 女2) サンプリングレート 22.05 kHz 8人(20代 男6 女2) 録音設定 サンプリングレート 22.05 kHz 16 bit モノラルチャネル データ 会話データを10秒毎に切断したもの 113サンプル
利用した音声特徴量 全6ノード 第1ホルマント(F1) 第2ホルマント(F2) ピッチの最高値/平均値(Pi_Ma/Av) ピッチの最高値ー最低値(Pi_Ra) 振幅の最大値/平均値(Po_Ma/Av) 音圧レベル最大の周波数(Spe) 全6ノード
ベイジアンネットモデル構築 6ノードはそれぞれ3つの状態を持つと設定(平均値をもとに高い,普通,低い) 113サンプルのデータをもとに BayoNet によりモデル構築 ネットワークの構造選択は MDL 基準により決定
予備実験 結果 パターン1 0 ← if v < Ave – σ 1 ← if Ave – σ ≦ v < Ave + σ 予備実験 結果 パターン1 0 ← if v < Ave – σ 1 ← if Ave – σ ≦ v < Ave + σ 2 ← if Ave + σ ≦ v v :特徴量 Ave:平均値 σ :標準偏差 パターン2 0 ← if v < Ave – (σ/2) 1 ← if Ave – (σ/2) ≦ v < Ave + (σ/2) 2 ← if Ave + (σ/2) ≦ v
予備実験 考察 ノイズが入るため,ノイズの影響を調べる必要がある 確率変数の割り当て方でネットワークが簡単に変化 予備実験 考察 ノイズが入るため,ノイズの影響を調べる必要がある 確率変数の割り当て方でネットワークが簡単に変化 → 割り当て方は色々なパターンを試すべき ホルマント周波数は標準偏差が小さい → 喋り方による影響が少なく, 感情の推定に向かない可能性
今後の計画 音声資料の収集 システムの構築 構築したシステムの有効性の検証 システムの性能向上 Webサービス化 入力データの多様化