音声情報とベイジアンネットを 用いた感性情報処理システム

Slides:



Advertisements
Similar presentations
生体情報を利用したオンライン認証システムに関する研 究 情報工学科 大山・山口・小尾研究室 学士課程4年田中 丈登.
Advertisements

顔表情クラスタリングによる 映像コンテンツへのタギング
量子化(Mid-riser型) 出力y 入力x 通信ネットワーク特論(量子化・符号化).
卒研のようなもの 圧縮ちーむ 2008.4.22 鴫原、山本、齋藤.
Building text features for object image classification
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第四回 演習課題 画像中からの物体抽出処理(背景情報を手がかりとして) 芝浦工業大学 工学部 情報工学科 青木 義満 2006/05/15.
クラウドにおける ネストした仮想化を用いた 安全な帯域外リモート管理
Pattern Recognition and Machine Learning 1.5 決定理論
音声からの心的状態の推定における 生理心理学的アプローチの導入
発声のしくみ -声道の共鳴と音源の生成-.
神奈川大学大学院工学研究科 電気電子情報工学専攻
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
クロストーク成分の相互相関に 着目した音場再生システム
東京工業大学 機械制御システム専攻 山北 昌毅
車内状況アウェアネスのための 感情音データベースの設計と評価
雑音重み推定と音声 GMMを用いた雑音除去
感情推測システム構築のための顔表情認識の実践
顔表情認識のための顔特徴点抽出 徳島大学 大学院 工学研究科 長野 信男.
徳島大学工学部知能情報工学科 A1 グループ 学部4年 森陽司
PSOLA法を用いた極低ビットレート音声符号化に関する検討
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
担当 : 山口 匡 伊藤 祐吾 (TA) 宮内 裕輔 (TA)
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
ー 第1日目 ー 確率過程について 抵抗の熱雑音の測定実験
自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討
脳活動に関するデータ データの種類 データの特徴 脳波・脳磁図・fMRI画像 脳活動とパフォーマンスの関係はきわめて冗長。
Astro-E2衛星搭載 XISの データ処理方法の最適化
大阪大学 大学院工学研究科 極限光通信工学領域 井上研究室 欅田 直也・橘 遼太郎・隅田 拓也・高 祥史
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
ベイジアンネット混合モデルによる 強化学習エージェントの方策改善
5. 音声からの特徴抽出 5.1 特徴抽出の手順 5.2 音声信号のディジタル化 5.3 人の聴覚をまねて -スペクトル分析 5.4 もうひと工夫 -ケプストラム分析 5.5 雑音の除去.
広瀬啓吉 研究室 4.音声認識における適応手法の開発 1.劣条件下での複数音源分離 5.音声認識のための韻律的特徴の利用
音高による音色変化に着目した音源同定に関する研究
確率伝搬法と量子系の平均場理論 田中和之 東北大学大学院情報科学研究科
T2統計量・Q統計量 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
12. 意味・意図の解析 12.1 意味表現とは 12.2 規則による意味解析処理 12.3 統計的な意味解析処理 12.4 スマートフォンでの音声サービス ニューラルネットワークによる意味解析.
階層的位置表現への 広域化ビュー適用における追尾性向上
量子系における 確率推論の平均場理論 田中和之 東北大学大学院情報科学研究科
2. 音声とは 2.1 音声の科学 2.2 どうやって声を作るか ー調音音声学 2.3 声の正体とは ー音響音声学 2.4 どうやって声を聴き取るか ー聴覚音声学.
部分的最小二乗回帰 Partial Least Squares Regression PLS
物体検出による視覚補助システム T215085 若松大仁 白井研究室.
構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識
コードクローン分類の詳細化に基づく 集約パターンの提案と評価
各会話シーン毎に、発話(音源)方向を推定
ベイジアンネットワーク概説 Loopy Belief Propagation 茨城大学工学部 佐々木稔
第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一
ベイズ最適化 Bayesian Optimization BO
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
HMM音声合成における 変分ベイズ法に基づく線形回帰
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
保守請負時を対象とした 労力見積のためのメトリクスの提案
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
クラスタリングを用いた ベイズ学習モデルを動的に更新する ソフトウェア障害検知手法
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
欅田 雄輝 S 北陸先端科学技術大学院大学 知識科学研究科
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
ソースフィルタモデル.
CSP係数の識別に基づく話者の 頭部方向の推定
ベイジアンネットワークと クラスタリング手法を用いたWeb障害検知システムの開発
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
プログラム依存グラフを用いた ソースコードのパターン違反検出法
Presentation transcript:

音声情報とベイジアンネットを 用いた感性情報処理システム 室蘭工業大学 大学院工学研究科 博士前期課程 情報工学専攻 久保研究室 原 正一

発表目次 研究背景・目的 構築するシステムの概要 実施した予備実験の説明 今後の計画

人 対 機械のコミュニケーションの円滑化を目指して コンピュータシステムの急速な普及 よりフレンドリで親しみやすいユーザインタフェースが求められてきている  (カウンセリング,ペットロボットなど) ユーザの状態に応じて,システムの応答を変化させる コンピュータによる人間の心身状態の認識

従来研究のアプローチ 状態認識のための情報源 感情は曖昧で,厳密にモデル化するほど 識別可能ではない 表情や動作 音声の韻律や発話内容 などから感情をモデル化         ↓ 感情は曖昧で,厳密にモデル化するほど   識別可能ではない

感性情報処理の実現 目的 方法 音声を入力とし,感情・疲労度などの心身状態を推定して出力するシステムの構築 音声・感情間の関連をベイジアンネットによってモデル化 そのモデルにより推論を行う

ベイジアンネット 複数の確率変数の間の依存関係を非循環性有向グラフによって表す その間の定量的な関係を条件付き確率で表現したモデル A B C

システム概要 クライアント 音声特徴量 抽出 ベイジアン ネット 音声 感情・疲労度

音声特徴量の抽出① (システムの入力) ピッチ 振幅 声帯振動の基本周波数 高低の印象を与える 音声波形における振動する波の変動量 声の大きさを表す

音声特徴量の抽出② (システムの入力) ホルマント周波数 スペクトル 音声生成における声道の共振によって生じる 母音の特定に利用される 信号を構成している周波数成分の分布

感情・疲労度(システムの出力) プルチックの基本感情 疲労度 以下の5組を出力とする 喜び - 平静 - 悲しみ 受容 - 平静 - 嫌悪  以下の5組を出力とする 喜び - 平静 - 悲しみ 受容 - 平静 - 嫌悪 恐れ - 平静 - 怒り 予期 - 平静 - 驚き 疲労 - 普通 - 快調

推定システムのベイジアンネット 音声特徴量と感情・疲労度の データをもとにして,構造決定 したベイジアンネットを用意する 以下の式にて推論を行う

音声資料の収集 知り合い同士の2名のユーザの会話を録音し,サンプルデータを収集する 手順 録音時間の目安について通知し,なるべく普段どおりに会話してもらう その会話をそれぞれ別々に記録する 記録後,会話中の感情・疲労度などを,話者本人へのアンケートによって調べる 会話の音声データを感情・疲労度ごとに分類し,サンプルデータとする

予備実験 (音声特徴量間の関連性のモデル化) 目的 システムに利用するアプリケーションの特性の把握 実験環境の検証(本実験での使用に耐えうるか) 特徴量,及びその量子化法に関する妥当性の検証 録音からモデル構築までの一連の流れの習熟

予備実験 環境 ソフトウェア ハードウェア 会話: MSN messenger service の音声チャット 録音: Rockoon 予備実験 環境 ソフトウェア 会話: MSN messenger service の音声チャット 録音: Rockoon 音声特徴量抽出:  Praat ベイジアンネットモデル構築: BayoNet ハードウェア ヘッドセットマイク オンボードのサウンドカード

得られた音声資料 被験者 録音設定 データ 8人(20代 男6 女2) サンプリングレート 22.05 kHz 8人(20代  男6 女2) 録音設定 サンプリングレート 22.05 kHz   16 bit モノラルチャネル データ 会話データを10秒毎に切断したもの  113サンプル

利用した音声特徴量 全6ノード 第1ホルマント(F1) 第2ホルマント(F2) ピッチの最高値/平均値(Pi_Ma/Av) ピッチの最高値ー最低値(Pi_Ra) 振幅の最大値/平均値(Po_Ma/Av) 音圧レベル最大の周波数(Spe) 全6ノード

ベイジアンネットモデル構築 6ノードはそれぞれ3つの状態を持つと設定(平均値をもとに高い,普通,低い) 113サンプルのデータをもとに BayoNet によりモデル構築 ネットワークの構造選択は MDL 基準により決定

予備実験 結果 パターン1 0 ← if v < Ave – σ 1 ← if Ave – σ ≦ v < Ave + σ 予備実験 結果 パターン1 0 ← if v < Ave – σ 1 ← if Ave – σ ≦ v < Ave + σ 2 ← if Ave + σ ≦ v v  :特徴量 Ave:平均値 σ :標準偏差 パターン2 0 ← if v < Ave – (σ/2) 1 ← if Ave – (σ/2) ≦ v < Ave + (σ/2) 2 ← if Ave + (σ/2) ≦ v

予備実験 考察 ノイズが入るため,ノイズの影響を調べる必要がある 確率変数の割り当て方でネットワークが簡単に変化 予備実験 考察 ノイズが入るため,ノイズの影響を調べる必要がある 確率変数の割り当て方でネットワークが簡単に変化   → 割り当て方は色々なパターンを試すべき ホルマント周波数は標準偏差が小さい   → 喋り方による影響が少なく,      感情の推定に向かない可能性

今後の計画 音声資料の収集 システムの構築 構築したシステムの有効性の検証 システムの性能向上 Webサービス化 入力データの多様化