音声情報とベイジアンネットを用いた感性情報処理システム

Slides:

Advertisements

Similar presentations

生体情報を利用したオンライン認証システムに関する研究情報工学科大山・山口・小尾研究室学士課程４年田中丈登.

Advertisements

顔表情クラスタリングによる映像コンテンツへのタギング

量子化(Mid-riser型) 出力y 入力x 通信ネットワーク特論(量子化･符号化）.

卒研のようなもの圧縮ちーむ２００８．４．２２鴫原、山本、齋藤.

Building text features for object image classification

高度情報演習1A　“テーマＣ” 実践画像処理プログラミング〜画像認識とＣＧによる画像生成〜第四回　演習課題画像中からの物体抽出処理（背景情報を手がかりとして）芝浦工業大学工学部　情報工学科青木　義満 2006/05/15.

クラウドにおけるネストした仮想化を用いた安全な帯域外リモート管理

Pattern Recognition and Machine Learning 1.5 決定理論

音声からの心的状態の推定における生理心理学的アプローチの導入

発声のしくみ－声道の共鳴と音源の生成－.

神奈川大学大学院工学研究科電気電子情報工学専攻

上坂吉則尾関和彦文一総合出版宮崎大輔2003年6月28日（土）

クロストーク成分の相互相関に着目した音場再生システム

東京工業大学機械制御システム専攻山北昌毅

車内状況アウェアネスのための感情音データベースの設計と評価

雑音重み推定と音声ＧＭＭを用いた雑音除去

感情推測システム構築のための顔表情認識の実践

顔表情認識のための顔特徴点抽出徳島大学大学院工学研究科長野信男.

徳島大学工学部知能情報工学科 A1 グループ学部４年森陽司

PSOLA法を用いた極低ビットレート音声符号化に関する検討

「データ学習アルゴリズム」第2章学習と統計的推測報告者佐々木稔 2003年5月21日 2.1 データと学習

担当：山口匡伊藤祐吾（TA）宮内裕輔（TA）

ベイズ基準によるHSMM音声合成の評価 ◎橋本佳，南角吉彦，徳田恵一（名工大）.

ー第1日目ー確率過程について抵抗の熱雑音の測定実験

自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討

脳活動に関するデータデータの種類データの特徴脳波・脳磁図・fMRI画像脳活動とパフォーマンスの関係はきわめて冗長。

Astro-E2衛星搭載 XISのデータ処理方法の最適化

大阪大学大学院工学研究科極限光通信工学領域井上研究室欅田直也・橘遼太郎・隅田拓也・高祥史

7. 音声の認識：高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.

ベイジアンネット混合モデルによる強化学習エージェントの方策改善

5. 音声からの特徴抽出 5.1 特徴抽出の手順 5.2 音声信号のディジタル化 5.3 人の聴覚をまねて－スペクトル分析 5.4 もうひと工夫－ケプストラム分析 5.5 雑音の除去.

広瀬啓吉研究室４．音声認識における適応手法の開発１．劣条件下での複数音源分離５．音声認識のための韻律的特徴の利用

音高による音色変化に着目した音源同定に関する研究

確率伝搬法と量子系の平均場理論田中和之東北大学大学院情報科学研究科

T2統計量・Q統計量明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

雑音環境下における非負値行列因子分解を用いた声質変換

音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定

構造情報に基づく特徴量を用いたグラフマッチングによる物体識別情報工学科藤吉研究室　EP02086　永橋知行.

深層学習を用いた音声認識システム工学部　電気電子工学科　白井研究室 T213069　林健吉.

12. 意味・意図の解析 12.1 意味表現とは 12.2 規則による意味解析処理 12.3 統計的な意味解析処理 12.4 スマートフォンでの音声サービスニューラルネットワークによる意味解析.

階層的位置表現への広域化ビュー適用における追尾性向上

量子系における確率推論の平均場理論田中和之東北大学大学院情報科学研究科

2. 音声とは 2.1 音声の科学 2.2 どうやって声を作るかー調音音声学 2.3 声の正体とはー音響音声学 2.4 どうやって声を聴き取るかー聴覚音声学.

部分的最小二乗回帰 Partial Least Squares Regression PLS

物体検出による視覚補助システム T215085　若松大仁　白井研究室.

構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究

東北大学大学院情報科学研究科応用情報科学専攻田中和之(Kazuyuki Tanaka)

顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識

コードクローン分類の詳細化に基づく集約パターンの提案と評価

各会話シーン毎に、発話（音源）方向を推定

ベイジアンネットワーク概説 Loopy Belief Propagation 茨城大学工学部佐々木稔

第4章識別部の設計 4－5 識別部の最適化発表日：2003年5月16日発表者：時田陽一

ベイズ最適化 Bayesian Optimization BO

クロスバリデーションを用いたベイズ基準によるHMM音声合成

「ＩＣＡによる顔画像特徴量抽出とＳＶＭを用いた表情認識」

多重ベータ混合モデルを用いた調波時間構造のモデル化による音声合成の検討

HMM音声合成における変分ベイズ法に基づく線形回帰

ベイズ基準による隠れセミマルコフモデルに基づく音声合成

保守請負時を対象とした労力見積のためのメトリクスの提案

東北大学大学院情報科学研究科応用情報科学専攻田中和之(Kazuyuki Tanaka)

１ーQー１８音声特徴量抽出のための音素部分空間統合法の検討

クラスタリングを用いたベイズ学習モデルを動的に更新するソフトウェア障害検知手法

音響伝達特性モデルを用いたシングルチャネル音源位置推定の検討 2-P-34 高島遼一，住田雄司，滝口哲也，有木康雄（神戸大）研究の背景

欅田雄輝 S 北陸先端科学技術大学院大学知識科学研究科

1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討

ソースフィルタモデル.

CSP係数の識別に基づく話者の頭部方向の推定

ベイジアンネットワークとクラスタリング手法を用いたWeb障害検知システムの開発

1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討

プログラム依存グラフを用いたソースコードのパターン違反検出法

Presentation transcript:

音声情報とベイジアンネットを用いた感性情報処理システム室蘭工業大学　大学院工学研究科博士前期課程　情報工学専攻久保研究室原　正一

発表目次研究背景・目的構築するシステムの概要実施した予備実験の説明今後の計画

人対機械のコミュニケーションの円滑化を目指してコンピュータシステムの急速な普及よりフレンドリで親しみやすいユーザインタフェースが求められてきている　（カウンセリング，ペットロボットなど）ユーザの状態に応じて，システムの応答を変化させるコンピュータによる人間の心身状態の認識

従来研究のアプローチ状態認識のための情報源感情は曖昧で，厳密にモデル化するほど識別可能ではない表情や動作音声の韻律や発話内容などから感情をモデル化　　　　　　　　↓ 感情は曖昧で，厳密にモデル化するほど　識別可能ではない

感性情報処理の実現目的方法音声を入力とし，感情・疲労度などの心身状態を推定して出力するシステムの構築音声・感情間の関連をベイジアンネットによってモデル化そのモデルにより推論を行う

ベイジアンネット複数の確率変数の間の依存関係を非循環性有向グラフによって表すその間の定量的な関係を条件付き確率で表現したモデル A B C

システム概要クライアント音声特徴量抽出ベイジアンネット音声感情・疲労度

音声特徴量の抽出① （システムの入力）ピッチ振幅声帯振動の基本周波数高低の印象を与える音声波形における振動する波の変動量声の大きさを表す

音声特徴量の抽出② （システムの入力）ホルマント周波数スペクトル音声生成における声道の共振によって生じる母音の特定に利用される信号を構成している周波数成分の分布

感情・疲労度（システムの出力）プルチックの基本感情疲労度以下の５組を出力とする喜び－平静－悲しみ受容－平静－嫌悪　以下の５組を出力とする喜び　－　平静　－　悲しみ受容　－　平静　－　嫌悪恐れ　－　平静　－　怒り予期　－　平静　－　驚き疲労　－　普通　－　快調

推定システムのベイジアンネット音声特徴量と感情・疲労度のデータをもとにして，構造決定したベイジアンネットを用意する以下の式にて推論を行う

音声資料の収集知り合い同士の２名のユーザの会話を録音し，サンプルデータを収集する手順録音時間の目安について通知し，なるべく普段どおりに会話してもらうその会話をそれぞれ別々に記録する記録後，会話中の感情・疲労度などを，話者本人へのアンケートによって調べる会話の音声データを感情・疲労度ごとに分類し，サンプルデータとする

予備実験（音声特徴量間の関連性のモデル化）目的システムに利用するアプリケーションの特性の把握実験環境の検証（本実験での使用に耐えうるか）特徴量，及びその量子化法に関する妥当性の検証録音からモデル構築までの一連の流れの習熟

予備実験環境ソフトウェアハードウェア会話： MSN messenger service の音声チャット録音： Rockoon 予備実験　環境ソフトウェア会話：　MSN messenger service の音声チャット録音：　Rockoon 音声特徴量抽出：　 Praat ベイジアンネットモデル構築：　BayoNet ハードウェアヘッドセットマイクオンボードのサウンドカード

得られた音声資料被験者録音設定データ８人（２０代男６女２）サンプリングレート 22.05 ｋＨｚ８人（２０代　　男６女２）録音設定サンプリングレート　22.05 ｋＨｚ　　16 ｂｉｔモノラルチャネルデータ会話データを１０秒毎に切断したもの　１１３サンプル

利用した音声特徴量全６ノード第１ホルマント（Ｆ１）第２ホルマント（Ｆ２）ピッチの最高値／平均値（Pi_Ma/Av）ピッチの最高値ー最低値（Pi_Ra）振幅の最大値／平均値(Po_Ma/Av) 音圧レベル最大の周波数(Spe) 全６ノード

ベイジアンネットモデル構築６ノードはそれぞれ３つの状態を持つと設定（平均値をもとに高い，普通，低い） 113サンプルのデータをもとに BayoNet によりモデル構築ネットワークの構造選択は MDL 基準により決定

予備実験結果パターン１ 0 ← if v ＜ Ave – σ 1 ← if Ave – σ ≦ v ＜ Ave + σ 予備実験　結果パターン１ 0 ← if v ＜ Ave – σ 1 ← if Ave – σ ≦ v ＜ Ave + σ 2 ← if Ave + σ ≦ v v 　：特徴量 Ave：平均値 σ　：標準偏差パターン２ 0 ← if v ＜ Ave – （σ／２） 1 ← if Ave – （σ／２） ≦ v ＜ Ave + （σ／２） 2 ← if Ave + （σ／２） ≦ v

予備実験考察ノイズが入るため，ノイズの影響を調べる必要がある確率変数の割り当て方でネットワークが簡単に変化予備実験　考察ノイズが入るため，ノイズの影響を調べる必要がある確率変数の割り当て方でネットワークが簡単に変化　　→　割り当て方は色々なパターンを試すべきホルマント周波数は標準偏差が小さい　　→　喋り方による影響が少なく，　　　　感情の推定に向かない可能性

今後の計画音声資料の収集システムの構築構築したシステムの有効性の検証システムの性能向上 Webサービス化入力データの多様化