「心」バリアフリー支援技術に関する研究 末廣一美(福島研究室・4年生)

Slides:



Advertisements
Similar presentations
生体情報を利用したオンライン認証システムに関する研 究 情報工学科 大山・山口・小尾研究室 学士課程4年田中 丈登.
Advertisements

狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討 小橋川美共,末廣一美,髙岡創,高山泰典(日本文理大学) 西村一行(千葉工業大学 ),福島学,岡本壽夫(日本文理大学) 柳川博文(千葉工業大学 )
音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
日本人学習者による英語音声の 韻律に関する研究
卒研のようなもの 圧縮ちーむ 2008.4.22 鴫原、山本、齋藤.
第四章 情報源符号化の基礎 4・1 情報量とエントロピー 4・2 エントロピー符号化 4・3 音声符号化 4・4 画像符号化.
復習.
実証分析の手順 経済データ解析 2011年度.
音声の個人性 発声器官のサイズの違いによるもの 口の大きさと声帯の大きさ 発話の仕方の違いによりもの アクセント 口の動かし方
英語の母音の長さを測定する(2).
音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討
卒業研究テーマ ユビキタスネットワーク社会における 情報受取メディア選択を可能とする 電子書籍に関する研究
発声のしくみ -声道の共鳴と音源の生成-.
P,Q比が変更可能なScaLAPACKの コスト見積もり関数の開発
クロストーク成分の相互相関に 着目した音場再生システム
雑音重み推定と音声 GMMを用いた雑音除去
徳島大学工学部知能情報工学科 A1 グループ 学部4年 森陽司
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
PSOLA法を用いた極低ビットレート音声符号化に関する検討
担当 : 山口 匡 伊藤 祐吾 (TA) 宮内 裕輔 (TA)
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
ー 第1日目 ー 確率過程について 抵抗の熱雑音の測定実験
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討
ユビキタス社会を支える トランスメディア実現のための 情報記述に関する研究
28 PICマイコンを用いた能動騒音制御系の制御性能
5. 音声からの特徴抽出 5.1 特徴抽出の手順 5.2 音声信号のディジタル化 5.3 人の聴覚をまねて -スペクトル分析 5.4 もうひと工夫 -ケプストラム分析 5.5 雑音の除去.
広瀬啓吉 研究室 4.音声認識における適応手法の開発 1.劣条件下での複数音源分離 5.音声認識のための韻律的特徴の利用
音高による音色変化に着目した音源同定に関する研究
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
1-R-19 発話に不自由のある聴覚障害者の発話音声認識の検討
情報検索(6) メディア検索の仕組み 教員 岩村 雅一
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
オープンソース開発支援のための ソースコード及びメールの履歴対応表示システム
オープンソース開発支援のための リビジョン情報と電子メールの検索システム
ユビキタス社会におけるバイオメトリクスを使用した生体認証技術に関する研究
Data Clustering: A Review
2. 音声とは 2.1 音声の科学 2.2 どうやって声を作るか ー調音音声学 2.3 声の正体とは ー音響音声学 2.4 どうやって声を聴き取るか ー聴覚音声学.
構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究
片方向通信路を含む ネットワークアーキテクチャに於ける 動的な仮想リンク制御機構の設計と実装
音声情報とベイジアンネットを 用いた感性情報処理システム
Number of random matrices
各会話シーン毎に、発話(音源)方向を推定
国際情報通信研究科 山崎研究室 修士2年 荻野 晃史
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
ブースティングとキーワードフィルタリング によるシステム要求検出
HMM音声合成における 変分ベイズ法に基づく線形回帰
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラの検討
クラスタリングを用いた ベイズ学習モデルを動的に更新する ソフトウェア障害検知手法
音響伝達特性を用いたシングルチャネル音源方向推定
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討
狭帯域包絡線間相関を用いた 話者識別に有用な帯域の一検討
多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
ユビキタス社会を支える トランスメディア実現のための 情報記述に関する研究
ソースフィルタモデル.
卒業内容説明 ~テーマ~ ユビキタスネットワーク社会における 情報受取メディア選択を可能とする 電子書籍に関する研究
CSP係数の識別に基づく話者の 頭部方向の推定
MAUI Project 2009 インターネットにおける近接性
オブジェクト指向言語における セキュリティ解析アルゴリズムの提案と実現
ベイジアンネットワークと クラスタリング手法を用いたWeb障害検知システムの開発
ランダムプロジェクションを用いた音響モデルの線形変換
Presentation transcript:

「心」バリアフリー支援技術に関する研究 末廣一美(福島研究室・4年生) ― 現実世界の認証で得られる特徴量による情報記述と それに基づく適応的メディア制御技術の開発 ― 研究概要と2007年度実施内容 それに基づく修士研究計画 末廣一美(福島研究室・4年生)

・研究全体の背景 (適応的メディア制御) ・研究全体の目的 (適応的メディア制御について) ・基礎理論 (情報伝送モデル・情報表現形式)  →問題提起(現実世界の認証,記述の変換) ・解決方法 (情報の階層化と情報表現形式の拡張) ・2007年度実施項目  1)発話語に依存しない話者識別(情報源の識別技術)   →音声時間波形の狭帯域包絡線間相関を利用     使用周波数範囲を4kHz範囲に限定して約80%の認識率  2)室種別の類別(伝送路の識別技術)   →インパルス応答の狭帯域包絡線間相関を利用     和室・洋室の特徴量抽出 ・修士研究計画

・研究全体の背景 (適応的メディア制御) ・研究全体の目的 (適応的メディア制御について) ・基礎理論 (情報伝送モデル・情報表現形式)  →問題提起(現実世界の認証,記述の変換) ・解決方法 (情報の階層化と情報表現形式の拡張) ・2007年度実施項目  1)発話語に依存しない話者識別(情報源の識別技術)   →音声時間波形の狭帯域包絡線間相関を利用     使用周波数範囲を4kHz範囲に限定して約80%の認識率  2)室種別の類別(伝送路の識別技術)   →インパルス応答の狭帯域包絡線間相関を利用     和室・洋室の特徴量抽出 ・修士研究計画

? ? 【研究全体の背景】 個人差によるコミュニケーションのバリア 例:眼が見えない 文字・画像メディアでの 情報受取ができない 例:眼が見えない  文字・画像メディアでの  情報受取ができない ? 例:耳が聞こえない  音響メディアでの  情報受取ができない 福祉医療・高齢者対策  文字読み上げや音声認識等の技術がある

健常者でも状況によって使えるメディアが限定される 【研究全体の背景】 健常者でも状況によって使えるメディアが限定される 例:会議中  会議内容(音声・資料)  ⇒会議外(メール) 例:運転中  運転状況(映像・音)  ⇒運転外(音声) 状況によってメディアが「使用中」となると  「それ以外」のメディアで情報を伝える必要有り メディア:情報を伝播する媒体 (現在定義中)  → データ形式:音響メディア,映像メディア,文字メディア     (論理媒体:数値メディア(ディジタルデータ),関数メディア)     物理媒体: 空気,鉱物(銅・ファイバ),紙,電波.etc

・研究全体の背景 (適応的メディア制御) ・研究全体の目的 (適応的メディア制御について) ・基礎理論 (情報伝送モデル・情報表現形式)  →問題提起(現実世界の認証,記述の変換) ・解決方法 (情報の階層化と情報表現形式の拡張) ・2007年度実施項目  1)発話語に依存しない話者識別(情報源の識別技術)   →音声時間波形の狭帯域包絡線間相関を利用     使用周波数範囲を4kHz範囲に限定して約80%の認識率  2)室種別の類別(伝送路の識別技術)   →インパルス応答の狭帯域包絡線間相関を利用     和室・洋室の特徴量抽出 ・修士研究計画

利用者に合わせた情報提示 (メディア制御) 【研究全体の目的】 多くの支援技術があるが   ・ いつ使えるか   ・ どうやって使うのか を利用者が選ばなければならない 「選ぶには知識が必要」が問題   ⇒状況に応じてシステムが     自発的に選択をサポート 利用者に合わせた情報提示 (メディア制御) 適応的システム 適応的メディア制御とは  状況に対応した情報伝播をサポートする技術

問題点:「いつ,誰が,どう使うか」を利用者が選択 メディア制御の例 音声合成 文字認識 文字 音声 問題点:「いつ,誰が,どう使うか」を利用者が選択 適応的メディア制御の例 文字 文字 作業中 会議中 機能 機能 音声 音声 機能 機能 外出中 運転中 伝送能力の違い(携帯・ブロードバンド) 状況に応じて「システム」が適した機能を自動選択 →誰もが使える情報技術

・研究全体の背景 (適応的メディア制御) ・研究全体の目的 (適応的メディア制御について) ・基礎理論 (情報伝送モデル・情報表現形式)  →問題提起(現実世界の認証,記述の変換) ・解決方法 (情報の階層化と情報表現形式の拡張) ・2007年度実施項目  1)発話語に依存しない話者識別(情報源の識別技術)   →音声時間波形の狭帯域包絡線間相関を利用     使用周波数範囲を4kHz範囲に限定して約80%の認識率  2)室種別の類別(伝送路の識別技術)   →インパルス応答の狭帯域包絡線間相関を利用     和室・洋室の特徴量抽出 ・修士研究計画

【基礎理論(情報伝送モデル)】 The Speech Chain 1)情報記述に基づく現状把握と適応制御   ⇒ 適応的システム 2)  を変えることで他のメディアに変換可能   ⇒ メディア制御

【基礎理論(情報表現形式)】 フレーム理論 【基礎理論(情報表現形式)】 フレーム理論 フレーム  マッチング 特定の概念   具体的項目    ・値   具体的項目    ・値  外部からの与えられた情報 特定の概念   具体的項目    ・値   具体的項目    ・値  物事を理解 情報を体系立て構造化 問題 ・人のモデル化が不十分 ・情報を記述しきれていない ・モデルの不整合 ・データの取扱が不適切

・研究全体の背景 (適応的メディア制御) ・研究全体の目的 (適応的メディア制御について) ・基礎理論 (情報伝送モデル・情報表現形式)  →問題提起(現実世界の認証,記述の変換) ・解決方法 (情報の階層化と情報表現形式の拡張) ・2007年度実施項目  1)発話語に依存しない話者識別(情報源の識別技術)   →音声時間波形の狭帯域包絡線間相関を利用     使用周波数範囲を4kHz範囲に限定して約80%の認識率  2)室種別の類別(伝送路の識別技術)   →インパルス応答の狭帯域包絡線間相関を利用     和室・洋室の特徴量抽出 ・修士研究計画

【解決方法】 フレーム理論の拡張 抽象的 言語的 具体的 情報=階層化+拡張型フレーム(?) 拡張 ・データと単純なリンク  → 数列と関数による記述への拡張 ・階層構造  → レベルに対応した記述への拡張

【解決方法】 フレーム理論の拡張+メディア制御 抽象的 言語的 具体的 情報=階層化+拡張型フレーム(?) 階層間の射影 ・射影関数と逆射影関数  → 上位層から下位層への変換と逆変換 ・別メディアへの射影関数  → 別メディアへの情報再構築(変換)

【解決方法】 フレーム理論の拡張+メディア制御 抽象的 言語的 具体的 情報=階層化+拡張型フレーム(?) 人の現実世界把握方法を明らかにする 1)だれを把握する「話者識別」 2)どこを把握する「室種別の類別」  

・研究全体の背景 (適応的メディア制御) ・研究全体の目的 (適応的メディア制御について) ・基礎理論 (情報伝送モデル・情報表現形式)  →問題提起(現実世界の認証,記述の変換) ・解決方法 (情報の階層化と情報表現形式の拡張) ・2007年度実施項目  1)発話語に依存しない話者識別(情報源の識別技術)   →音声時間波形の狭帯域包絡線間相関を利用     使用周波数範囲を4kHz範囲に限定して約80%の認識率  2)室種別の類別(伝送路の識別技術)   →インパルス応答の狭帯域包絡線間相関を利用     和室・洋室の特徴量抽出 ・修士研究計画

狭帯域包絡線間相関を用いた話者識別(手法の説明) 1/4 Oct.分割した音声時間波形 b : 39バンド 28.9Hz~ 20749Hz time ( s ) -0.04 -0.02 0.02 0.04 0.2 0.4 0.6 0.8 1 amplitude 0.04 0.02 -0.02 -0.04 0.2 0.4 0.6 0.8 1 time ( s ) ヒルベルト変換して求めた包絡線 -0.04 -0.02 0.02 0.04 0.2 0.4 0.6 0.8 1 time ( s ) amplitude 0.04 0.02 -0.02 -0.04 0.2 0.4 0.6 0.8 1 time ( s ) dB変換(-30dBで打ち切り) time ( s ) -30 -20 -10 0.2 0.4 0.6 0.8 1 amplitude(dB) -10 -20 -30 0.2 0.4 0.6 0.8 1 time ( s ) 狭帯域包絡線間相関係数

狭帯域包絡線間相関係数行列 (手法の説明) …… 狭帯域包絡線間相関係数行列  (手法の説明) …… 100ms 1000ms(10回平均) 帯域を制限し, 重要帯域を調査 ・個人性がどこにあるのか ・計算コストの低下 DB 識別対象 識別候補:     の最大値 登録語:5語 / 人 (計55語) 識別語:約8語 / 人 (計82語) 正解率=識別候補が本人と一致した回数 / 総数(82) ⇒正解率の変化を調べる

登録語と識別語の音素分布(実験条件の説明) 33 68 11    27 11    11 V:Vowel 母音 N:Nasal 鼻音 Fl:Fricative voiceless 摩擦音(無声) Fv:Fricative voiced  摩擦音(有声) Sl:Stop voiceless  閉鎖音(無声) Sv:Stop voiced  閉鎖音(有声) Ca:Central      approximant        中央近接音 Q:Geminate      consonant             促音 -:Long vowel  長音 11 0 11 11 0 0 22 11 11 11 0 1 10  8      8 3 10 5 0 27 0 11 15 10 a 77 0 0 11 0 11 0 0 8 22 10 12 8 0 9 9 0 0 3 3 i 22 22 0 0 22 0   0 31 19 35 2 1 17  11 8 Vowel u 11 0 0 11   11 11 20 0      8 e 11 0   0 11 0 19 21 0 11 11 9 0  11   0   0 14 26 9 2 o V N’ n ny m my s sh h hy f z j k ky t ts p py ch g gy d dy b by ry y r w Q - N Fl Fv Sl Sv Ca Consonant +:登録語(個数は上段の数) ×:識別語(個数は下段の数) 分布に偏りがない

帯域増加と帯域減少の平均正解率(範囲調査) 帯域を1帯域づつ増加 帯域を1帯域づつ減少 変化した点が同じ 重要帯域:帯域番号6-14,22-31

重要帯域近傍での平均正解率の変化(ロバスト性検討) (外側の検討) V-31 6-V 90% 90% 85% 85% C 80% C 80% 75% 75% 70% 70% 4 5 6 7 8 29 30 31 32 33 (48.6) (57.3) (68.1) (81) (96.3) (3.7k) (4.4k) (5.2k) (6.2k) (7.4k) V(Band Number(freq.(Hz))) V(Band Number(freq.(Hz))) (内側の検討) 6-V,22-31 6-14, V-31 90% 90% 85% 85% C 80% C 80% 75% 75% 70% 70% 10 11 12 13 14 15 16 18 19 20 21 22 23 24 (136) (162) (192) (229) (272) (324) (385) (0.5k) (0.6k) (0.8k) (0.9k) (1.1k) (1.3k) (1.5k) V(Band Number(freq.(Hz))) V(Band Number(freq.(Hz))) 概ね6-14,22-31で妥当 重要帯域を7-11,22-31に制限できる

Used Band Number(freq.(Hz)) 全39帯域の正解率と情報の使用率の比較 100 90 80 70 60 Accuracy and Ratio (%) 50 40 30 20 10 1-39 6-31 6-14 22-31 7-11 22-31 (68-272, 1.1k-5.2k) (81-162, 1.1k-5.2k) (28-21k) (68-5.2k) Used Band Number(freq.(Hz)) fs 範囲 100%(20k) 25% (5k) 21% (4k) 19% (4k) band数 100%(39) 67% (26) 49% (19) 38% (15) 88% 86% 81% 80%

第2フォルマント 周波数範囲が支配的 1091Hz~4000Hz (帯域番号22~30) 重要周波数範囲の検討(結果の検討) 帯域番号22~31(1091Hz~5187Hz) 4.0 3.8 3.4 3.0 /i/ 2.5 /e/ 2.2 2.0 1.8 The second formant F 2 (kHz) /a/ 1.5 第2フォルマント 周波数範囲が支配的 1091Hz~4000Hz (帯域番号22~30) 1.4 /u/ 1.0 0.8 /o/ 0.6 0.2 0.5 1.0 1.4 The first formant F 1 (kHz)

重要周波数範囲の検討(結果の検討) 帯域番号6~14,22~31(68Hz~5187Hz) 高い周波数範囲 低い周波数範囲 前頭洞 約8cm3 副鼻腔共振周波数 約3100Hz~5400Hz (帯域番号28~31) 上顎洞 蝶形骨洞 低い周波数範囲 声帯音源基本周波数 男性:約100Hz~150Hz 女性:約250Hz~300Hz (帯域番号6~14) 検討結果 →個人性は副鼻腔共振周波数・声帯音源基本周波数

発話語による正解率のばらつきの検討 (結果の信頼性検討) 1 0.95 Band No. + 1-39 × 6-31 □ 6-14   22-31 88% 86% 81% 0.9 0.85 CA 0.8 0.75 0.7 0.65 0.6 0.55 0.5 All A E K M N SA SB SC TA TB Y Talker 正解率は「識別語」に依存

「i」 「e」 「a」 「o」 鼻音の継続時間 母音の第2フォルマント 正解率が高い識別語(ネットサーフィン) 平均時間(s) ne 0.2 0.4 0.6 0.8 1 -15 -10 -5 amplitude (dB) ne n' to s a fi 平均時間(s) ne 0.132 n’ 0.109 time( ) s 正解率が低い識別語(水戸黄門) mi to ko mo n' 平均時間(s) mi 0.096 mo 0.095 n’ 0.072 -5 amplitude (dB) -10 -15 0.2 0.4 0.6 0.8 1 time( ) s 「i」 「e」 「a」 「o」 鼻音の継続時間 母音の第2フォルマント

1)発話語に依存しない話者識別(情報源の識別技術) →音声時間波形の狭帯域包絡線間相関を利用 使用周波数範囲を4kHz範囲で約80%の認識率 ・2007年度実施項目 1)発話語に依存しない話者識別(情報源の識別技術)   →音声時間波形の狭帯域包絡線間相関を利用     使用周波数範囲を4kHz範囲で約80%の認識率   →個人性が,声帯基本周波数,副鼻腔共振周波数 100 声帯音源基本周波数 男:100~150Hz(8-11)  女:250~300Hz(13-15) 第2フォルマント周波数  600~4kHz(19-30)   第1フォルマント周波数   200~1.4kHz(12-23) 副鼻腔共振周波数  3.1k~5.4kHz(28-31) 帯域番号:7-11,22-31  ⇒発話者が男性 80 60 Accuracy and Ratio (%) 40 20 6-14,22-31 7-11,22-31 (68-0.2k,10k-5.2k) (81-162,1.1k-5.2k) Used Band Number

・研究全体の背景 (適応的メディア制御) ・研究全体の目的 (適応的メディア制御について) ・基礎理論 (情報伝送モデル・情報表現形式)  →問題提起(現実世界の認証,記述の変換) ・解決方法 (情報の階層化と情報表現形式の拡張) ・2007年度実施項目  1)発話語に依存しない話者識別(情報源の識別技術)   →音声時間波形の狭帯域包絡線間相関を利用     使用周波数範囲を4kHz範囲に限定して約80%の認識率  2)室種別の類別(伝送路の識別技術)   →インパルス応答の狭帯域包絡線間相関を利用     和室・洋室の特徴量抽出 ・修士研究計画

聴覚メカニズムに基づいた 狭帯域包絡線間相関を用いた話者識別 狭帯域包絡線間相関を用いた室印象類別 聴覚メカニズムに基づいた 狭帯域包絡線間相関を用いた話者識別 聴覚メカニズム ・対象によって変化しない ・室印象を聞き分けている (室印象:和室・洋室といった室の種別) 同様の手法を用いて 「室種別の類別」も可能ではないかと考えた

処理の流れ(手法の説明) 1/4 Oct.分割した実測インパルス応答 ケプストラム ヒルベルト包絡線(dB) 狭帯域包絡線間相関係数 0.5 1/4 Oct.分割した実測インパルス応答 amp. 0.015 0.1 -0.5 0.01 0.05 -1 amplitude amplitude 0.1 0.2 0.3 time (s) -0.01 -0.05 -0.015 -0.1 0.1 0.2 0.3 0.1 0.2 0.3 time(s) time(s) b : 39バンド 28.9Hz~ 20749Hz ケプストラム 6000 1000 4000 amplitude quefrency 600 2000 200 N: 15053 fs :44100Hz 2000 4000 6000 2000 4000 6000 discrete quefrency discrete quefrency ヒルベルト包絡線(dB) -10 -10 -20 -20 amplitude(dB) quefrency(dB) -30 -30 -40 -40 -50 -50 2000 4000 6000 2000 4000 6000 discrete quefrency discrete quefrency 狭帯域包絡線間相関係数

狭帯域包絡線間相関係数行列(手法の説明) 全帯域を使用 類似する室を調べる

調査項目 調査項目1  同一室で異なる計測位置での    の調査 調査項目2  異なる室種別(W1とJ)での    の調査 調査項目3  容積は異なるが同一室種別(W1,W2)となる  2室での    の調査 インパルス応答のどの部分を使えばよいか?   ⇒ 調査に使用する区間長を調べる

実験条件 ・室種別  洋室(Western Style Room)  →2室  和室(Japanese Style Room) →1室 ・計測位置  各室で異なる3箇所   ⇒洋室: W1_1 W1_2 W1_3  W2_1 W2_2 W2_3 和室:  J_1 J_2 J_3 W2 W1 J

g 0)区間長を変えて を調査(予備実験) 100msec 160msec g A g 300msec A g 類別に適した区間長 G X G g 0)区間長を変えて    を調査(予備実験) 100msec 160msec 0.2 0.4 0.6 0.8 1 W1 W2 J X A G g 1 A 0.8 W1 0.6 A X G g W2 0.4 J 0.2 W1 W2 J X 300msec 1 A 0.8 W1 A X G g 0.6 ここでの相関係数は,一室での相関係数の平均 類別に適した区間長 W2 0.4 1)異なる室種別の    が十分に差がある 2)同一室の    が高い J 0.2 W1 W2 J X

0)区間長を変えたときの と の変化率(予備実験) 0)区間長を変えたときの  と  の変化率(予備実験) (同一室の  類似度) (差) 1 0.9 0.8 0.7 0.74 0.6 0.5 0.24 0.4 0.3 0.2 0.1 100 120 140 160 180 200 250 300 time(msec)   が大きく,  も大きい → 160msec

0)区間長による類別率の変化(予備実験) 類別率:95% 区間長160msecを用いる % time(msec) 100 90 80 70 50 類別率:95% 40 30 20 10 100 120 140 160 180 200 250 300 time(msec) 区間長160msecを用いる

調査項目 区間長:160msec 調査項目1  同一室で異なる計測位置での    の調査 調査項目2  異なる室種別(W1とJ)での    の調査 調査項目3  容積は異なるが同一種別(W1, W2)となる  2室での    の調査

1)同一室で異なる計測位置での : 0.81 0.72 0.7 同一室での は高い A W1_1 W1_2 W1_3 W2_1 g W2_2 0.9 0.81 0.8 A 0.72 0.7 0.7 W1_1 0.6 W1_2 A X G g W1_3 0.5 W2_1 0.4 W2_2 W2_3 0.3 J_1 0.2 J_2 0.1 J_3 W1_1 W1_2 W1_3 W2_1 W2_2 W2_3 J_1 J_2 J_3 X(Room type_Point Number) 同一室での    は高い

調査項目 区間長:160msec 調査項目1  同一室で異なる計測位置での    の調査 調査項目2  異なる室種別(W1とJ)での    の調査 調査項目3  容積は異なるが同一種別(W1, W2)となる  2室での    の調査

2)洋室(W1)と和室(J)での A 0.52 異なる室種別での は低い X(Room Type_Point Number) 1 0.9 0.8 0.7 W1_1 W1_2 0.6 0.52 W1_3 A X G g 0.5 J_1 0.4 J_2 J_3 0.3 0.2 0.1 W1_1 W1_2 W1_3 J_1 J_2 J_3 X(Room Type_Point Number) 異なる室種別での    は低い

調査項目 区間長:160msec 調査項目1  同一室で異なる計測位置での    の調査 調査項目2  異なる室種別(W1とJ)での    の調査 調査項目3  容積は異なるが同一種別(W1, W2)となる  2室での    の調査

3)容積の異なる洋室1と洋室2での (160msec) 0.69 参考 A 1 0.9 W1_1 0.8 W1_2 0.7 W1_3 A X G g 0.6 0.5 W2_1 0.5 0.4 W2_2 0.3 W2_3 0.2 J_1 0.1 J_2 J_3 W1_1 W1_2 W1_3 W2_1 W2_2 W2_3 J_1 J_2 J_3 X(Room type_Point Number) 容積の異なる同一室種別でも    は高い   ⇒ 室種別が異なれば分離する

・2007年度実施項目 2)室種別の類別(伝送路の識別技術)  →インパルス応答の狭帯域包絡線間相関を利用    和室・洋室の特徴量抽出 区間長:160msec 1)同一室での   は高くなる 2)異なる室種別での   は低くなる 3)同一室種別での   は高くなる ⇒室種別が異なれば概ね分離する(類別率:95%) 狭帯域包絡線間相関を用いた  室種別類別の可能性を確認

・研究全体の背景 (適応的メディア制御) ・研究全体の目的 (適応的メディア制御について) ・基礎理論 (情報伝送モデル・情報表現形式)  →問題提起(現実世界の認証,記述の変換) ・解決方法 (情報の階層化と情報表現形式の拡張) ・2007年度実施項目  1)発話語に依存しない話者識別(情報源の識別技術)   →音声時間波形の狭帯域包絡線間相関を利用     使用周波数範囲を4kHz範囲に限定して約80%の認識率  2)室種別の類別(伝送路の識別技術)   →インパルス応答の狭帯域包絡線間相関を利用     和室・洋室の特徴量抽出  →2007年度実施項目から得られた結果とその解釈 ・修士研究計画

1)狭帯域包絡線間相関を用いた話者識別 → 「情報源」の特徴量抽出 【 2007年度実施項目の検討】 ここでは,フレーム理論の拡張を図った 1)狭帯域包絡線間相関を用いた話者識別  → 「情報源」の特徴量抽出 特定の個人   狭帯域包絡線間相関 特定の個人   狭帯域包絡線間相関 特定の個人   狭帯域包絡線間相関 識別 特定の個人   狭帯域包絡線間相関 2)狭帯域包絡線間相関を用いた室種別類別  → 「伝送路」の特徴量抽出 検討: 得られた結果が適切に行えたと判断されるのかについて説明すること. 得られた結果が何を意味しているのかについて説明すること 特定の個人   狭帯域包絡線間相関 室 特定の個人   狭帯域包絡線間相関 特定の個人   狭帯域包絡線間相関 類別 特定の場所   狭帯域包絡線間相関

【 2007年度実施項目の結論】 ・目的   適応的メディア制御に必要な   「システムによる個人・利用状況の識別」 ・解決方法   フレーム理論の拡張    ・ 現実世界の数値化    ・ 情報のモデル化と特徴量抽出 ・結論   現実世界の数値化・情報モデル化の可能性確認   結論: 目的に対して明らかになった事柄または解決方法が有効であるか否かについて 理論的な解釈を説明すること. 抽象的 言語的 具体的

・研究全体の背景 (適応的メディア制御) ・研究全体の目的 (適応的メディア制御について) ・基礎理論 (情報伝送モデル・情報表現形式)  →問題提起(現実世界の認証,記述の変換) ・解決方法 (情報の階層化と情報表現形式の拡張) ・2007年度実施項目  1)発話語に依存しない話者識別(情報源の識別技術)   →音声時間波形の狭帯域包絡線間相関を利用     使用周波数範囲を4kHz範囲に限定して約80%の認識率  2)室種別の類別(伝送路の識別技術)   →インパルス応答の狭帯域包絡線間相関を利用     和室・洋室の特徴量抽出 ・修士研究計画

【 研究実施計画 平成 20 年度 タイムスケジュール 】 4 月 5 月 6 月 7 月 8 月 9 月 10 月 11 月 12 月 1 3 月 話者登録実験 情報源 正解率 の 検証 識別 発話 データ 収集 発話条件分析 (計画1) 資料化 環境 データ 収集 環境 データ 分析 条件検証実験 資料化 音響事象収集 伝送路 包絡線抽出 と 識別実験 識別 資料化 最適分析区間長調査 (計画2) 最適帯域調査 識別実験 資料化 国内 国内 成果発表 学会 学会 論文 掲載 投稿 予定 オープンキャンパス ( 一般公開 : 8 月 ・ 11 月予定 ) ホームページ は ネットミーティング 時 に 更新

【 研究実施計画 】 平成 21 年度 タイムスケジュール 1 月 2 月 3 月 4 月 5 月 6 月 7 月 8 月 9 月 10 月 11 月 12 月 1 月 2 月 3 月 情報記述 AEML による 記述検証 (計画3) 話者情報記述 の 追加 と 検証 ( 拡張準備 ) 情報記述言語仕様策定 話者情報 ・ 音響事象情報記述 修士論文 審査 修士論文作成 国内 国内 国内 成果発表 学会 学会 学会 掲載 論文 予定 投稿 オープンキャンパス ( 一般公開 : 8 月 ・ 11 月予定 ) ホームページ は ネットミーティング 時 に 更新

【修士計画1】 話者識別 ・目的  「人が意識せずに個人認証」できる技術の確立 ・方法  1)実用化に向けた問題の検討   2008年(前・後期) 研ゼミで実施予定   ◎登録者,発話語,環境による正解率の変動   ◎相関行列のデータベースの構築     ◎最適包絡線抽出アルゴリズムの開発(未定)   ◎最適分析区間長および帯域調査(未定)   2)システムに組み込むための検討   ◎DSPを用いた実装実験(未定) 修士計画:修士特別研究では何をどこまで明らかにするかについて具体的な計画とそれが可能であると判断する根拠を説明すること.特に卒業研究(4年生)および研究ゼミナール(3年生)との連携ならびに,自分が担当するプロジェクト(修士特別研究として最低1つのプロジェクトリーダをすることが必須条件です)の計画もあわせて説明すること.

【修士計画2】 室種別類別 ・目的  1)「システムによる状況把握」できる技術の確立  2)音源と音響事象を統一的な枠組みで扱う ・方法   室種別類別の調査    2007年度(後期)    ◎調査に用いたアルゴリズムの再設計    ◎室のIRを増やして卒研の妥当性調査    2008年度(後期)~2009年度(前期)    ◎同一形状で異なる室種別の室のIR計測    ◎同一形状で異なる室種別の類似度調査    ◎「広さ」感制御した室の類似度調査(未定) 修士計画:修士特別研究では何をどこまで明らかにするかについて具体的な計画とそれが可能であると判断する根拠を説明すること.特に卒業研究(4年生)および研究ゼミナール(3年生)との連携ならびに,自分が担当するプロジェクト(修士特別研究として最低1つのプロジェクトリーダをすることが必須条件です)の計画もあわせて説明すること.

【修士計画3】 情報記述 ・目的   ISFNで策定したAEMLを「音源情報」および   「空間情報」へ拡張する ・方法   2009年度(前・後期)   1)情報抽出パラメータによる情報記述と再構築    ◎AEMLによる記述検証    ◎話者情報記述の追加と検証    ◎音響事象情報記述の追加と検証   可能であれば    2)特徴量パラメータによる解析的情報表現   3)包絡線情報抽出アルゴリズムの統合       修士計画:修士特別研究では何をどこまで明らかにするかについて具体的な計画とそれが可能であると判断する根拠を説明すること.特に卒業研究(4年生)および研究ゼミナール(3年生)との連携ならびに,自分が担当するプロジェクト(修士特別研究として最低1つのプロジェクトリーダをすることが必須条件です)の計画もあわせて説明すること.

狭帯域包絡線間相関(参考資料) 1/4 Oct.に狭帯域分割した時間波形 ヒルベルト変換して求めた包絡線 狭帯域包絡線間相関係数 b :全39帯域  (28.9~20749Hz)  :狭帯域通過フィルタ ヒルベルト変換して求めた包絡線 狭帯域包絡線間相関係数 但し,    は    をdB変換