「心」バリアフリー支援技術に関する研究 末廣一美(福島研究室・4年生) ― 現実世界の認証で得られる特徴量による情報記述と それに基づく適応的メディア制御技術の開発 ― 研究概要と2007年度実施内容 それに基づく修士研究計画 末廣一美(福島研究室・4年生)
・研究全体の背景 (適応的メディア制御) ・研究全体の目的 (適応的メディア制御について) ・基礎理論 (情報伝送モデル・情報表現形式) →問題提起(現実世界の認証,記述の変換) ・解決方法 (情報の階層化と情報表現形式の拡張) ・2007年度実施項目 1)発話語に依存しない話者識別(情報源の識別技術) →音声時間波形の狭帯域包絡線間相関を利用 使用周波数範囲を4kHz範囲に限定して約80%の認識率 2)室種別の類別(伝送路の識別技術) →インパルス応答の狭帯域包絡線間相関を利用 和室・洋室の特徴量抽出 ・修士研究計画
・研究全体の背景 (適応的メディア制御) ・研究全体の目的 (適応的メディア制御について) ・基礎理論 (情報伝送モデル・情報表現形式) →問題提起(現実世界の認証,記述の変換) ・解決方法 (情報の階層化と情報表現形式の拡張) ・2007年度実施項目 1)発話語に依存しない話者識別(情報源の識別技術) →音声時間波形の狭帯域包絡線間相関を利用 使用周波数範囲を4kHz範囲に限定して約80%の認識率 2)室種別の類別(伝送路の識別技術) →インパルス応答の狭帯域包絡線間相関を利用 和室・洋室の特徴量抽出 ・修士研究計画
? ? 【研究全体の背景】 個人差によるコミュニケーションのバリア 例:眼が見えない 文字・画像メディアでの 情報受取ができない 例:眼が見えない 文字・画像メディアでの 情報受取ができない ? 例:耳が聞こえない 音響メディアでの 情報受取ができない 福祉医療・高齢者対策 文字読み上げや音声認識等の技術がある
健常者でも状況によって使えるメディアが限定される 【研究全体の背景】 健常者でも状況によって使えるメディアが限定される 例:会議中 会議内容(音声・資料) ⇒会議外(メール) 例:運転中 運転状況(映像・音) ⇒運転外(音声) 状況によってメディアが「使用中」となると 「それ以外」のメディアで情報を伝える必要有り メディア:情報を伝播する媒体 (現在定義中) → データ形式:音響メディア,映像メディア,文字メディア (論理媒体:数値メディア(ディジタルデータ),関数メディア) 物理媒体: 空気,鉱物(銅・ファイバ),紙,電波.etc
・研究全体の背景 (適応的メディア制御) ・研究全体の目的 (適応的メディア制御について) ・基礎理論 (情報伝送モデル・情報表現形式) →問題提起(現実世界の認証,記述の変換) ・解決方法 (情報の階層化と情報表現形式の拡張) ・2007年度実施項目 1)発話語に依存しない話者識別(情報源の識別技術) →音声時間波形の狭帯域包絡線間相関を利用 使用周波数範囲を4kHz範囲に限定して約80%の認識率 2)室種別の類別(伝送路の識別技術) →インパルス応答の狭帯域包絡線間相関を利用 和室・洋室の特徴量抽出 ・修士研究計画
利用者に合わせた情報提示 (メディア制御) 【研究全体の目的】 多くの支援技術があるが ・ いつ使えるか ・ どうやって使うのか を利用者が選ばなければならない 「選ぶには知識が必要」が問題 ⇒状況に応じてシステムが 自発的に選択をサポート 利用者に合わせた情報提示 (メディア制御) 適応的システム 適応的メディア制御とは 状況に対応した情報伝播をサポートする技術
問題点:「いつ,誰が,どう使うか」を利用者が選択 メディア制御の例 音声合成 文字認識 文字 音声 問題点:「いつ,誰が,どう使うか」を利用者が選択 適応的メディア制御の例 文字 文字 作業中 会議中 機能 機能 音声 音声 機能 機能 外出中 運転中 伝送能力の違い(携帯・ブロードバンド) 状況に応じて「システム」が適した機能を自動選択 →誰もが使える情報技術
・研究全体の背景 (適応的メディア制御) ・研究全体の目的 (適応的メディア制御について) ・基礎理論 (情報伝送モデル・情報表現形式) →問題提起(現実世界の認証,記述の変換) ・解決方法 (情報の階層化と情報表現形式の拡張) ・2007年度実施項目 1)発話語に依存しない話者識別(情報源の識別技術) →音声時間波形の狭帯域包絡線間相関を利用 使用周波数範囲を4kHz範囲に限定して約80%の認識率 2)室種別の類別(伝送路の識別技術) →インパルス応答の狭帯域包絡線間相関を利用 和室・洋室の特徴量抽出 ・修士研究計画
【基礎理論(情報伝送モデル)】 The Speech Chain 1)情報記述に基づく現状把握と適応制御 ⇒ 適応的システム 2) を変えることで他のメディアに変換可能 ⇒ メディア制御
【基礎理論(情報表現形式)】 フレーム理論 【基礎理論(情報表現形式)】 フレーム理論 フレーム マッチング 特定の概念 具体的項目 ・値 具体的項目 ・値 外部からの与えられた情報 特定の概念 具体的項目 ・値 具体的項目 ・値 物事を理解 情報を体系立て構造化 問題 ・人のモデル化が不十分 ・情報を記述しきれていない ・モデルの不整合 ・データの取扱が不適切
・研究全体の背景 (適応的メディア制御) ・研究全体の目的 (適応的メディア制御について) ・基礎理論 (情報伝送モデル・情報表現形式) →問題提起(現実世界の認証,記述の変換) ・解決方法 (情報の階層化と情報表現形式の拡張) ・2007年度実施項目 1)発話語に依存しない話者識別(情報源の識別技術) →音声時間波形の狭帯域包絡線間相関を利用 使用周波数範囲を4kHz範囲に限定して約80%の認識率 2)室種別の類別(伝送路の識別技術) →インパルス応答の狭帯域包絡線間相関を利用 和室・洋室の特徴量抽出 ・修士研究計画
【解決方法】 フレーム理論の拡張 抽象的 言語的 具体的 情報=階層化+拡張型フレーム(?) 拡張 ・データと単純なリンク → 数列と関数による記述への拡張 ・階層構造 → レベルに対応した記述への拡張
【解決方法】 フレーム理論の拡張+メディア制御 抽象的 言語的 具体的 情報=階層化+拡張型フレーム(?) 階層間の射影 ・射影関数と逆射影関数 → 上位層から下位層への変換と逆変換 ・別メディアへの射影関数 → 別メディアへの情報再構築(変換)
【解決方法】 フレーム理論の拡張+メディア制御 抽象的 言語的 具体的 情報=階層化+拡張型フレーム(?) 人の現実世界把握方法を明らかにする 1)だれを把握する「話者識別」 2)どこを把握する「室種別の類別」
・研究全体の背景 (適応的メディア制御) ・研究全体の目的 (適応的メディア制御について) ・基礎理論 (情報伝送モデル・情報表現形式) →問題提起(現実世界の認証,記述の変換) ・解決方法 (情報の階層化と情報表現形式の拡張) ・2007年度実施項目 1)発話語に依存しない話者識別(情報源の識別技術) →音声時間波形の狭帯域包絡線間相関を利用 使用周波数範囲を4kHz範囲に限定して約80%の認識率 2)室種別の類別(伝送路の識別技術) →インパルス応答の狭帯域包絡線間相関を利用 和室・洋室の特徴量抽出 ・修士研究計画
狭帯域包絡線間相関を用いた話者識別(手法の説明) 1/4 Oct.分割した音声時間波形 b : 39バンド 28.9Hz~ 20749Hz time ( s ) -0.04 -0.02 0.02 0.04 0.2 0.4 0.6 0.8 1 amplitude 0.04 0.02 -0.02 -0.04 0.2 0.4 0.6 0.8 1 time ( s ) ヒルベルト変換して求めた包絡線 -0.04 -0.02 0.02 0.04 0.2 0.4 0.6 0.8 1 time ( s ) amplitude 0.04 0.02 -0.02 -0.04 0.2 0.4 0.6 0.8 1 time ( s ) dB変換(-30dBで打ち切り) time ( s ) -30 -20 -10 0.2 0.4 0.6 0.8 1 amplitude(dB) -10 -20 -30 0.2 0.4 0.6 0.8 1 time ( s ) 狭帯域包絡線間相関係数
狭帯域包絡線間相関係数行列 (手法の説明) …… 狭帯域包絡線間相関係数行列 (手法の説明) …… 100ms 1000ms(10回平均) 帯域を制限し, 重要帯域を調査 ・個人性がどこにあるのか ・計算コストの低下 DB 識別対象 識別候補: の最大値 登録語:5語 / 人 (計55語) 識別語:約8語 / 人 (計82語) 正解率=識別候補が本人と一致した回数 / 総数(82) ⇒正解率の変化を調べる
登録語と識別語の音素分布(実験条件の説明) 33 68 11 27 11 11 V:Vowel 母音 N:Nasal 鼻音 Fl:Fricative voiceless 摩擦音(無声) Fv:Fricative voiced 摩擦音(有声) Sl:Stop voiceless 閉鎖音(無声) Sv:Stop voiced 閉鎖音(有声) Ca:Central approximant 中央近接音 Q:Geminate consonant 促音 -:Long vowel 長音 11 0 11 11 0 0 22 11 11 11 0 1 10 8 8 3 10 5 0 27 0 11 15 10 a 77 0 0 11 0 11 0 0 8 22 10 12 8 0 9 9 0 0 3 3 i 22 22 0 0 22 0 0 31 19 35 2 1 17 11 8 Vowel u 11 0 0 11 11 11 20 0 8 e 11 0 0 11 0 19 21 0 11 11 9 0 11 0 0 14 26 9 2 o V N’ n ny m my s sh h hy f z j k ky t ts p py ch g gy d dy b by ry y r w Q - N Fl Fv Sl Sv Ca Consonant +:登録語(個数は上段の数) ×:識別語(個数は下段の数) 分布に偏りがない
帯域増加と帯域減少の平均正解率(範囲調査) 帯域を1帯域づつ増加 帯域を1帯域づつ減少 変化した点が同じ 重要帯域:帯域番号6-14,22-31
重要帯域近傍での平均正解率の変化(ロバスト性検討) (外側の検討) V-31 6-V 90% 90% 85% 85% C 80% C 80% 75% 75% 70% 70% 4 5 6 7 8 29 30 31 32 33 (48.6) (57.3) (68.1) (81) (96.3) (3.7k) (4.4k) (5.2k) (6.2k) (7.4k) V(Band Number(freq.(Hz))) V(Band Number(freq.(Hz))) (内側の検討) 6-V,22-31 6-14, V-31 90% 90% 85% 85% C 80% C 80% 75% 75% 70% 70% 10 11 12 13 14 15 16 18 19 20 21 22 23 24 (136) (162) (192) (229) (272) (324) (385) (0.5k) (0.6k) (0.8k) (0.9k) (1.1k) (1.3k) (1.5k) V(Band Number(freq.(Hz))) V(Band Number(freq.(Hz))) 概ね6-14,22-31で妥当 重要帯域を7-11,22-31に制限できる
Used Band Number(freq.(Hz)) 全39帯域の正解率と情報の使用率の比較 100 90 80 70 60 Accuracy and Ratio (%) 50 40 30 20 10 1-39 6-31 6-14 22-31 7-11 22-31 (68-272, 1.1k-5.2k) (81-162, 1.1k-5.2k) (28-21k) (68-5.2k) Used Band Number(freq.(Hz)) fs 範囲 100%(20k) 25% (5k) 21% (4k) 19% (4k) band数 100%(39) 67% (26) 49% (19) 38% (15) 88% 86% 81% 80%
第2フォルマント 周波数範囲が支配的 1091Hz~4000Hz (帯域番号22~30) 重要周波数範囲の検討(結果の検討) 帯域番号22~31(1091Hz~5187Hz) 4.0 3.8 3.4 3.0 /i/ 2.5 /e/ 2.2 2.0 1.8 The second formant F 2 (kHz) /a/ 1.5 第2フォルマント 周波数範囲が支配的 1091Hz~4000Hz (帯域番号22~30) 1.4 /u/ 1.0 0.8 /o/ 0.6 0.2 0.5 1.0 1.4 The first formant F 1 (kHz)
重要周波数範囲の検討(結果の検討) 帯域番号6~14,22~31(68Hz~5187Hz) 高い周波数範囲 低い周波数範囲 前頭洞 約8cm3 副鼻腔共振周波数 約3100Hz~5400Hz (帯域番号28~31) 上顎洞 蝶形骨洞 低い周波数範囲 声帯音源基本周波数 男性:約100Hz~150Hz 女性:約250Hz~300Hz (帯域番号6~14) 検討結果 →個人性は副鼻腔共振周波数・声帯音源基本周波数
発話語による正解率のばらつきの検討 (結果の信頼性検討) 1 0.95 Band No. + 1-39 × 6-31 □ 6-14 22-31 88% 86% 81% 0.9 0.85 CA 0.8 0.75 0.7 0.65 0.6 0.55 0.5 All A E K M N SA SB SC TA TB Y Talker 正解率は「識別語」に依存
「i」 「e」 「a」 「o」 鼻音の継続時間 母音の第2フォルマント 正解率が高い識別語(ネットサーフィン) 平均時間(s) ne 0.2 0.4 0.6 0.8 1 -15 -10 -5 amplitude (dB) ne n' to s a fi 平均時間(s) ne 0.132 n’ 0.109 time( ) s 正解率が低い識別語(水戸黄門) mi to ko mo n' 平均時間(s) mi 0.096 mo 0.095 n’ 0.072 -5 amplitude (dB) -10 -15 0.2 0.4 0.6 0.8 1 time( ) s 「i」 「e」 「a」 「o」 鼻音の継続時間 母音の第2フォルマント
1)発話語に依存しない話者識別(情報源の識別技術) →音声時間波形の狭帯域包絡線間相関を利用 使用周波数範囲を4kHz範囲で約80%の認識率 ・2007年度実施項目 1)発話語に依存しない話者識別(情報源の識別技術) →音声時間波形の狭帯域包絡線間相関を利用 使用周波数範囲を4kHz範囲で約80%の認識率 →個人性が,声帯基本周波数,副鼻腔共振周波数 100 声帯音源基本周波数 男:100~150Hz(8-11) 女:250~300Hz(13-15) 第2フォルマント周波数 600~4kHz(19-30) 第1フォルマント周波数 200~1.4kHz(12-23) 副鼻腔共振周波数 3.1k~5.4kHz(28-31) 帯域番号:7-11,22-31 ⇒発話者が男性 80 60 Accuracy and Ratio (%) 40 20 6-14,22-31 7-11,22-31 (68-0.2k,10k-5.2k) (81-162,1.1k-5.2k) Used Band Number
・研究全体の背景 (適応的メディア制御) ・研究全体の目的 (適応的メディア制御について) ・基礎理論 (情報伝送モデル・情報表現形式) →問題提起(現実世界の認証,記述の変換) ・解決方法 (情報の階層化と情報表現形式の拡張) ・2007年度実施項目 1)発話語に依存しない話者識別(情報源の識別技術) →音声時間波形の狭帯域包絡線間相関を利用 使用周波数範囲を4kHz範囲に限定して約80%の認識率 2)室種別の類別(伝送路の識別技術) →インパルス応答の狭帯域包絡線間相関を利用 和室・洋室の特徴量抽出 ・修士研究計画
聴覚メカニズムに基づいた 狭帯域包絡線間相関を用いた話者識別 狭帯域包絡線間相関を用いた室印象類別 聴覚メカニズムに基づいた 狭帯域包絡線間相関を用いた話者識別 聴覚メカニズム ・対象によって変化しない ・室印象を聞き分けている (室印象:和室・洋室といった室の種別) 同様の手法を用いて 「室種別の類別」も可能ではないかと考えた
処理の流れ(手法の説明) 1/4 Oct.分割した実測インパルス応答 ケプストラム ヒルベルト包絡線(dB) 狭帯域包絡線間相関係数 0.5 1/4 Oct.分割した実測インパルス応答 amp. 0.015 0.1 -0.5 0.01 0.05 -1 amplitude amplitude 0.1 0.2 0.3 time (s) -0.01 -0.05 -0.015 -0.1 0.1 0.2 0.3 0.1 0.2 0.3 time(s) time(s) b : 39バンド 28.9Hz~ 20749Hz ケプストラム 6000 1000 4000 amplitude quefrency 600 2000 200 N: 15053 fs :44100Hz 2000 4000 6000 2000 4000 6000 discrete quefrency discrete quefrency ヒルベルト包絡線(dB) -10 -10 -20 -20 amplitude(dB) quefrency(dB) -30 -30 -40 -40 -50 -50 2000 4000 6000 2000 4000 6000 discrete quefrency discrete quefrency 狭帯域包絡線間相関係数
狭帯域包絡線間相関係数行列(手法の説明) 全帯域を使用 類似する室を調べる
調査項目 調査項目1 同一室で異なる計測位置での の調査 調査項目2 異なる室種別(W1とJ)での の調査 調査項目3 容積は異なるが同一室種別(W1,W2)となる 2室での の調査 インパルス応答のどの部分を使えばよいか? ⇒ 調査に使用する区間長を調べる
実験条件 ・室種別 洋室(Western Style Room) →2室 和室(Japanese Style Room) →1室 ・計測位置 各室で異なる3箇所 ⇒洋室: W1_1 W1_2 W1_3 W2_1 W2_2 W2_3 和室: J_1 J_2 J_3 W2 W1 J
g 0)区間長を変えて を調査(予備実験) 100msec 160msec g A g 300msec A g 類別に適した区間長 G X G g 0)区間長を変えて を調査(予備実験) 100msec 160msec 0.2 0.4 0.6 0.8 1 W1 W2 J X A G g 1 A 0.8 W1 0.6 A X G g W2 0.4 J 0.2 W1 W2 J X 300msec 1 A 0.8 W1 A X G g 0.6 ここでの相関係数は,一室での相関係数の平均 類別に適した区間長 W2 0.4 1)異なる室種別の が十分に差がある 2)同一室の が高い J 0.2 W1 W2 J X
0)区間長を変えたときの と の変化率(予備実験) 0)区間長を変えたときの と の変化率(予備実験) (同一室の 類似度) (差) 1 0.9 0.8 0.7 0.74 0.6 0.5 0.24 0.4 0.3 0.2 0.1 100 120 140 160 180 200 250 300 time(msec) が大きく, も大きい → 160msec
0)区間長による類別率の変化(予備実験) 類別率:95% 区間長160msecを用いる % time(msec) 100 90 80 70 50 類別率:95% 40 30 20 10 100 120 140 160 180 200 250 300 time(msec) 区間長160msecを用いる
調査項目 区間長:160msec 調査項目1 同一室で異なる計測位置での の調査 調査項目2 異なる室種別(W1とJ)での の調査 調査項目3 容積は異なるが同一種別(W1, W2)となる 2室での の調査
1)同一室で異なる計測位置での : 0.81 0.72 0.7 同一室での は高い A W1_1 W1_2 W1_3 W2_1 g W2_2 0.9 0.81 0.8 A 0.72 0.7 0.7 W1_1 0.6 W1_2 A X G g W1_3 0.5 W2_1 0.4 W2_2 W2_3 0.3 J_1 0.2 J_2 0.1 J_3 W1_1 W1_2 W1_3 W2_1 W2_2 W2_3 J_1 J_2 J_3 X(Room type_Point Number) 同一室での は高い
調査項目 区間長:160msec 調査項目1 同一室で異なる計測位置での の調査 調査項目2 異なる室種別(W1とJ)での の調査 調査項目3 容積は異なるが同一種別(W1, W2)となる 2室での の調査
2)洋室(W1)と和室(J)での A 0.52 異なる室種別での は低い X(Room Type_Point Number) 1 0.9 0.8 0.7 W1_1 W1_2 0.6 0.52 W1_3 A X G g 0.5 J_1 0.4 J_2 J_3 0.3 0.2 0.1 W1_1 W1_2 W1_3 J_1 J_2 J_3 X(Room Type_Point Number) 異なる室種別での は低い
調査項目 区間長:160msec 調査項目1 同一室で異なる計測位置での の調査 調査項目2 異なる室種別(W1とJ)での の調査 調査項目3 容積は異なるが同一種別(W1, W2)となる 2室での の調査
3)容積の異なる洋室1と洋室2での (160msec) 0.69 参考 A 1 0.9 W1_1 0.8 W1_2 0.7 W1_3 A X G g 0.6 0.5 W2_1 0.5 0.4 W2_2 0.3 W2_3 0.2 J_1 0.1 J_2 J_3 W1_1 W1_2 W1_3 W2_1 W2_2 W2_3 J_1 J_2 J_3 X(Room type_Point Number) 容積の異なる同一室種別でも は高い ⇒ 室種別が異なれば分離する
・2007年度実施項目 2)室種別の類別(伝送路の識別技術) →インパルス応答の狭帯域包絡線間相関を利用 和室・洋室の特徴量抽出 区間長:160msec 1)同一室での は高くなる 2)異なる室種別での は低くなる 3)同一室種別での は高くなる ⇒室種別が異なれば概ね分離する(類別率:95%) 狭帯域包絡線間相関を用いた 室種別類別の可能性を確認
・研究全体の背景 (適応的メディア制御) ・研究全体の目的 (適応的メディア制御について) ・基礎理論 (情報伝送モデル・情報表現形式) →問題提起(現実世界の認証,記述の変換) ・解決方法 (情報の階層化と情報表現形式の拡張) ・2007年度実施項目 1)発話語に依存しない話者識別(情報源の識別技術) →音声時間波形の狭帯域包絡線間相関を利用 使用周波数範囲を4kHz範囲に限定して約80%の認識率 2)室種別の類別(伝送路の識別技術) →インパルス応答の狭帯域包絡線間相関を利用 和室・洋室の特徴量抽出 →2007年度実施項目から得られた結果とその解釈 ・修士研究計画
1)狭帯域包絡線間相関を用いた話者識別 → 「情報源」の特徴量抽出 【 2007年度実施項目の検討】 ここでは,フレーム理論の拡張を図った 1)狭帯域包絡線間相関を用いた話者識別 → 「情報源」の特徴量抽出 特定の個人 狭帯域包絡線間相関 特定の個人 狭帯域包絡線間相関 特定の個人 狭帯域包絡線間相関 識別 特定の個人 狭帯域包絡線間相関 2)狭帯域包絡線間相関を用いた室種別類別 → 「伝送路」の特徴量抽出 検討: 得られた結果が適切に行えたと判断されるのかについて説明すること. 得られた結果が何を意味しているのかについて説明すること 特定の個人 狭帯域包絡線間相関 室 特定の個人 狭帯域包絡線間相関 特定の個人 狭帯域包絡線間相関 類別 特定の場所 狭帯域包絡線間相関
【 2007年度実施項目の結論】 ・目的 適応的メディア制御に必要な 「システムによる個人・利用状況の識別」 ・解決方法 フレーム理論の拡張 ・ 現実世界の数値化 ・ 情報のモデル化と特徴量抽出 ・結論 現実世界の数値化・情報モデル化の可能性確認 結論: 目的に対して明らかになった事柄または解決方法が有効であるか否かについて 理論的な解釈を説明すること. 抽象的 言語的 具体的
・研究全体の背景 (適応的メディア制御) ・研究全体の目的 (適応的メディア制御について) ・基礎理論 (情報伝送モデル・情報表現形式) →問題提起(現実世界の認証,記述の変換) ・解決方法 (情報の階層化と情報表現形式の拡張) ・2007年度実施項目 1)発話語に依存しない話者識別(情報源の識別技術) →音声時間波形の狭帯域包絡線間相関を利用 使用周波数範囲を4kHz範囲に限定して約80%の認識率 2)室種別の類別(伝送路の識別技術) →インパルス応答の狭帯域包絡線間相関を利用 和室・洋室の特徴量抽出 ・修士研究計画
【 研究実施計画 平成 20 年度 タイムスケジュール 】 4 月 5 月 6 月 7 月 8 月 9 月 10 月 11 月 12 月 1 3 月 話者登録実験 情報源 正解率 の 検証 識別 発話 データ 収集 発話条件分析 (計画1) 資料化 環境 データ 収集 環境 データ 分析 条件検証実験 資料化 音響事象収集 伝送路 包絡線抽出 と 識別実験 識別 資料化 最適分析区間長調査 (計画2) 最適帯域調査 識別実験 資料化 国内 国内 成果発表 学会 学会 論文 掲載 投稿 予定 オープンキャンパス ( 一般公開 : 8 月 ・ 11 月予定 ) ホームページ は ネットミーティング 時 に 更新
【 研究実施計画 】 平成 21 年度 タイムスケジュール 1 月 2 月 3 月 4 月 5 月 6 月 7 月 8 月 9 月 10 月 11 月 12 月 1 月 2 月 3 月 情報記述 AEML による 記述検証 (計画3) 話者情報記述 の 追加 と 検証 ( 拡張準備 ) 情報記述言語仕様策定 話者情報 ・ 音響事象情報記述 修士論文 審査 修士論文作成 国内 国内 国内 成果発表 学会 学会 学会 掲載 論文 予定 投稿 オープンキャンパス ( 一般公開 : 8 月 ・ 11 月予定 ) ホームページ は ネットミーティング 時 に 更新
【修士計画1】 話者識別 ・目的 「人が意識せずに個人認証」できる技術の確立 ・方法 1)実用化に向けた問題の検討 2008年(前・後期) 研ゼミで実施予定 ◎登録者,発話語,環境による正解率の変動 ◎相関行列のデータベースの構築 ◎最適包絡線抽出アルゴリズムの開発(未定) ◎最適分析区間長および帯域調査(未定) 2)システムに組み込むための検討 ◎DSPを用いた実装実験(未定) 修士計画:修士特別研究では何をどこまで明らかにするかについて具体的な計画とそれが可能であると判断する根拠を説明すること.特に卒業研究(4年生)および研究ゼミナール(3年生)との連携ならびに,自分が担当するプロジェクト(修士特別研究として最低1つのプロジェクトリーダをすることが必須条件です)の計画もあわせて説明すること.
【修士計画2】 室種別類別 ・目的 1)「システムによる状況把握」できる技術の確立 2)音源と音響事象を統一的な枠組みで扱う ・方法 室種別類別の調査 2007年度(後期) ◎調査に用いたアルゴリズムの再設計 ◎室のIRを増やして卒研の妥当性調査 2008年度(後期)~2009年度(前期) ◎同一形状で異なる室種別の室のIR計測 ◎同一形状で異なる室種別の類似度調査 ◎「広さ」感制御した室の類似度調査(未定) 修士計画:修士特別研究では何をどこまで明らかにするかについて具体的な計画とそれが可能であると判断する根拠を説明すること.特に卒業研究(4年生)および研究ゼミナール(3年生)との連携ならびに,自分が担当するプロジェクト(修士特別研究として最低1つのプロジェクトリーダをすることが必須条件です)の計画もあわせて説明すること.
【修士計画3】 情報記述 ・目的 ISFNで策定したAEMLを「音源情報」および 「空間情報」へ拡張する ・方法 2009年度(前・後期) 1)情報抽出パラメータによる情報記述と再構築 ◎AEMLによる記述検証 ◎話者情報記述の追加と検証 ◎音響事象情報記述の追加と検証 可能であれば 2)特徴量パラメータによる解析的情報表現 3)包絡線情報抽出アルゴリズムの統合 修士計画:修士特別研究では何をどこまで明らかにするかについて具体的な計画とそれが可能であると判断する根拠を説明すること.特に卒業研究(4年生)および研究ゼミナール(3年生)との連携ならびに,自分が担当するプロジェクト(修士特別研究として最低1つのプロジェクトリーダをすることが必須条件です)の計画もあわせて説明すること.
狭帯域包絡線間相関(参考資料) 1/4 Oct.に狭帯域分割した時間波形 ヒルベルト変換して求めた包絡線 狭帯域包絡線間相関係数 b :全39帯域 (28.9~20749Hz) :狭帯域通過フィルタ ヒルベルト変換して求めた包絡線 狭帯域包絡線間相関係数 但し, は をdB変換