発話動作のしくみ.

Slides:



Advertisements
Similar presentations
高次脳機能障害について 藤本大樹. 目次 1 .高次脳機能障害とは 1-1 .高次の活動・低次の活動 1-2 .高次脳機能障害の主な症状 .記憶障害 .注意障害 .持続性注意障害 .容量性注意障害 .選択性注意障害
Advertisements

Localized hole on Carbon acceptors in an n-type doped quantum wire. Toshiyuki Ihara ’05 11/29 For Akiyama Group members 11/29 this second version (latest)
第 5 章 2 次元モデル Chapter 5 2-dimensional model. Contents 1.2 次元モデル 2-dimensional model 2. 弱形式 Weak form 3.FEM 近似 FEM approximation 4. まとめ Summary.
Senderreceiver signals 符号化とは? A! B! C!. Encoded signals 符号化とは? 情報源 受容者 符号化された信号 coding rule.
Essay writing rules for Japanese!!. * First ・ There are two directions you can write. ・よこがき / 横書き (same as we write English) ・たてがき / 縦書き (from right to.
日本人学習者による英語音声の 韻律に関する研究
英語音声学(2) 英語の母音 notes.
連続音声の音響的性質.
Verb てform + から、 After.
2班 小熊崇泰 熊坂愛理 河野雅之 小島啓司 斉藤彰 吉川博之
音声の個人性 発声器官のサイズの違いによるもの 口の大きさと声帯の大きさ 発話の仕方の違いによりもの アクセント 口の動かし方
英語の母音の長さを測定する(2).
脳とこころ:認知神経科学 ネットワークと新しい視点
フィードバック制御に基づく 定在波型熱音響エンジンにおける 自励発振条件の特徴付け
発声のしくみ -声道の共鳴と音源の生成-.
The ball being captured inside the net
Electromyographic activity from human laryngeal ,   pharyngeal , and submental muscles during swallowing ヒトの嚥下中における喉頭、咽頭、オトガイ下筋群のEMG活動 A班      担当ライター 人見 先生.
クロストーク成分の相互相関に 着目した音場再生システム
Noun の 間(に) + Adjective Verb てform + いる間(に) during/while.
プロセス制御工学 6.PID制御 京都大学  加納 学.
SP0 check.
ランダムプロジェクションを用いた 音声特徴量変換
(Cognitive Brain Science) ニューロエソロジー・神経行動学 (Neuroethology) 計算論的神経科学
大脳辺縁系.
生命科学基礎C 第3回 神経による筋収縮の指令 -ニューロン 和田 勝 東京医科歯科大学教養部.
にほんご JPN101 Sep. 23, 2009 (Wednesday).
Possible Damping Ring Timing
“You Should Go To Kyoto”
非負値行列因子分解による 構音障害者の声質変換
音のすがた pp
Electroreception Seeing Hearing Tasting Smelling Touch.
音声生成モデル(物理モデル).
脳活動をモニターできる functional MRI とは何か?
学籍番号:   氏名:新保尚敬  指導教員:小林泰秀 准教授
2013/02/09 望遠鏡技術検討会 3.8m望遠鏡の主鏡制御 京都大学 木野 勝.
英語の母音の継続時間を測る Nov. 4, 2016.
英語の母音の長さを測る(1).
機械創造工学課程 西久保智昭 担当教員 小林泰秀 准教授
1-R-19 発話に不自由のある聴覚障害者の発話音声認識の検討
論文輪講 2012年1月11日 D3 岩淵 勇樹.
2. 音声とは 2.1 音声の科学 2.2 どうやって声を作るか ー調音音声学 2.3 声の正体とは ー音響音声学 2.4 どうやって声を聴き取るか ー聴覚音声学.
References and Discussion
発話動作のしくみ.
構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究
22 物理パラメータに陽に依存する補償器を用いた低剛性二慣性系の速度制御実験 高山誠 指導教員 小林泰秀
ニューロマーケティング H 経営学科3年 李 ミヌ.
認知科学ワークショップ 第2回.
Number of random matrices
音声合成.
抗力への振動付加による 高剛性とすべり感提示
21 柔軟片持ち梁の振動制御における移動可能なアクチュエータの製作
どのような特徴を見ているのか ― 計算の目的
熱音響コアが多段接続された 電力フィードバック進行波型熱音響発電機の 発振条件及び実験
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
・神経とは ・神経細胞の発生 ・神経細胞の構造 ・膜電位生成 ・伝導のしくみ
英語音声学(7) 音連結.
フィードバック制御に基づく 熱音響発電システムの検討
P P コンプレッサにおける能動騒音制御 19 Active noise control in compressor 1. 研究背景
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
センサの基礎知識 メカトロニクス機械を作り上げるには,センサについての幅広い知識と経験が必要!.
狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討
多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
ソースフィルタモデル.
1.光・音・力.
(Articulatory Speech Synthesis)
振動体の振幅を一定とする 振動発電機負荷のフィードバック制御 長岡技術科学大学 ○ 永井 和貴 齋藤 浄 小林 泰秀
Apply sound transmission to soundproofing
CSP係数の識別に基づく話者の 頭部方向の推定
HYSPRIT Chiba campaign (daily)
Presentation transcript:

発話動作のしくみ

発話動作の特徴 運動にとどまらずに、声を出すための動作 多くの調音器官が協調した動作 熟練した連続動作(調音結合) 極めて速くて、精度の高い動作

発話動作の特徴 運動にとどまらずに、声を出すための動作 多くの調音器官が協調した動作 熟練した連続動作(調音結合) 極めて速くて、精度の高い動作

Vocal Tract Confuguration 発声のプロセス 音素列 発声 Motor Control Muscle Contraction 運動指令の生成 筋活動 運動指令の生成 Vocal Tract Acoustics Glottal Wave Speech Wave 声道共鳴 Vocal Tract Confuguration 声道形成 筋活動 Articulatory Motion Lips Jaw Tongue Velum 調音運動 調音運動 声道形成 声道音響

発話動作の特徴 運動にとどまらずに、声を出すための動作 多くの調音器官が協調した動作 熟練した連続動作(調音結合) 極めて速くて、精度の高い動作

口と喉との協調動作   無声子音の生成では、声道部の運動に協調して声門の開閉運動を制御することが重要

計測方法

観測結果 磁気センサ システム PGG ファイバ スコープ

観測結果 磁気センサ システム PGG ファイバ スコープ

声帯の開きのピーク時点 舌先の下降時点

/s/の方が/t/より早く声帯が開く

顎と唇の協調動作 「このあふぁふぁみたい」 両唇間の狭めが必要 上唇が下降し、 「狭め」を達成する 顎、下唇、上唇の協調動作で実現

mu k mj 運動の応答時間 < 筋活動の応答時間 筋のスティスフネス制御による 協調動作生成メカニズム 感覚フィードバック (従来仮説) 運動の応答時間  < 筋活動の応答時間 筋のスティスフネス制御による 協調動作生成メカニズム 感覚フィードバック (従来仮説) k 2 1 mu mj

音素の調音特徴 子音の調音には普遍的な特徴がある 局所的に普遍的な特徴があっても、 声道の他の場所が変動すれば音声の スペクトルは変動する  例えば、/p/では両唇が必ず閉鎖する /t/では舌先と口蓋で閉鎖を作る 局所的に普遍的な特徴があっても、 声道の他の場所が変動すれば音声の スペクトルは変動する (普遍的特長をスペクトルに見出すことが 難しい)

発話動作の特徴 運動にとどまらずに、声を出すための動作 多くの調音器官が協調した動作 熟練した連続動作(調音結合) 極めて速くて、精度の高い動作

調音結合による/g/の舌の違い igi ogo

調音結合による/b/の舌の違い ibi obo

調音結合 連続音声において、連続する音素の 調音特徴が時間的に重なり合う現象 母音 調音効果 子音 母音  子音 調音効果

調音結合 後進性調音結合(Left-to-right coarticulation, Carryover) 先行音素の調音効果が後続音素よりも強い場合、  調音器官の運動の遅れによって、後続音素が先行音素の  調音の影響を受ける現象  (例) /tatata/ で/a/の舌は単独発声の場合より前にある。      発声速度を早めるとさらにその傾向が強まる。(調音のなまけ現象)  先行性調音結合(Right-to-left cocarticulation, Anticipatory)   後続音素の調音効果が先行音素よりも強い場合、   後続音素の調音特徴の影響が時間的に先行して先行音素   の調音に現れる現象   (例) /Cu/で/u/の唇の突き出しが子音調音時で起こる        /bV/で/b/の舌の構えは後続母音の構えになっている        /gV/で/g/の舌と口蓋との接触位置は後続母音によって異なる

調音器官による重要度の違い 全ての調音器官で同じ場合 調音器官毎に異なる場合

発話動作の特徴 運動にとどまらずに、声を出すための動作 多くの調音器官が協調した動作 熟練した連続動作(調音結合) 極めて速くて、精度の高い動作

飽和効果を利用した精度の高い動作 運動指令が変化しても音声の音響的性質が変化しない飽和効 果が存在する 運動指令が変化しても音声の音響的性質が変化しない飽和効 果が存在する 飽和効果は、運動指令と調音位置の関係、および調音位置と 音声の関係の両方に存在する .

発話における感覚情報の役割り

脳の構造 大脳: 言語野、運動野 脳幹 小脳: 運動のタイミング、協調動作 延髄

大脳の機能 左右大脳半球はそれぞれ体の反対側の運動と知覚を司る 言葉を生成する場所: 左前頭葉のブローカ野  左右大脳半球はそれぞれ体の反対側の運動と知覚を司る  言葉を生成する場所: 左前頭葉のブローカ野   言葉を知覚する場所: 左側頭葉のウェルニッケ野     失語症疾患患者の解剖的知見(1860年代)      脳の該当部位への電気刺激に対する反応に基づく知見(1950年代)

電気刺激による脳機能の解明 知覚野を刺激すると 運動野を電気刺激すると、 音の知覚反応が起きたり、 筋収縮や運動が起こったり、 発声がとぎれたりする 知覚野を刺激すると 音の知覚反応が起きたり、 記憶がよみがえったりする

運動野の抹消支配構造 抹消の支配部位は、体を逆立ちさせた配置 発声器官に関与する脳の部位は手足より 広い範囲に存在 発声動作は左半球が優位  抹消の支配部位は、体を逆立ちさせた配置  発声器官に関与する脳の部位は手足より   広い範囲に存在  発声動作は左半球が優位    (右利きの人の96%、左利きの人の70%)   単純な発声器官の動作では両半球が関与  運動野を電気刺激しても意味のある言葉を話す   ことはない. 発話をするには、脳のいろいろな   部分が同時に活動することが必要 運動指令を出している源は脳幹であり、   大脳皮質は神経伝播の中継点との説もある

発話と聴覚の脳関連部位

発話に関連する脳活性部位 (fMRIによる測定) 「しゃ」           「ちゃ」          「や」      上段:被験者MH 下段:被験者TI 図5(a) 発話時から休息時を差し引いた脳活性部位.被験者MH、実験2(左列)、実験3(右列) 上段:「しゃ」   中断「ちゃ」   下段「や」

発話動作に関与する 感覚フィードバック情報  固有受容系フィードバック    感覚神経により筋の収縮度を脳に戻される  聴覚フィードバック    聴覚を介して自分の声(話しての声)がフィード    バックされる  触覚フィードバック    上下唇の接触や舌と口蓋との接触感覚が    フィードバックされる  視覚フィードバック    マガーグ効果:/g/の音声と/b/の唇画像と提示すると、、     視覚に引きずられて/b/と知覚される

感覚フィードバック経路

固有受容系(筋紡錘)のしくみ 運動指令 感覚情報 筋の伸張の大きさと速度の情報を中枢に戻す 腕などの筋に比べて、舌には筋紡錘が少ない 伝達速度は毎秒120m、20cm伝わるのに2ms程度

神経の仕組み 強い刺激に対しては神経発火の頻度が増大する

神経の伝播と速度 神経の伝播速度は毎秒60~120m 、30cm伝播するのに5~2.5ミリ秒  伝播速度は神経の太さに比例し、直径10ミクロンで毎秒60m、20ミクロンで毎秒120m  脳には10兆個のシナプスがある

伸張反射(膝蓋腱反射) 大腿四頭筋

聴覚フィードバック ランバート効果 自分の声が聞こえないと、無意識に声が大きくなる   自分の声が聞こえないと、無意識に声が大きくなる DAF(Delayed Auditory Feedback) 自分の声を時間を遅らせて聞かされると、発声が   しどろもどろになる 発声時に声の高さや音色を変化させて耳に聞かせると、  それを補償するような発話が生じる 生まれつきの聴覚障害者は発話機能が獲得できない  後天的な聴覚障害者は発話機能が持続する

声の高さを変えるフィードバック実験 一定の声の高さで発声することを指示 発声中、聞こえている声の高さを変化させて耳に提示

実験結果 聞こえている声の高さ 発声している声の高さ 約160msの時間遅れで、聞こえている声の高さを 修正するように声の高さが変化する

声の音色を変えるフィードバック実験 ホルマント周波数を変化させた声を耳に フィードバックさせる

聴覚フィードバック実験

感覚フィードバックの役割 発声動作の獲得には必須 発話動作中にも感覚フィードバックが必須か?  発声動作の獲得には必須  発話動作中にも感覚フィードバックが必須か?    ー 発話動作の速さと感覚フィードバックの処理時間       から、閉ループフィードバック制御とは考えられない    ー 発話動作と声の因果関係を脳が学習し、学習した       モデルに基づいて発話の運動指令を生成    - 学習にどのような感覚情報が使われるか?

実験装置 口蓋摂動装置 ゴム風船を外部から圧力制御する ことによって、口蓋の形状を変化させる 磁気センサーによる発話動作計測 Artificial palate balloon 口蓋摂動装置  ゴム風船を外部から圧力制御する ことによって、口蓋の形状を変化させる Palate thickness: 1 mm (base), 1 mm (rubber) Inflated Palate height: 4 mm Inflation time: 60ms 磁気センサーによる発話動作計測 EMA recording EMA system Lips Tongue air Tube piston cylinder Jaw Placement of EMA coils

筋電(EMG)測定 Tongue muscle activity is recorded by an EMG system. Placement of surface electrodes Tongue muscle activity is recorded by an EMG system. EMG2 - Surface electrode (AgCl, 4.5 mm f) - Differential EMG recording at sampling rate of 16kHz - Rectify and smoothing (10ms) EMG1 Diagnostic test showed that the EMG magnitude is largest for /r/, suggesting that superior longitudinal muscle activity is mostly apparent in the differential EMG signal. Diagnostic test of EMG1

実験1 テスト音声: “iya ∫a∫a∫a∫a∫a∫a∫a∫a” “iya t∫at∫at∫at∫at∫at∫at∫at∫a” 被験者:成人男性2名 摂動条件 - 口蓋を膨らませる摂動とへこませる摂動 - 被験者に口蓋摂動が気づかれないように   最初の広母音/a/で摂動を頻度20%で与える

Mean error score for consonant identification 知覚実験 Mean error score for consonant identification (%) Syllable No. 1 2 3 4 5 6 7 8 /∫/ Steady-state deflated 0 0 0 0 0 0 0 0 Inflation 83 14 0 0 0 0 0 0 Deflation 8 0 0 0 0 0 0 0 Steady-state inflated 0 0 0 0 0 0 0 0 /t∫/ Inflation 8 8 6 3 6 6 6 6 Deflation 2 6 0 0 0 0 0 0 Steady-state inflated 0 0 0 3 3 6 6 3

Inflated Palatal Perturbation (subject A) Placement of EMA coils Speech signals, the horizontal and vertical positions of the jaw and the tongue (T1~T3: tongue tip to blade) , EMG signals and the perturbation trigger signal for unperturbed (black line) and perturbed (red line) trials. The green vertical line indicates the onset of the tongue-palate contact. The arrows indicate moments at which the difference between unperturbed and perturbed trajectories becomes statistically significant.

Inflated Palatal Perturbation (subject B) (subject A) Speech signals, the horizontal and vertical positions of the jaw and the tongue (T1~T3: tongue tip to blade) , EMG signals and the perturbation trigger signal for unperturbed (black line) and perturbed (red line) trials. The green vertical line indicates the onset of the tongue-palate contact. The arrows indicate moments at which the difference between unperturbed and perturbed trajectories becomes statistically significant.

Deflated Palatal Perturbation (subject A) Steady-state deflated Steady-state inflated Deflation Deflation

実験2 Test phrase: “iya ∫a∫a∫a∫a∫a∫a∫a∫a” Subjects: one adult male Perturbation Condition - Inflated palatal perturbations at the moment of the production of the initial open vowel /a/ - Occurrence probability of 20 % Auditory masking - Bilateral presentation of masking pink noise of 88 dB SPL Tactile masking - Topical anaesthetic (4% Xylocaine solution, 5 cc) applied to the tongue blade and hard palate every 5 min.

Mean error score for fricative consonant identification Perceptual Study Mean error score for fricative consonant identification (%) 1 2 3 4 5 6 7 8 Unperturbed trials Normal 0 0 0 3 3 5 3 0 Auditory mask. 0 3 3 3 3 5 14 0 Tactile mask. 0 8 5 3 5 5 11 11 Auditory & tactile mask. 0 5 14 14 19 11 8 8 Perturbed trials Normal 72 24 8 8 8 12 4 8 Auditory mask. 88 52 12 16 20 24 20 20 Tactile mask. 76 24 0 16 16 12 20 36 Auditory & tactile mask. 68 44 36 36 40 48 60 56 Syllable No. There are few speech errors for unperturbed trials even if auditory feedback and tactile feedback are masked. In the perturbed trials, speech errors are apparent in the initial fricative, which is mostly misidentified as /t∫/. Auditory and tactile masking has an additive contribution to speech errors.

Articulatory and EMG Studies Normal feedback Masked auditory feedback Speech signals, the horizontal and vertical positions of the jaw and the tongue (T1~T3: tongue tip to blade) , EMG signals and the perturbation trigger signal for unperturbed (black line) and perturbed (red line) trials. The green vertical line indicates the onset of the tongue-palate contact. The arrows indicate moments at which the difference between unperturbed and perturbed trajectories becomes statistically significant.

Masked auditory & tactile Masked tactile feedback Masked auditory & tactile feedback Speech signals, the horizontal and vertical positions of the jaw and the tongue (T1~T3: tongue tip to blade) , EMG signals and the perturbation trigger signal for unperturbed (black line) and perturbed (red line) trials. The green vertical line indicates the onset of the tongue-palate contact.The arrows indicate moments at which the difference between unperturbed and perturbed trajectories becomes statistically significant.

Normal Feedback Condition The tongue is immediately lowered and moved backward in response to an unexpected inflated palatal perturbation. The time lag of the downward shift from the tongue-palate contact onset (tactile feedback becomes available) ranged from 92 ms to 124 ms. The downward shift occurs earlier than the backward shift. Rapid change in the EMG magnitude in the initial syllable and gradual decay in the last syllables. (No significant change in the genioglossus muscle; see Ref. [3]) Displacement of downward shift of the tongue position T2. Time lag of the downward shift of tongue positionT2 from the tongue-palate contact onset.

Masked Feedback Condition Smaller displacement of the downward shift. Longer time lag of the downward shift for the masked tactile feedback. In unperturbed trials, EMG magnitude is almost the same for normal and masked feedback conditions. In the perturbed trials, change in the EMG magnitude becomes smaller for either masked tactile or auditory , and much smaller for both. Tongue muscle activity in the unperturbed and perturbed trials for sensory-feedback conditions. NN: Normal AN: Auditory masking NT: Tactile masking AT: Auditory & tactile masking

Tongue-palate contact 口蓋パタベーションの補償動作 正中面上の運動軌跡 Control Trial Tongue-palate contact 舌奥 舌先 Perturbation 顎 Perturbed Trial 触覚フィードバックによる瞬時的な 補償動作 聴覚フィードバック による調整的な 補償動作 Control Unmasked Masked