音声生成モデル(物理モデル).

Slides:



Advertisements
Similar presentations
だい六か – クリスマスとお正月 ぶんぽう. て form review ► Group 1 Verbs ► Have two or more ひらがな in the verb stem AND ► The final sound of the verb stem is from the い row.
Advertisements

て -form - Making て -form from ます -form -. With て -form, You can say... ~てもいいですか? (= May I do…) ~てください。 (= Please do…) ~ています。 (= am/is/are doing…) Connecting.
第 5 章 2 次元モデル Chapter 5 2-dimensional model. Contents 1.2 次元モデル 2-dimensional model 2. 弱形式 Weak form 3.FEM 近似 FEM approximation 4. まとめ Summary.
Essay writing rules for Japanese!!. * First ・ There are two directions you can write. ・よこがき / 横書き (same as we write English) ・たてがき / 縦書き (from right to.
VE 01 え form What is え form? え? You can do that many things with え form?
英語特別講座 疑問文 #1    英語特別講座 2011 疑問文.
The Bar バー.
五段動詞の歌 ごだんどうしのうた.
Chapter 11 Queues 行列.
日本語... ジェパディー! This is a template for you to use in your classroom.
音声の個人性 発声器官のサイズの違いによるもの 口の大きさと声帯の大きさ 発話の仕方の違いによりもの アクセント 口の動かし方
今しましょう Translate the story on the next slide. せんせいは しゅくだいを みます。
2010年7月9日 統計数理研究所 オープンハウス 確率モデル推定パラメータ値を用いた市場木材価格の期間構造変化の探求 Searching for Structural Change in Market-Based Log Price with Regard to the Estimated Parameters.
発声のしくみ -声道の共鳴と音源の生成-.
The ball being captured inside the net
じょし Particles.
What did you do, mate? Plain-Past
Object Group ANalizer Graduate School of Information Science and Technology, Osaka University OGAN visualizes representative interactions between a pair.
Noun の 間(に) + Adjective Verb てform + いる間(に) during/while.
Chapter 6 Jade 翡翠(ヒスイ).
音声処理ソフトPraatの使い方.
Estimating Position Information by Detecting Network-Connection
著者:外岡秀行 著者:外岡秀行 著者:新井康平 著者:新井康平 著者:新井康平 著者:新井康平.
にほんご JPN101 Sep. 23, 2009 (Wednesday).
にほんご JPN101 Oct. 26, 2009 (Monday).
Reasonので + Consequence clause
The Sacred Deer of 奈良(なら)
“You Should Go To Kyoto”
know / knows(s) / ___________
VTA 02 What do you do on a weekend? しゅうまつ、何をしますか。
Kalman Filter Finite Element Method Applied to Dynamic Motion of Ground Yusuke KATO Department of Civil Engineering, Chuo University.
ストップウォッチの カード ストップウォッチの カード
Topics on Japan これらは、過去のインターンが作成したパワポの写真です。毎回、同じような題材が多いため、皆さんの出身地等、ここにない題材も取り上げるようにしてください。
2018/11/19 The Recent Results of (Pseudo-)Scalar Mesons/Glueballs at BES2 XU Guofa J/ Group IHEP,Beijing 2018/11/19 《全国第七届高能物理年会》 《全国第七届高能物理年会》
Jig change over trolley for Shock Absorber Assembly Line
Causative Verbs Extensively borrowed from Rubin, J “Gone Fishin’”, Power Japanese (1992: Kodansha:Tokyo) Created by K McMahon.
学籍番号:   氏名:新保尚敬  指導教員:小林泰秀 准教授
全国粒子物理会 桂林 2019/1/14 Implications of the scalar meson structure from B SP decays within PQCD approach Yuelong Shen IHEP, CAS In collaboration with.
くれます To give (someone gives something to me or my family) くれました くれます
My Favorite Movie I will introduce my favorite movie.
Where is Wumpus Propositional logic (cont…) Reasoning where is wumpus
豊田正史(Masashi Toyoda) 福地健太郎(Kentarou Fukuchi)
My Dance Circle December 13, 2018  表紙 my dance circle.
岡山大学 工学部 情報工学科 (大学院自然科学研究科 計算機科学講座) 尺長 研究室
クイズやゲーム形式で紹介した実例です。いずれも過去のインターン作です。
Polarization Multiplexing for Bidirectional Imaging
2019年4月8日星期一 I. EPL 84, (2008) 2019年4月8日星期一.
2. 音声とは 2.1 音声の科学 2.2 どうやって声を作るか ー調音音声学 2.3 声の正体とは ー音響音声学 2.4 どうやって声を聴き取るか ー聴覚音声学.
発話動作のしくみ.
著者:久世宏明. 著者:久世宏明 著者:久世宏明 著者:久世宏明 著者:久世宏明 著者:久世宏明.
著者:六川修一 著者:六川修一 原画像(左画像)は ©METI and JAXA[2007] Distributed by ERSDAC 著者:六川修一.

著者:大内和夫 著者:大内和夫 著者:大内和夫 著者:大内和夫 著者:大内和夫 著者:大内和夫.
22 物理パラメータに陽に依存する補償器を用いた低剛性二慣性系の速度制御実験 高山誠 指導教員 小林泰秀
2019/4/22 Warm-up ※Warm-up 1~3には、小学校外国語活動「アルファベットを探そう」(H26年度、神埼小学校におけるSTの授業実践)で、5年生が撮影した写真を使用しています(授業者より使用許諾済)。
Genetic Statistics Lectures (4) Evaluation of a region with SNPs
21 柔軟片持ち梁の振動制御における移動可能なアクチュエータの製作
北大MMCセミナー 第62回 附属社会創造数学センター主催 Date: 2016年11月4日(金) 16:30~18:00
どのような特徴を見ているのか ― 計算の目的
ー生命倫理の授業を通して生徒の意識に何が生じたかー
Created by L. Whittingham
東北大 情報科学 田中和之,吉池紀子 山口大 工 庄野逸 理化学研究所 岡田真人
英語音声学(7) 音連結.
Grammar Point 2: Describing the locations of objects
Measurements of J/ψ with PHENIX Muon Arms in 2003 p+p Collisions
ソースフィルタモデル.
(Articulatory Speech Synthesis)
Apply sound transmission to soundproofing
Improving Strategic Play in Shogi by Using Move Sequence Trees
HYSPRIT Chiba campaign (daily)
Presentation transcript:

音声生成モデル(物理モデル)

音声生成モデル Ai 肺 声道 声帯 声門の開き 声道断面積 肺圧 声帯張力(K) A1,A2,…,AN 生成モデル 口蓋帆 Ai   声道       声帯      肺  体積速度 音圧 肺圧  声門の開き  声帯張力(K) 声道断面積 A1,A2,…,AN 生成モデル   音源振幅   有声/無声 スペクトルパラメータ            ピッチ周期 合成モデル

音声生成モデルのスペクトル表現

声道共鳴のしくみ 唇から反射してきた音波(音圧)が声帯の位置で増大する 体積速度パタン 音圧パタン 振幅 唇 声道内の位置 声帯 時間  振幅 唇     声道内の位置       声帯  時間  音源信号

均一音響管の共鳴 共振周波数=音速/波長 音速=34000cm/秒 17cm 34000/(17×4)=500 Hz

均一音響管の音声スペクトル

声道の音響特性

声道内での音の伝播 反射係数

声道内での音の伝播

声道内での音の伝播

声道内での音の伝播

声道内での音の伝播

声道内での音の伝播

声道内での音の伝播

声道断面積と声道共鳴特性 /a/ /i / 声道断面積関数 声帯 唇 声道共鳴特性 (音声スペクトル) /u/ /e/

声道断面積関数とホルマント周波数の関係(摂動理論) 0.5 1 1.5 2 2.5 3 3.5 4 4.5 0.2 0.4 0.6 0.8 1.2 -1.5 -1 -0.5 フーリエ余弦成分

声道フィルタとPARCORフィとの等価性

声道断面積の推定

声道断面積の直接計測 声道断面積関数 唇 声帯

MRI3次元画像による 声道断面積の計測

声道断面積の音響計測 Microphone Speaker Tube Incident Reflected So I have been engaged in the “acoustic measurement of vocal tract shape”. This is a schematic diagram of the measurement. And this is a snapshot of the experiment. Here we have a long acrylic tube that has an audio speaker at the left end and a small microphone stuck into the tube at the middle. The subject’s mouth, or a vocal tract model, is placed at the right end. For the measurement, a band-limited acoustic pulse is generated from the speaker and travels thru the tube. The pulse propagates in the vocal tract and then returns. Here let’s assume that this reflected signal is obtained as a consequence of the ratio of each adjacent cross-sectional area in the vocal tract, perpendicular to the direction of plane wave propagation. The impedance of wall surrounding the vocal tract also affects this acoustic reflection. A series of cross-sectional areas is then estimated based on the acoustic inversion. This is the concept of the acoustic measurement. Microphone Speaker Tube Incident Area ratio Wall impedance Reflected Inverse acoustics

計測結果 3D vocal tract replica (UV curable resin) Cylindrical model These figures show some experimental results obtained with a couple of models. On the left is a replica of the vocal tract made of ultraviolet curable resin, which is initially liquid form and solidified by an ultraviolet LASER beam. The resin replica was created based on a polygonal wire frame of vocal tract contour extracted from MRI volumetric images. I have got data for some Japanese vowel shapes through the courtesy of Dr. Miki of Future University – Hakodate. In this figure, the horizontal axis is the distance from lips and the vertical axis the cross-sectional area. The blue line shows acoustically measured areas and the black line the areas determined on the wire frame by the geometric method. We can see that the two lines are roughly close to each other, with a little different in the region where areas change steeply. The other model, on the right here, is a cylindrical model made of soft silicone rubber, which has a constriction in the middle. In this figure, the black line shows the geometric areas and, in this experiment, acoustically measured areas should fit to this line because the model is cylindrical. Here we have two results estimated in different ways. The red line is the result obtained when we assumed a soft wall and determined the values of the impedance parameters so as to minimize the error between the estimated areas and the geometric areas. On the other hand, the blue line is the result when we assumed a rigid wall. The best-fitted values of the impedance parameters were consistent with those acquired from a mechanical vibration test with the same material. These kinds of acoustic test help us know what is going on inside the vocal tract, and we can reflect that knowledge in the talking robot. 3D vocal tract replica (UV curable resin) Cylindrical model (soft silicone rubber) Dr. Miki Future University – Hakodate Impedance consistent with the result of vibration test

声帯の開放と閉鎖 声帯 披裂軟骨 甲状軟骨

声帯の振動 声帯 披裂軟骨 甲状軟骨

声帯振動のパタン 通常発声の場合 うら声発声の場合

声帯振動モデル 1 m 2 k r 声帯の運動方程式

音声生成の電気等価回路

声門を流れる空気流 (声門体積速度) 声道の音響インピーダンスのリアクタンス(電気回路のコイルに相当)成分 の影響により、声門体積速度波形は右側に傾き、頂点の部分が丸びをおびる

声帯振動と声質 強い声では、OQが小でSQが小.弱い声では、OQが大でSQが大. 声帯音源のスペクトルは、1オクターブで約12~ 18dB減衰する特性をもつ.   強い声の方が減衰が小さい(倍音に富んだスペクトルになる)

音声生成モデルのシミュレーション 声道の音響インピーダンスのリアクタンス(電気回路のコイルに相当)成分の影響により、声門体積速度波形は右側に傾き、頂点の部分が丸びをおびる. 声道部と声帯部とは回路的にカップリングしており、声道の共振特性の影響が声帯音源波形に及ぶ.(ソースフィルタモデルとの相違点)

音声生成モデルによる子音の生成 乱流音源のモデル