Praatを用いた日本語 イントネーションの知覚研究 新谷 敬人 (Shinya, Takahito) マサチューセッツ大学アマースト校大学院 上智大学大学院 日本英語学会第24回大会 2006年11月5日
はじめに 目的-Praatを用いた知覚実験の一例を示す 研究事例-日本語イントネーションのプロミネンス知覚(Shinya 2005, 2006, 2007に基づく) 語アクセントがプロミネンスに与える影響を知覚面から検討 刺激音となる合成音を作成する際の手順と実験実施に焦点を当てる
アウトライン 動機と主張 背景(プロミネンス、語アクセント) 実験方法 刺激音作成 実験実施 実験結果 結論
動機 プロミネンス知覚の研究(Gussenhoven et al. 1997、Pierrehumbert 1979、Terken 1991、1994など) 発話のmetrical/prosodic structureとの関係 発話中のピッチアクセントの基本周波数(F0)ピーク値を様々に変化させ、プロミネンス知覚への影響を検討 イントネーション言語(英語とオランダ語)についてのデータのみ
動機 Lexical toneはプロミネンスの知覚に影響しないのか 日本語イントネーションは単語のアクセント型(有核 vs. 無核)により大きく影響を受ける(Poser 1984, Pierrehumbert & Beckman 1988, Kubozono 1993) 有核語と無核語の区別はプロミネンスレベルの区別ではない
主張 アクセント型の違いはプロミネンスを知覚する上で正規化される 有核語のプロミネンスが実際よりも低く算定される → 有核語と無核語が同じF0ピーク値を持つ場合、無核語の方がより大きなプロミネンスを持って知覚される
主張 Accentual boost normalization accented P1 P2 physical perceived unaccented
背景-プロミネンス 構造的 (音韻論、統語論-強勢, トーン) 音響的(F0、時間長、強さ) 知覚的 パラ言語的(感情、声質、性差など) 「プロミネンス」という用語はさまざまに使われる 構造的 (音韻論、統語論-強勢, トーン) 音響的(F0、時間長、強さ) 知覚的 パラ言語的(感情、声質、性差など)
背景-プロミネンスの知覚に影響を与える要因 高いF0ピークは大きなプロミネンスの知覚を生み出す (Gussenhoven & Rietveld 1988, 1998, Terken 1991, 1994, Gussenhoven et al. 1997) a b < 知覚されるプロミネンス
背景-日本語のアクセント 日本語における語は有核(accented)か無核(unaccented)のどちらかに属する 音声学的特性-有核語は無核語よりF0ピークが高く、大きな下降を伴う 音韻論的特性-有核語はlexiconに何らかの音韻的指定を持つが無核語は持たない(Haraguchi 1977, Pierrehumbert & Beckman 1988)
背景-日本語のアクセント 有核語と無核語の音声学的な相違を考えると、アクセントを知覚的に同定する場合、F0パターンと語彙指定情報の両方が利用可能 Shinya (2005, 2007)はF0パターンに基づくプロミネンス知覚の正規化を報告 ここでは、アクセントの語彙指定情報が同様の正規化をもたらすかどうかを検討(Shinya 2006)
刺激音作成
刺激音作成の概要 3語からなる4つの文 [N1-の N2-が V] N1-F0形状を有核から無核へ連続的に変化(6段階) aa 稲森の兄嫁がいない au 稲森のお土産が消えた ua 稲村の兄嫁がいない uu 稲村のお土産が消えた N1-F0形状を有核から無核へ連続的に変化(6段階) F0形状が曖昧な時、アクセント知覚に語彙指定情報が利用されると予測 赤-有核 緑-無核
刺激音作成の概要 N2-F0形状を元のまま保ち、ピーク値だけを変化(6段階、14Hz間隔) 日本語母語話者24名 実験課題-文を聞いて、N1とN2のどちらがより強調されて聞こえるかを判断 プロビット分析(回帰分析の一種)を用いて、N1とN2が同じプロミネンスを持つときの第1ピーク(P1)・第2ピーク(P1)の値を推定
刺激音作成 (手動)
作成する刺激音1
実演
刺激音作成(手動) 利点 操作が比較的容易 欠点 解決策 多くの刺激音を作るには手順が煩雑 ミスが出る スクリプトを用いて刺激音作成を半自動化
刺激音作成 (半自動)
図1 スクリプト1 1 outdir$ = “output\” 2 for x from 0 to 5 3 select Manipulation aa 4 Extract pitch tier 5 Remove point... 5 6 f0 = 10*x 7 Add point... 0.7931 200-f0 8 select Manipulation aa 9 plus PitchTier untitled 10 Replace pitch tier 11 select Manipulation aa 12 Get resynthesis (PSOLA) 13 Write to WAV file... ‘outdir$’aa‘x’.wav 14 select PitchTier untitled 15 Remove 16 endfor 図1 スクリプト1 1段階でのF0の変化幅を変数f0として定義 Pitch pointを追加 Time pointをあらかじめ知っておく必要あり
実演
作成された刺激音1
作成する刺激音2 Point 5 Point 3 Point 2
Point 2とPoint3の各々の処理についてPoint5の処理を6回繰り返す 2 for x from 0 to 5 3 select Manipulation aa 4 Extract pitch tier 5 Remove point... 2 6 align_point2 = 0.0026667*x 7 f0_point2 = 2.833333*x 8 Add point... 0.213-align_point2 196-f0_point2 9 select Manipulation aa 10 plus PitchTier untitled 11 Replace pitch tier 12 select PitchTier untitled 13 Remove 14 select Manipulation aa 15 Extract pitch tier 16 Remove point... 3 17 align_point3 = 0.0085*x 18 f0_point3 = 4.83333*x 19 Add point... 0.428+align_point3 122+f0_point3 20 select Manipulation aa 21 plus PitchTier untitled 22 Replace pitch tier 23 select PitchTier untitled 24 Remove 25 for y from 0 to 5 26 select Manipulation aa 27 Extract pitch tier 28 Remove point... 5 29 f0_point5 = 14*y 30 Add point... 0.7931 120+f0_point5 31 select Manipulation aa 32 plus PitchTier untitled 33 Replace pitch tier 34 select Manipulation aa 35 Get resynthesis (PSOLA) 36 Write to WAV file... 'outdir$'aa'x''y'.wav 37 select PitchTier untitled 38 Remove 39 endfor 40 endfor F0に加え、タイミングについても変化幅を指定 Point 5 Pitch pointを指定したF0値とタイミングで追加 Point 2 Point 2とPoint3の各々の処理についてPoint5の処理を6回繰り返す Point 3
実演
作成された刺激音2
実験の実施 Praat Experiment MFC (Multiple Forced Choice) Experiment file テキストファイルに必要なパラメータを入力し、Object windowでReadから読み込んで使用する
刺激音の数(直後にリストした刺激音の数と同数) 1 “ooTextFile” 2 “ExperimentMFC 2” 3 “stimuli/” 4 “.wav” 5 carrierBefore = “” 6 carrierAfter =“” 7 initialSilenceDuration = 1.5 seconds 8 interStimulusInterval = 0 9 numberOfDifferentStimuli = 36 10 “aa11” 11 “aa12” 12 “aa13” 13 …中略… 14 “aa64” 15 “aa65” 16 “aa66” 17 numberOfReplicationsPerStimulus = 2 18 breakAfterEvery = 0 19 randomize = <PermuteAll> 20 startText = “Click to start.” 21 runText = “Which of the two words is 22 given more importance by the 23 speaker?” 24 pauseText = “End of block of 25 trials. Have a short break. Click to 26 proceed.” 27 endText = “The practice session is 28 over.” 29 “Tell experimenter you're done.” 30 numberOfResponseCategories = 2 31 0.1 0.4 0.35 0.65 "1" "1" 0.6 0.9 0.35 0.65 "2" "2“ numberOfGoodnessCategories = 0 0.25 0.35 0.10 0.20 “1 (poor)“ 0.35 0.45 0.10 0.20 “2” 0.45 0.55 0.10 0.20 “3“ 0.55 0.65 0.10 0.20 “4“ 38 0.65 0.75 0.10 0.20 “5 (good)” ファイルの形式を指定 各刺激音の前に1.5秒の無音を挿入 刺激音の数(直後にリストした刺激音の数と同数) 刺激音のファイルをリスト 繰り返しの数 小休憩をいくつめの刺激音の後に入れるか すべてをランダムに再生する 実験課題-実験の際に画面上に表示される文
Help: Experiment MFC 2.1 The Experiment Fileを参照 1 “ooTextFile” 2 “ExperimentMFC 2” 3 “stimuli/” 4 “.wav” 5 carrierBefore = “” 6 carrierAfter =“” 7 initialSilenceDuration = 1.5 seconds 8 interStimulusInterval = 0 9 numberOfDifferentStimuli = 36 10 “aa11” 11 “aa12” 12 “aa13” 13 …中略… 14 “aa64” 15 “aa65” 16 “aa66” 17 numberOfReplicationsPerStimulus = 2 18 breakAfterEvery = 0 19 randomize = <PermuteAll> 20 startText = “Click to start.” 21 runText = “Which of the two words is 22 given more importance by the 23 speaker?” 24 pauseText = “End of block of 25 trials. Have a short break. Click to 26 proceed.” 27 endText = “The practice session is 28 over.” 29 “Tell experimenter you're done.” 30 numberOfResponseCategories = 2 31 0.1 0.4 0.35 0.65 "1" "1" 0.6 0.9 0.35 0.65 "2" "2“ numberOfGoodnessCategories = 0 0.25 0.35 0.10 0.20 “1 (poor)“ 0.35 0.45 0.10 0.20 “2” 0.45 0.55 0.10 0.20 “3“ 0.55 0.65 0.10 0.20 “4“ 38 0.65 0.75 0.10 0.20 “5 (good)” 小休憩時に表示される指示 実験終了時に表示される指示 回答の選択肢の数 回答用の画面上に作成するイメージ(4角形)のサイズ 0.0(左)から1.0(右) 0.0(下)から1.0(上) Exp. Fileに関する情報 Help: Experiment MFC 2.1 The Experiment Fileを参照
実演
実験結果 ua>aa, uu>au (ux>ax) N1とN2が同等の知覚プロミネンスを持つとき、P1に対するP2の値は、N1が有核のときの方がより低い(=P1-P2の差はN1=有核でより大きい) →アクセントの語彙指定情報に基づく知覚の正規化を示唆する y = x ua aa au uu unaccented P1 accented
実験結果 Accentual boost normalization P1 P2 a physical perceived x 聞き手が有核型の語が無核型の語よりもF0変動幅が大きいことを知識として持っていて、そのプロミネンスを実際よりも低く見積る
実験結果 ua>uu, aa>au (xa>xu) P2はN2が有核のときの方がより高い(=P1-P2の差はN2=有核でより小さい) →知覚的正規化の効果はF0パターンの情報が伴っているときの方が大きい y = x ua aa au uu unaccented P1 accented
実験結果 Accentual boost normalization a P1 P2 physical perceived x u
まとめ 一例として、日本語イントネーションのプロミネンス知覚に関する実験を紹介した Praatを使うことにより、音声合成を用いた知覚実験を容易に行うことができる 一例として、日本語イントネーションのプロミネンス知覚に関する実験を紹介した アクセント型の違いはプロミネンスを算定するとき、正規化される プロミネンス知覚の研究に際して lexical toneを考慮に入れる必要性がある