Praatを用いた日本語 イントネーションの知覚研究

Slides:



Advertisements
Similar presentations
XML ゼミ 独習 XML ~ 第 6 章 XHTML~ 6.1 XHTML の概要 6.2 XHTML の構造 谷津 哲平.
Advertisements

音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
情報科学部 ディジタルメディア学科 佐々木研究室 n02k1118 流石 寛子
日本人学習者による英語音声の 韻律に関する研究
遺伝的アルゴリズムにおける ランドスケープによる問題のクラス分類
卒研のようなもの 圧縮ちーむ 2008.4.22 鴫原、山本、齋藤.
第5回OpenFOAM勉強会 for beginner
現在完了形 (present perfect tense)
校内研修用提示資料 パワーポイントの基本操作.
JavaScript プログラミング入門 2006/11/10 神津.
3-1 MySQLについて 発表者:藤村元彦 自然言語処理研究室.
プレゼンテーション用ソフトウェア Impress
情報処理 教材 プレゼンテーションソフト PowerPoint 高知大学 共通教育 理学部 対象 塩田
英語勉強会.
日本語教育における 発音指導の到達目標を考える
音声の個人性 発声器官のサイズの違いによるもの 口の大きさと声帯の大きさ 発話の仕方の違いによりもの アクセント 口の動かし方
英語の母音の長さを測定する(2).
オンライン英単語・リスニング 学習ソフト 佐々木研究室 N02k1114 北隅 麻実.
C言語 配列 2016年 吉田研究室.
P,Q比が変更可能なScaLAPACKの コスト見積もり関数の開発
クロストーク成分の相互相関に 着目した音場再生システム
通訳の原理 理解→転換→表出のプロセスについて.
PSOLA法を用いた極低ビットレート音声符号化に関する検討
文字から声をつくる仕組み.
Webを利用した授業支援システムの開発 北海道工業大学 電気電子工学科 H 渋谷 俊彦.
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
音声処理ソフトPraatの使い方.
スクリプト言語を用いたPHITSの連続実行
TTS技術の概要 1. TTSとは 2. TTS技術の応用 3. TTSシステムの流れ 4. 基本概念 5. F0モデル 6. 韻律記号
音韻論⑤ ----.
ストップウォッチの カード ストップウォッチの カード
乳児における 運動情報と形態情報の相互作用
スピーキングタスクの繰り返しの効果 ―タスクの実施間隔の影響―
決定木とランダムフォレスト 和田 俊和.
広瀬啓吉 研究室 4.音声認識における適応手法の開発 1.劣条件下での複数音源分離 5.音声認識のための韻律的特徴の利用
音高による音色変化に着目した音源同定に関する研究
実行時情報に基づく OSカーネルのコンフィグ最小化
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
母音継続時間を計測する.
プログラミング基礎a 第7回 C言語によるプログラミング入門 ファイル入出力
ソフトウェア保守のための コードクローン情報検索ツール
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
コードクローン分類の詳細化に基づく 集約パターンの提案と評価
1-1-6 ロバスト能動騒音制御に基づく ループ管熱音響システムにおける 定在波抑制制御の効果
統計ソフトウエアRの基礎.
国際言語文化研究科日本言語文化専攻 第26回日本語教育学講座講演会
電気・機械・情報概論 VBAプログラミング 第1回 2018年6月25日
VOCAL DYNAMICS CONTROLLER: 歌声のF0動特性をノート単位で編集し, 合成できるインタフェース
英語音声学(6) イントネーション.
HMM音声合成における 変分ベイズ法に基づく線形回帰
構造的類似性を持つ半構造化文書における頻度分析
全体ミーティング (5/23) 村田雅之.
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
ベイズ音声合成における 事前分布とモデル構造の話者間共有
小標本に関する平均の推定と検定 標本が小さい場合,標本分散から母分散を推定するときの不確実さを加味したt分布を用いて,推定や検定を行う
vc-1. Visual Studio C++ の基本操作 (Visual Studio C++ の実用知識を学ぶシリーズ)
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
情報コミュニケーション入門b 第9回 表計算ソフト入門(3)
ca-9. 数の扱い (コンピュータアーキテクチャとプロセッサ)
【GeoAFM】オリジナルの探針形状データの作成/使用 1/2
プログラミング基礎a 第7回 C言語によるプログラミング入門 ファイル入出力
プロジェクト演習Ⅳ・Ⅵ インタラクティブゲーム制作
Cp-1. Microsoft Visual Studio 2019 C++ の使い方 (C プログラミング演習,Visual Studio 2019 対応) 金子邦彦.
スライドの終わりまでテキストが繰り返しスクロールされます • スライドの終わりまでテキストが繰り返しスクロールされます •
CSP係数の識別に基づく話者の 頭部方向の推定
サンプル見出し テキスト 1 行目 テキスト 2 行目 テキスト 3 行目 (中級) 図の背後でタイトルを移動させるアニメーション効果
英語音声学 前期・木1・CALL1 担当:福田 薫
プログラミング 2 静的変数.
Presentation transcript:

Praatを用いた日本語 イントネーションの知覚研究 新谷 敬人 (Shinya, Takahito) マサチューセッツ大学アマースト校大学院 上智大学大学院 日本英語学会第24回大会 2006年11月5日

はじめに 目的-Praatを用いた知覚実験の一例を示す 研究事例-日本語イントネーションのプロミネンス知覚(Shinya 2005, 2006, 2007に基づく) 語アクセントがプロミネンスに与える影響を知覚面から検討 刺激音となる合成音を作成する際の手順と実験実施に焦点を当てる

アウトライン 動機と主張 背景(プロミネンス、語アクセント) 実験方法 刺激音作成 実験実施 実験結果 結論

動機 プロミネンス知覚の研究(Gussenhoven et al. 1997、Pierrehumbert 1979、Terken 1991、1994など) 発話のmetrical/prosodic structureとの関係 発話中のピッチアクセントの基本周波数(F0)ピーク値を様々に変化させ、プロミネンス知覚への影響を検討 イントネーション言語(英語とオランダ語)についてのデータのみ

動機 Lexical toneはプロミネンスの知覚に影響しないのか 日本語イントネーションは単語のアクセント型(有核 vs. 無核)により大きく影響を受ける(Poser 1984, Pierrehumbert & Beckman 1988, Kubozono 1993) 有核語と無核語の区別はプロミネンスレベルの区別ではない

主張 アクセント型の違いはプロミネンスを知覚する上で正規化される 有核語のプロミネンスが実際よりも低く算定される  → 有核語と無核語が同じF0ピーク値を持つ場合、無核語の方がより大きなプロミネンスを持って知覚される

主張 Accentual boost normalization accented P1 P2 physical perceived unaccented

背景-プロミネンス 構造的 (音韻論、統語論-強勢, トーン) 音響的(F0、時間長、強さ) 知覚的 パラ言語的(感情、声質、性差など) 「プロミネンス」という用語はさまざまに使われる 構造的 (音韻論、統語論-強勢, トーン) 音響的(F0、時間長、強さ) 知覚的 パラ言語的(感情、声質、性差など)

背景-プロミネンスの知覚に影響を与える要因 高いF0ピークは大きなプロミネンスの知覚を生み出す (Gussenhoven & Rietveld 1988, 1998, Terken 1991, 1994, Gussenhoven et al. 1997) a b < 知覚されるプロミネンス

背景-日本語のアクセント 日本語における語は有核(accented)か無核(unaccented)のどちらかに属する 音声学的特性-有核語は無核語よりF0ピークが高く、大きな下降を伴う 音韻論的特性-有核語はlexiconに何らかの音韻的指定を持つが無核語は持たない(Haraguchi 1977, Pierrehumbert & Beckman 1988)

背景-日本語のアクセント 有核語と無核語の音声学的な相違を考えると、アクセントを知覚的に同定する場合、F0パターンと語彙指定情報の両方が利用可能 Shinya (2005, 2007)はF0パターンに基づくプロミネンス知覚の正規化を報告 ここでは、アクセントの語彙指定情報が同様の正規化をもたらすかどうかを検討(Shinya 2006)

刺激音作成

刺激音作成の概要 3語からなる4つの文 [N1-の N2-が V] N1-F0形状を有核から無核へ連続的に変化(6段階) aa 稲森の兄嫁がいない au 稲森のお土産が消えた ua  稲村の兄嫁がいない uu 稲村のお土産が消えた N1-F0形状を有核から無核へ連続的に変化(6段階) F0形状が曖昧な時、アクセント知覚に語彙指定情報が利用されると予測 赤-有核 緑-無核

刺激音作成の概要 N2-F0形状を元のまま保ち、ピーク値だけを変化(6段階、14Hz間隔) 日本語母語話者24名 実験課題-文を聞いて、N1とN2のどちらがより強調されて聞こえるかを判断 プロビット分析(回帰分析の一種)を用いて、N1とN2が同じプロミネンスを持つときの第1ピーク(P1)・第2ピーク(P1)の値を推定

刺激音作成 (手動)

作成する刺激音1

実演

刺激音作成(手動) 利点 操作が比較的容易 欠点 解決策 多くの刺激音を作るには手順が煩雑 ミスが出る スクリプトを用いて刺激音作成を半自動化

刺激音作成 (半自動)

図1 スクリプト1 1 outdir$ = “output\” 2 for x from 0 to 5 3 select Manipulation aa 4 Extract pitch tier 5 Remove point... 5 6 f0 = 10*x 7 Add point... 0.7931 200-f0 8 select Manipulation aa 9 plus PitchTier untitled 10 Replace pitch tier 11 select Manipulation aa 12 Get resynthesis (PSOLA) 13 Write to WAV file... ‘outdir$’aa‘x’.wav  14 select PitchTier untitled 15 Remove 16 endfor 図1 スクリプト1 1段階でのF0の変化幅を変数f0として定義 Pitch pointを追加 Time pointをあらかじめ知っておく必要あり

実演

作成された刺激音1

作成する刺激音2 Point 5 Point 3 Point 2

Point 2とPoint3の各々の処理についてPoint5の処理を6回繰り返す 2 for x from 0 to 5 3 select Manipulation aa 4 Extract pitch tier 5 Remove point... 2 6 align_point2 = 0.0026667*x 7 f0_point2 = 2.833333*x 8 Add point... 0.213-align_point2 196-f0_point2 9 select Manipulation aa 10 plus PitchTier untitled 11 Replace pitch tier 12 select PitchTier untitled 13 Remove 14 select Manipulation aa 15 Extract pitch tier 16 Remove point... 3 17 align_point3 = 0.0085*x 18 f0_point3 = 4.83333*x 19 Add point... 0.428+align_point3 122+f0_point3 20 select Manipulation aa 21 plus PitchTier untitled 22 Replace pitch tier 23 select PitchTier untitled 24 Remove 25 for y from 0 to 5 26 select Manipulation aa 27 Extract pitch tier 28 Remove point... 5 29 f0_point5 = 14*y 30 Add point... 0.7931 120+f0_point5 31 select Manipulation aa 32 plus PitchTier untitled 33 Replace pitch tier 34 select Manipulation aa 35 Get resynthesis (PSOLA) 36 Write to WAV file... 'outdir$'aa'x''y'.wav 37 select PitchTier untitled 38 Remove 39 endfor 40 endfor F0に加え、タイミングについても変化幅を指定 Point 5 Pitch pointを指定したF0値とタイミングで追加 Point 2 Point 2とPoint3の各々の処理についてPoint5の処理を6回繰り返す Point 3

実演

作成された刺激音2

実験の実施 Praat Experiment MFC (Multiple Forced Choice) Experiment file   テキストファイルに必要なパラメータを入力し、Object windowでReadから読み込んで使用する

刺激音の数(直後にリストした刺激音の数と同数) 1 “ooTextFile” 2 “ExperimentMFC 2” 3 “stimuli/” 4 “.wav” 5 carrierBefore = “” 6 carrierAfter =“” 7 initialSilenceDuration = 1.5 seconds 8 interStimulusInterval = 0 9 numberOfDifferentStimuli = 36 10 “aa11” 11 “aa12” 12 “aa13” 13 …中略… 14 “aa64” 15 “aa65” 16 “aa66” 17 numberOfReplicationsPerStimulus = 2 18 breakAfterEvery = 0 19 randomize = <PermuteAll> 20 startText = “Click to start.” 21 runText = “Which of the two words is 22 given more importance by the 23 speaker?” 24 pauseText = “End of block of 25 trials. Have a short break. Click to 26 proceed.” 27 endText = “The practice session is 28 over.” 29 “Tell experimenter you're done.” 30 numberOfResponseCategories = 2 31 0.1 0.4 0.35 0.65 "1" "1"  0.6 0.9 0.35 0.65 "2" "2“  numberOfGoodnessCategories = 0   0.25 0.35 0.10 0.20 “1 (poor)“  0.35 0.45 0.10 0.20 “2”   0.45 0.55 0.10 0.20 “3“  0.55 0.65 0.10 0.20 “4“ 38 0.65 0.75 0.10 0.20 “5 (good)” ファイルの形式を指定 各刺激音の前に1.5秒の無音を挿入 刺激音の数(直後にリストした刺激音の数と同数) 刺激音のファイルをリスト 繰り返しの数 小休憩をいくつめの刺激音の後に入れるか すべてをランダムに再生する 実験課題-実験の際に画面上に表示される文

Help: Experiment MFC 2.1 The Experiment Fileを参照 1 “ooTextFile” 2 “ExperimentMFC 2” 3 “stimuli/” 4 “.wav” 5 carrierBefore = “” 6 carrierAfter =“” 7 initialSilenceDuration = 1.5 seconds 8 interStimulusInterval = 0 9 numberOfDifferentStimuli = 36 10 “aa11” 11 “aa12” 12 “aa13” 13 …中略… 14 “aa64” 15 “aa65” 16 “aa66” 17 numberOfReplicationsPerStimulus = 2 18 breakAfterEvery = 0 19 randomize = <PermuteAll> 20 startText = “Click to start.” 21 runText = “Which of the two words is 22 given more importance by the 23 speaker?” 24 pauseText = “End of block of 25 trials. Have a short break. Click to 26 proceed.” 27 endText = “The practice session is 28 over.” 29 “Tell experimenter you're done.” 30 numberOfResponseCategories = 2 31 0.1 0.4 0.35 0.65 "1" "1"  0.6 0.9 0.35 0.65 "2" "2“  numberOfGoodnessCategories = 0   0.25 0.35 0.10 0.20 “1 (poor)“  0.35 0.45 0.10 0.20 “2”   0.45 0.55 0.10 0.20 “3“  0.55 0.65 0.10 0.20 “4“ 38 0.65 0.75 0.10 0.20 “5 (good)” 小休憩時に表示される指示 実験終了時に表示される指示 回答の選択肢の数 回答用の画面上に作成するイメージ(4角形)のサイズ 0.0(左)から1.0(右) 0.0(下)から1.0(上) Exp. Fileに関する情報 Help: Experiment MFC 2.1 The Experiment Fileを参照

実演

実験結果 ua>aa, uu>au (ux>ax) N1とN2が同等の知覚プロミネンスを持つとき、P1に対するP2の値は、N1が有核のときの方がより低い(=P1-P2の差はN1=有核でより大きい) →アクセントの語彙指定情報に基づく知覚の正規化を示唆する y = x ua aa au uu unaccented P1 accented

実験結果 Accentual boost normalization P1 P2 a physical perceived x 聞き手が有核型の語が無核型の語よりもF0変動幅が大きいことを知識として持っていて、そのプロミネンスを実際よりも低く見積る

実験結果 ua>uu, aa>au (xa>xu) P2はN2が有核のときの方がより高い(=P1-P2の差はN2=有核でより小さい) →知覚的正規化の効果はF0パターンの情報が伴っているときの方が大きい y = x ua aa au uu unaccented P1 accented

実験結果 Accentual boost normalization a P1 P2 physical perceived x u

まとめ 一例として、日本語イントネーションのプロミネンス知覚に関する実験を紹介した Praatを使うことにより、音声合成を用いた知覚実験を容易に行うことができる 一例として、日本語イントネーションのプロミネンス知覚に関する実験を紹介した アクセント型の違いはプロミネンスを算定するとき、正規化される プロミネンス知覚の研究に際して lexical toneを考慮に入れる必要性がある