Praatを用いた日本語イントネーションの知覚研究

Slides:

Advertisements

Similar presentations

XML ゼミ独習 XML ~ 第 6 章 XHTML~ 6.1 XHTML の概要 6.2 XHTML の構造谷津哲平.

Advertisements

音声翻訳における機械翻訳・音声合成の性能評価および分析 ☆橋本佳，山岸順一， William Byrne ， Simon King ，徳田恵一名工大 University of Edinburgh Cambridge University

情報科学部ディジタルメディア学科佐々木研究室 n02k1118 流石寛子

日本人学習者による英語音声の韻律に関する研究

遺伝的アルゴリズムにおけるランドスケープによる問題のクラス分類

卒研のようなもの圧縮ちーむ２００８．４．２２鴫原、山本、齋藤.

第５回OpenFOAM勉強会 for beginner

現在完了形 (present perfect tense)

校内研修用提示資料パワーポイントの基本操作.

JavaScript プログラミング入門 2006/11/10 神津.

３－１　MySQLについて発表者：藤村元彦自然言語処理研究室.

プレゼンテーション用ソフトウェア Impress

情報処理教材プレゼンテーションソフト PowerPoint 高知大学共通教育理学部対象塩田

英語勉強会.

日本語教育における発音指導の到達目標を考える

音声の個人性発声器官のサイズの違いによるもの口の大きさと声帯の大きさ発話の仕方の違いによりものアクセント口の動かし方

英語の母音の長さを測定する(2).

オンライン英単語・リスニング学習ソフト佐々木研究室 N02k1114 北隅　麻実.

C言語　配列 2016年　吉田研究室.

P,Q比が変更可能なScaLAPACKのコスト見積もり関数の開発

クロストーク成分の相互相関に着目した音場再生システム

通訳の原理理解→転換→表出のプロセスについて.

PSOLA法を用いた極低ビットレート音声符号化に関する検討

文字から声をつくる仕組み.

Webを利用した授業支援システムの開発北海道工業大学　電気電子工学科 H 渋谷　俊彦.

ベイズ基準によるHSMM音声合成の評価 ◎橋本佳，南角吉彦，徳田恵一（名工大）.

音声処理ソフトPraatの使い方.

スクリプト言語を用いたPHITSの連続実行

TTS技術の概要 1. TTSとは 2. TTS技術の応用 3. TTSシステムの流れ 4. 基本概念 5. F0モデル 6. 韻律記号

音韻論⑤ ----.

ストップウォッチのカードストップウォッチのカード

乳児における運動情報と形態情報の相互作用

スピーキングタスクの繰り返しの効果 ―タスクの実施間隔の影響―

決定木とランダムフォレスト和田　俊和.

広瀬啓吉研究室４．音声認識における適応手法の開発１．劣条件下での複数音源分離５．音声認識のための韻律的特徴の利用

音高による音色変化に着目した音源同定に関する研究

実行時情報に基づく OSカーネルのコンフィグ最小化

雑音環境下における非負値行列因子分解を用いた声質変換

音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定

母音継続時間を計測する.

プログラミング基礎ａ第７回 C言語によるプログラミング入門ファイル入出力

ソフトウェア保守のためのコードクローン情報検索ツール

データの型量的データ質的データ数字で表現されるデータ身長、年収、得点カテゴリで表現されるデータ性別、職種、学歴

コードクローン分類の詳細化に基づく集約パターンの提案と評価

1-1-6 ロバスト能動騒音制御に基づくループ管熱音響システムにおける定在波抑制制御の効果

統計ソフトウエアRの基礎.

国際言語文化研究科日本言語文化専攻第26回日本語教育学講座講演会

電気・機械・情報概論 VBAプログラミング第1回 2018年6月25日

VOCAL DYNAMICS CONTROLLER: 歌声のF0動特性をノート単位で編集し，合成できるインタフェース

英語音声学(6) イントネーション.

HMM音声合成における変分ベイズ法に基づく線形回帰

構造的類似性を持つ半構造化文書における頻度分析

全体ミーティング (5/23) 村田雅之.

ベイズ基準による隠れセミマルコフモデルに基づく音声合成

ベイズ音声合成における事前分布とモデル構造の話者間共有

小標本に関する平均の推定と検定標本が小さい場合，標本分散から母分散を推定するときの不確実さを加味したｔ分布を用いて，推定や検定を行う

vc-1. Visual Studio C++ の基本操作（Visual Studio C++ の実用知識を学ぶシリーズ）

音響伝達特性モデルを用いたシングルチャネル音源位置推定の検討 2-P-34 高島遼一，住田雄司，滝口哲也，有木康雄（神戸大）研究の背景

情報コミュニケーション入門b 第９回表計算ソフト入門（３）

ca-9. 数の扱い（コンピュータアーキテクチャとプロセッサ）

【GeoAFM】オリジナルの探針形状データの作成／使用 1/2

プログラミング基礎ａ第７回 C言語によるプログラミング入門ファイル入出力

プロジェクト演習Ⅳ・Ⅵ インタラクティブゲーム制作

Cp-1. Microsoft Visual Studio 2019 C++ の使い方（C プログラミング演習，Visual Studio 2019 対応）金子邦彦.

スライドの終わりまでテキストが繰り返しスクロールされます • スライドの終わりまでテキストが繰り返しスクロールされます •

CSP係数の識別に基づく話者の頭部方向の推定

サンプル見出しテキスト 1 行目テキスト 2 行目テキスト 3 行目 (中級) 図の背後でタイトルを移動させるアニメーション効果

英語音声学前期・木１・ＣＡＬＬ１担当：福田薫

プログラミング 2 静的変数.

Presentation transcript:

Praatを用いた日本語イントネーションの知覚研究新谷　敬人 (Shinya, Takahito) マサチューセッツ大学アマースト校大学院上智大学大学院日本英語学会第24回大会 2006年11月5日

はじめに目的－Praatを用いた知覚実験の一例を示す研究事例－日本語イントネーションのプロミネンス知覚（Shinya 2005, 2006, 2007に基づく）語アクセントがプロミネンスに与える影響を知覚面から検討刺激音となる合成音を作成する際の手順と実験実施に焦点を当てる

アウトライン動機と主張背景（プロミネンス、語アクセント）実験方法刺激音作成実験実施実験結果結論

動機プロミネンス知覚の研究（Gussenhoven et al. 1997、Pierrehumbert 1979、Terken 1991、1994など）発話のmetrical/prosodic structureとの関係発話中のピッチアクセントの基本周波数（Ｆ０）ピーク値を様々に変化させ、プロミネンス知覚への影響を検討イントネーション言語（英語とオランダ語）についてのデータのみ

動機 Lexical toneはプロミネンスの知覚に影響しないのか日本語イントネーションは単語のアクセント型（有核 vs. 無核）により大きく影響を受ける（Poser 1984, Pierrehumbert & Beckman 1988, Kubozono 1993）有核語と無核語の区別はプロミネンスレベルの区別ではない

主張アクセント型の違いはプロミネンスを知覚する上で正規化される有核語のプロミネンスが実際よりも低く算定される　→ 有核語と無核語が同じF0ピーク値を持つ場合、無核語の方がより大きなプロミネンスを持って知覚される

主張 Accentual boost normalization accented P1 P2 physical perceived unaccented

背景－プロミネンス構造的 (音韻論、統語論－強勢, トーン) 音響的（F0、時間長、強さ）知覚的パラ言語的（感情、声質、性差など) 「プロミネンス」という用語はさまざまに使われる構造的 (音韻論、統語論－強勢, トーン) 音響的（F0、時間長、強さ）知覚的パラ言語的（感情、声質、性差など)

背景－プロミネンスの知覚に影響を与える要因高いＦ０ピークは大きなプロミネンスの知覚を生み出す (Gussenhoven & Rietveld 1988, 1998, Terken 1991, 1994, Gussenhoven et al. 1997) a b < 知覚されるプロミネンス

背景－日本語のアクセント日本語における語は有核(accented)か無核（unaccented）のどちらかに属する音声学的特性－有核語は無核語よりＦ０ピークが高く、大きな下降を伴う音韻論的特性－有核語はlexiconに何らかの音韻的指定を持つが無核語は持たない（Haraguchi 1977, Pierrehumbert & Beckman 1988）

背景－日本語のアクセント有核語と無核語の音声学的な相違を考えると、アクセントを知覚的に同定する場合、Ｆ0パターンと語彙指定情報の両方が利用可能 Shinya (2005, 2007)はＦ0パターンに基づくプロミネンス知覚の正規化を報告ここでは、アクセントの語彙指定情報が同様の正規化をもたらすかどうかを検討（Shinya 2006）

刺激音作成

刺激音作成の概要３語からなる４つの文 [N1-の N2-が V] N1－Ｆ0形状を有核から無核へ連続的に変化（６段階） aa 稲森の兄嫁がいない au 稲森のお土産が消えた ua　　稲村の兄嫁がいない uu 稲村のお土産が消えた N1－Ｆ0形状を有核から無核へ連続的に変化（６段階）Ｆ0形状が曖昧な時、アクセント知覚に語彙指定情報が利用されると予測赤－有核緑－無核

刺激音作成の概要 N2－Ｆ0形状を元のまま保ち、ピーク値だけを変化（６段階、14Hz間隔）日本語母語話者24名実験課題－文を聞いて、N1とN2のどちらがより強調されて聞こえるかを判断プロビット分析（回帰分析の一種）を用いて、N1とN2が同じプロミネンスを持つときの第1ピーク（Ｐ１）・第２ピーク（Ｐ１）の値を推定

刺激音作成（手動）

作成する刺激音１

実演

刺激音作成（手動）利点操作が比較的容易欠点解決策多くの刺激音を作るには手順が煩雑ミスが出るスクリプトを用いて刺激音作成を半自動化

刺激音作成（半自動）

図１スクリプト1 1 outdir$ = “output\” 2 for x from 0 to 5 3 select Manipulation aa 4 Extract pitch tier 5 Remove point... 5 6 f0 = 10*x 7 Add point... 0.7931 200-f0 8 select Manipulation aa 9 plus PitchTier untitled 10 Replace pitch tier 11 select Manipulation aa 12 Get resynthesis (PSOLA) 13 Write to WAV file... ‘outdir$’aa‘x’.wav　 14 select PitchTier untitled 15 Remove 16 endfor 図１　スクリプト1 1段階でのF0の変化幅を変数f0として定義 Pitch pointを追加 Time pointをあらかじめ知っておく必要あり

実演

作成された刺激音１

作成する刺激音２ Point 5 Point 3 Point 2

Point 2とPoint3の各々の処理についてPoint5の処理を6回繰り返す 2 for x from 0 to 5 3 select Manipulation aa 4 Extract pitch tier 5 Remove point... 2 6 align_point2 = 0.0026667*x 7 f0_point2 = 2.833333*x 8 Add point... 0.213-align_point2 196-f0_point2 9 select Manipulation aa 10 plus PitchTier untitled 11 Replace pitch tier 12 select PitchTier untitled 13 Remove 14 select Manipulation aa 15 Extract pitch tier 16 Remove point... 3 17 align_point3 = 0.0085*x 18 f0_point3 = 4.83333*x 19 Add point... 0.428+align_point3 122+f0_point3 20 select Manipulation aa 21 plus PitchTier untitled 22 Replace pitch tier 23 select PitchTier untitled 24 Remove 25 for y from 0 to 5 26 select Manipulation aa 27 Extract pitch tier 28 Remove point... 5 29 f0_point5 = 14*y 30 Add point... 0.7931 120+f0_point5 31 select Manipulation aa 32 plus PitchTier untitled 33 Replace pitch tier 34 select Manipulation aa 35 Get resynthesis (PSOLA) 36 Write to WAV file... 'outdir$'aa'x''y'.wav 37 select PitchTier untitled 38 Remove 39 endfor 40 endfor F0に加え、タイミングについても変化幅を指定 Point 5 Pitch pointを指定したＦ0値とタイミングで追加 Point 2 Point 2とPoint3の各々の処理についてPoint5の処理を6回繰り返す Point 3

実演

作成された刺激音２

実験の実施 Praat Experiment MFC (Multiple Forced Choice) Ｅｘｐｅｒｉｍｅｎｔ file 　　テキストファイルに必要なパラメータを入力し、Object windowでReadから読み込んで使用する

刺激音の数（直後にリストした刺激音の数と同数） 1 “ooTextFile” 2 “ExperimentMFC 2” 3 “stimuli/” 4 “.wav” 5 carrierBefore = “” 6 carrierAfter =“” 7 initialSilenceDuration = 1.5 seconds 8 interStimulusInterval = 0 9 numberOfDifferentStimuli = 36 10 “aa11” 11 “aa12” 12 “aa13” 13 …中略… 14 “aa64” 15 “aa65” 16 “aa66” 17 numberOfReplicationsPerStimulus = 2 18 breakAfterEvery = 0 19 randomize = <PermuteAll> 20 startText = “Click to start.” 21 runText = “Which of the two words is 22 given more importance by the 23 speaker?” 24 pauseText = “End of block of 25 trials. Have a short break. Click to 26 proceed.” 27 endText = “The practice session is 28 over.” 29 “Tell experimenter you're done.” 30 numberOfResponseCategories = 2 31 0.1 0.4 0.35 0.65 "1" "1" 　0.6 0.9 0.35 0.65 "2" "2“ 　numberOfGoodnessCategories = 0 　 0.25 0.35 0.10 0.20 “1 (poor)“ 　0.35 0.45 0.10 0.20 “2” 　 0.45 0.55 0.10 0.20 “3“ 　0.55 0.65 0.10 0.20 “4“ 38 0.65 0.75 0.10 0.20 “5 (good)” ファイルの形式を指定各刺激音の前に1.5秒の無音を挿入刺激音の数（直後にリストした刺激音の数と同数）刺激音のファイルをリスト繰り返しの数小休憩をいくつめの刺激音の後に入れるかすべてをランダムに再生する実験課題－実験の際に画面上に表示される文

Help: Experiment MFC 2.1 The Experiment Fileを参照 1 “ooTextFile” 2 “ExperimentMFC 2” 3 “stimuli/” 4 “.wav” 5 carrierBefore = “” 6 carrierAfter =“” 7 initialSilenceDuration = 1.5 seconds 8 interStimulusInterval = 0 9 numberOfDifferentStimuli = 36 10 “aa11” 11 “aa12” 12 “aa13” 13 …中略… 14 “aa64” 15 “aa65” 16 “aa66” 17 numberOfReplicationsPerStimulus = 2 18 breakAfterEvery = 0 19 randomize = <PermuteAll> 20 startText = “Click to start.” 21 runText = “Which of the two words is 22 given more importance by the 23 speaker?” 24 pauseText = “End of block of 25 trials. Have a short break. Click to 26 proceed.” 27 endText = “The practice session is 28 over.” 29 “Tell experimenter you're done.” 30 numberOfResponseCategories = 2 31 0.1 0.4 0.35 0.65 "1" "1" 　0.6 0.9 0.35 0.65 "2" "2“ 　numberOfGoodnessCategories = 0 　 0.25 0.35 0.10 0.20 “1 (poor)“ 　0.35 0.45 0.10 0.20 “2” 　 0.45 0.55 0.10 0.20 “3“ 　0.55 0.65 0.10 0.20 “4“ 38 0.65 0.75 0.10 0.20 “5 (good)” 小休憩時に表示される指示実験終了時に表示される指示回答の選択肢の数回答用の画面上に作成するイメージ（4角形）のサイズ 0.0（左）から1.0（右） 0.0（下）から1.0（上）Ｅｘｐ. Fileに関する情報 Help: Experiment MFC 2.1 The Experiment Fileを参照

実演

実験結果 ua>aa, uu>au (ux>ax) N1とN2が同等の知覚プロミネンスを持つとき、Ｐ1に対するＰ2の値は、N1が有核のときの方がより低い（＝P1-P2の差はN1＝有核でより大きい） →アクセントの語彙指定情報に基づく知覚の正規化を示唆する y = x ua aa au uu unaccented P1 accented

実験結果 Accentual boost normalization P1 P2 a physical perceived x 聞き手が有核型の語が無核型の語よりもF0変動幅が大きいことを知識として持っていて、そのプロミネンスを実際よりも低く見積る

実験結果 ua>uu, aa>au (xa>xu) P2はN2が有核のときの方がより高い（＝P1-P2の差はN2＝有核でより小さい） →知覚的正規化の効果はF0パターンの情報が伴っているときの方が大きい y = x ua aa au uu unaccented P1 accented

実験結果 Accentual boost normalization a P1 P2 physical perceived x u

まとめ一例として、日本語イントネーションのプロミネンス知覚に関する実験を紹介したＰｒａａｔを使うことにより、音声合成を用いた知覚実験を容易に行うことができる一例として、日本語イントネーションのプロミネンス知覚に関する実験を紹介したアクセント型の違いはプロミネンスを算定するとき、正規化されるプロミネンス知覚の研究に際して lexical toneを考慮に入れる必要性がある