本日の内容(10/16~) 前回の続き: ファイル形式(WAV, SMF) 音の基本事項 音律・音階 物理的な性質、生理・心理的な性質 数理的な扱い (詳細は別紙資料参照) フーリエ級数、フーリエ変換 離散フーリエ変換(DFT)、高速フーリエ変換(FFT) 自己相関 Cepstrum, LPC, MFCC 音律・音階
音の基本事項(1) 音とは(主として空気を伝わる)波動現象 耳に達すると、鼓膜・内耳を通じて神経パルスとして脳に伝わる。 その空気の振動は、マイクにより電気信号に変換し(アナログ信号)、さらにディジタル信号に変換できる(A/D変換) 逆にディジタル信号⇒(D/A変換)⇒アナログ信号 ⇒ 空気の振動 (スピーカー)
音の基本事項(2) (ある点で受信する)信号は、 時間 t の1変数関数 y=f (t) とみなせる。 重ね合わせの原理 2つの音を同時に鳴らした合成音は、2つの信号関数の和として表わせる。 ⇒ y=f1(t) , y=f2(t) の2音が鳴ったとき: y=f (t) = f1(t) + f2(t) ⇒ 波動の線形性 波動方程式(1次元): (実際には非線形成分もある)
重ね合わせの原理と線形性 線形偏微分方程式 f, g が解なら、f+g, af (a は定数)も解 (微分演算の線形性による)
音の基本事項(3) 重ね合わせの原理 複数の単純な音を重ね合わせることにより、複雑な音を作り出せる。 複雑な音は、より単純な音の重ね合わせとして分析・理解できる。 実際にどのような音として聞こえるかは別問題(生理的・心理的要因も大きい)。 参考: 視覚・光の3原色(RGB)
音の基本事項(4) 最も簡単な音: 純音(正弦波) 任意の音は正弦波の重ね合わせとして(原理的には)表わせる。 「音の3要素」 最も簡単な音: 純音(正弦波) 任意の音は正弦波の重ね合わせとして(原理的には)表わせる。 「音の3要素」 音の高さ: 基本周波数に対応 高さのある音は、基本周波数の整数倍の成分(倍音)からなる 音の大きさ: 平均振幅の大きさ(パワー値) 音色: 波形、その時間変化、等々
音を「見る」(ピアノ:中央ハ音) 波形データ 周波数スペクトル (基本周波数: 261.1 Hz) 時間→ 周波数→ ←スペクトログラム(ソノグラム) (上2つを2次元的に組み合わせたもの)
音の重ね合わせ 2つの音を同時に鳴らすと、その波形は2つの音の波形の「和」(線形性) 音程が(適度に)離れていれば、2つの音に分離して聞こえる。 440+550+660 Hz (AC#Eの和音) (440+550+…+1100Hz) 440+550 Hz (長3度(4半音)) 440+495 Hz (長2度(2半音)) 440+466 Hz (半音(平均律)) 440+450 Hz 440+445 Hz ピアノ音 「うなり」
音の重ね合わせ(2) 位相の影響 同じ周波数成分からなる音の場合、 成分同士の位相差はあまり影響しない。 440+550+660 Hz (1) 440+550+660 Hz (2) 以下の河原先生(和歌山大)のページも参照 http://www.wakayama-u.ac.jp/~kawahara/ http://www.wakayama-u.ac.jp/~kawahara/SIGMUS94kawahara/
参考: Missing Fundamental 基本周波数成分(f0 成分)がなくても f0 の高さの音に聞こえる。 例: f0 =220 Hz 1~16倍音成分 2~16倍音成分 3~16倍音成分
音の重ね合わせ(3) 位相が逆の音を重ね合わせる と音は「消える」か? ⇒ yes! (ANC: Active noise control) ⇒ スピーカーとヘッドホンの違い ピアノ音と「合成演奏」 ステレオと音像移動
無限上昇/下降音階 Shepard tone オクターブ離れた音を次々 重ね合わせる。 1オクターブ上がると元の音に戻る。
音の性質 「音の3要素」 物理量と心理量 高さ: ≒基本周波数 強さ: ≒音の振幅(パワー値) 音色: 波形、その他 高さ: ≒基本周波数 強さ: ≒音の振幅(パワー値) 音色: 波形、その他 物理量と心理量 音圧(SPL: sound pressure level)、音のエネルギー ⇔ ラウドネス loudness(phon, sone) 基本周波数 ⇔ ピッチ(感) (mel -> MFCC)
音圧 (SPL) とラウドネス (Wikipedia:en)
周波数と mel 尺度 (定義式の例: 1000 Hz 基準) 𝑚𝑒𝑙=1000 log 2 𝑓 1000 +1 (Wikipedia:en)
音の高さ (1) 一定の高さ感(ピッチ感 pitch)のある音は、 一定の周期で波形が繰り返される。 この周期を周波数単位で表したものが 「基本周波数」 fundamental (frequency) 楽音: ピッチ感のある音 通常の楽器音 噪音: ピッチ感のない音 打楽器音(シンバル、ドラム、...)、 white noise 中間的: 鐘、銅鑼など
音の高さ (2): 周波数成分 「重ねあわせの原理」 2つの音 S1(t) と S2(t) とを同時に鳴らした音 S(t) は S(t) = S1(t) + S2(t) で表される。 最も「単純な」音(純音)は三角関数(サイン波)として 表せる。 S(t) = Asin(2πf t +α) (A: 振幅、f: 周波数、α:位相) 純音でない音を複合音などと言う。
音の高さ (3): Fourier 展開・級数 (詳細は授業補足資料参照) 楽音(ピッチ感のある音) S(t) は、基本周波数 f の整数倍の周波数の音の重ね合わせ。 2πf =ωとおくと: S(t) = a0 /2 + a1 cos ωt + a2 cos 2ωt + a3 cos 3ωt + ... + an cos nωt + ... +b1 sin ωt + b2 sin 2ωt + b3 sin 3ωt + ... + bn sin nωt + ... 基本周波数の音: 基音 周波数 nf の音: (基音の)第 n 倍音 an, bn : 第 n 倍音の振幅
波形の例(1) 波形 スペクトル 正弦波 S(t) = sin t 鋸歯状波(きょしじょうは) S(t) = sin t + ½ sin 2t + ... + 1/n sin nt + ...
波形の例(2) 波形 スペクトル 矩形波(くけいは) S(t) = sin t + 1/3 sin 3t + ... + 1/(2n+1) sin (2n+1) t + ... 三角波 S(t) = sin t - 1/32 sin 3t + ... + (-1)n /(2n+1) 2 sin (2n+1) t + ...
音波⇒周波数分布(スペクトル) 原理(三角関数の直交性) S(t) = a0 /2 + a1 cos ωt + a2 cos 2ωt + a3 cos 3ωt + ... + an cos nωt + ... +b1 sin ωt + b2 sin 2ωt + b3 sin 3ωt + ... + bn sin nωt + ... πan = πbn = (一般には連続分布(フーリエ変換)になる。)
実際のスペクトル抽出・音響解析 ハードウェア: バンドパスフィルタ等 ソフトウェア(アルゴリズム) (その他にも各種の解析手法がある。) ハードウェア: バンドパスフィルタ等 ソフトウェア(アルゴリズム) ディジタルデータ(離散データ)が対象なので、 離散フーリエ変換(DFT: Discrete Fourier Transform)になる。 高速フーリエ変換: FFT (Fast Fourier Transform) Cooley & Tukey, 1965 (その他にも各種の解析手法がある。)
音の高さ (4):オクターブ、音階 音の高さは基本周波数の対数関係として知覚される。 基本周波数が等比級数 ⇒ 知覚される高さは等差級数的 音の高さは基本周波数の対数関係として知覚される。 基本周波数が等比級数 ⇒ 知覚される高さは等差級数的 高さが2倍の音同士は「オクターブの関係」にあると言う。 基本周波数 f に対し、2f, 4f, 8f, ..., 2nf の音は 第 1, 2, ..., n オクターブ
聴覚(Wikipedia より) 耳の構造 可聴域 両耳聴とステレオ 位相差
聴覚(Wikipedia より): 内耳
可聴域 (20~20,000 Hz)
絶対音感 (Absolute Pitch) 基本的には、単独音を聞いて、 その高さ(音名)を答えられる能力 絶対音感保持者は 10~20%(日本人は多い) ⇔ 相対音感 程度には大きな開きがある。 ピン: 数 Hz 単位で区別ができる。 キリ: 白鍵の音名だけわかる。 特定の楽器音(たとえばピアノ)しかわからないなど。
相対音感 (Relative Pitch) 音同士の相対的な高さ(音程)がわかる。 じゃ、どの程度までわかるか? たいていの人は(精度の差はあれ)、わかる。 わからない ⇒ いわゆる「音痴」 音色や音高にはよらない。 じゃ、どの程度までわかるか? C-G(ドーソ) ピアノ バイオリン 合成音 440Hz
絶対音感と相対音感 なぜ普通の人は絶対音感がないのか。 逆になぜ相対音感はあるのか。 コンピュータで音高解析すると、必然的に絶対音高情報は得られる。 人間でも、内耳等の前段階処理では絶対音高情報が抽出されている。 一般的な絶対音感はなくても、何度も聞いたりしてよく知っている音・曲の場合は、音高をかなり正確に再現できる。 ⇒ 音の高さの「記憶」は存在しうる?
音の高さ (4):オクターブ、音階(続き) 周波数が簡単な整数比の音ほど響きがよい。 1:2 オクターブ 2:3 5度(ド・ソ) 3:4 4度(ド・ファ) 4:5 長3度(ド・ミ) .......
音律と音階 (1) 音階(scale): 特定のジャンル・様式の曲が用いる音高集合、及び各音に機能(役割)を付したもの。 オクターブを周期とするのが普通。 西洋調性音楽: 7音音階(長旋法、短旋法) オクターブを12半音に分ける。全音:2半音 長旋法 全 全 半 全 全 全 半 ○ー・ー○ー・ー○ー○ー・ー○ー・ー○ー・ー○ー○ 短旋法(自然短音階) 全 半 全 全 半 全 全 ○ー・ー○ー○ー・ー○ー・ー○ー○ー・ー○ー・ー○
音律と音階 (2) その他の音階 教会旋法、民族音楽(5音音階が多い)、... 音律 (temperament): 音階の各音の音高比を定めたもの 平均律、純正律、等々。 セント (cent):音高比(音程)の単位 12平均律の半音を 100 とする。(周波数の対数尺度) 1オクターブ=1200 cent 周波数 f0 と f の音程のセント値: 1200 log2 (f / f0)
音律の決定要素 協和性(響きの良さ) オクターブ等価性 転調のしやすさ 完全5度:2:3、 長3度:4:5 など 等差級数的 完全5度:2:3、 長3度:4:5 など 等差級数的 オクターブ等価性 mod 2n で「等しい」音と見なす: 5度円など 等比級数的 転調のしやすさ 本質的に両立不可能!
5度円 (Circle of Fifths) C G D A E B F♯ D♭ A♭ E♭ B♭ F
ピタゴラス音律 1 256/243 9/8 32/27 81/64 4/3 729/512 3/2 128/81 27/16 16/9 243/128 2 5度音 (2:3) の積み重ねで音階を構成 C → G → D → A → ... C → F → B♭ → ... 周波数比の分母は 2(と 3)のべき乗だけ(右図) 5度音程の響きは良い 3度はあまりよくない (3/2)n は2のべき乗にならない! (3/2)12 / 27 = 1.0136... (23 cent) Pythagorian comma 他の作り方もある。
純正律 (Just intonation) 5度、3度の音程により構成 音程が単純な整数比になる 3和音の響きがよい 1 16/15 9/8 6/5 5/4 4/3 45/32 3/2 8/5 5/3 9/5 15/8 2 5度、3度の音程により構成 音程が単純な整数比になる 3和音の響きがよい 全音が2種類ある。 9/8(大全音)と 10/9 (小全音) 転調ができない Wolf tone が生じる
12平均律 (Equal Temperament) すべての半音を等間隔(等周波数比)で並べる。 1オクターブ(周波数比 2)を(等比級数的に) 12等分する。 半音: 周波数比で 21/12 転調が自由にできる 完全5度(ド・ソ)はほぼ協和的 3度の響きが少し悪い
代表的な音律の cent 値 C major F# major 和音 平均律 純正律 ピタゴラス律 平均律 純正律 ピタゴラス律 平均律 純正律 ピタゴラス律 C 0 0 0 C# 100 111.73128526977 90.22499567306 D 200 203.91000173077 203.91000173077 D# 300 315.64128700055 294.13499740383 E 400 386.31371386483 407.82000346155 F 500 498.04499913461 498.04499913461 F# 600 590.22371559561 611.73000519232 G 700 701.95500086538 701.95500086538 G# 800 813.68628613516 792.17999653845 A 900 884.35871299944 905.86500259616 A# 1000 1017.59628786594 996.08999826922 B 1100 1088.26871473022 1109.77500432694 和音 平均律 純正律 ピタゴラス律 C major F# major
その他の音律 中全音律 (Meantone scales) 不等分平均律 ..... 音律は(現在は使われていないもの、提案されただけのようなものまで含めれば)軽く数十種類はある。 音律の決定要素のどこに重点をおき、どのように組み合わせるかによって変わる。 実際の演奏では、様々な混合や変化が生じる 現在の楽器は基本的には平均律だが、弦楽器や声のように連続的な音程変化が可能な場合、部分的には純正律に近い。コーラスのうまい/へたの1つの要因。
調律 (tuning) 基準音高(concert pitch などという)を定め、採用した音律に応じて各音の音高を調節すること。 基準音高の標準は A4=440Hz (ISO 16) 歴史とともに段々上がってきている。 バロック時代(18C 前半)は 415Hz ぐらい 現在のオーケストラはやや高め: 440~444Hz 高いチューニングのほうが音が伸びるから? (がっきは痛み易くなるけど) オーケストラではオーボエを基準音として他の楽器が合わせる(ただしピアノがある場合はピアノ)
音律についての URL http://nagasm.org/ASL/temper/index.html (長嶋洋一氏のページ) http://www.asahi-net.or.jp/~HB9T-KTD/music/Japan/Research/Genre/index.html (音楽研究所) http://www.tg.rim.or.jp/~ejiri/hobby/onritsu.html http://www.mab.jpn.org/lib/exp/temper/basis.html http://www.bekkoame.ne.jp/~sakazaki/eki/ekiinfo/tuning.html
レポート出題 第1回: 10/16 出題: MIDI/SMF データ 第2回(予定): 来週あたり出題予定 音響データを作成するプログラム 詳細は別紙資料、manaba を参照 提出期限: 10/30 第2回(予定): 来週あたり出題予定 音響データを作成するプログラム