情報科学概論I 【第2回】実データの数理表現 ~音響信号と画像について~ 徳永隆治 (情報学類).

Slides:



Advertisements
Similar presentations
Absolute Orientation. Absolute Orientation の問題 二つの座標系の間における剛体 (rigid body) 変換を復元す る問題である。 例えば: 2 台のステレオカメラから得られた3次元情報の間の関 係を推定する問題。 2 台のステレオカメラから得られた3次元情報の間の関.
Advertisements

『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
1 線形代数学. 2 履修にあたって 電子情報システム学科 必修 2005 年度1セメスタ開講 担当 草苅良至 (電子情報システム学科) 教官室: G I 511 内線: 2095 質問等は上記のいずれかに行なうこと。 注意計算用のノートを準備すること。
Determining Optical Flow. はじめに オプティカルフローとは画像内の明る さのパターンの動きの見かけの速さの 分布 オプティカルフローは物体の動きの よって変化するため、オプティカルフ ローより速度に関する情報を得ること ができる.
0章 数学基礎.
授業展開#3 アナログとデジタル.
量子化(Mid-riser型) 出力y 入力x 通信ネットワーク特論(量子化・符号化).
第四章 情報源符号化の基礎 4・1 情報量とエントロピー 4・2 エントロピー符号化 4・3 音声符号化 4・4 画像符号化.
「わかりやすいパターン認識」 第1章:パターン認識とは
第3回  CVにおけるエピポーラ幾何
画像処理論.
第1章 第1節 情報のディジタル化のしくみ 4 音の表現 5 画像の表現
画像処理工学 2011年10月27日 担当教員 北川 輝彦.
経営情報 #1 デジタル表現 / 2003 (春) 安田豊 1.
平成23年8月 情報学群 岡田 守 このスライドは, 前川佳徳編著による「コンピュータグラフィックス」(オーム社)を基に作成されている.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
第三章 ディジタル符号変換の基礎 3・1PCMパルス符号変換 3・2符号変換 3・3通信路符号形式 3・4スクランブル.
デジタル信号処理①
【第三講義】 1次元写像の軌道と安定性.
日本大学 文理学部 情報システム解析学科 谷研究室 益田真太郎
Probabilistic Method 6-3,4
透視投影(中心射影)とは  ○ 3次元空間上の点を2次元平面へ投影する方法の一つ  ○ 投影方法   1.投影中心を定義する   2.投影平面を定義する
10.通信路符号化手法2 (誤り検出と誤り訂正符号)
画像のディジタル化 1 A/D変換器 光強度のアナログ情報をディジタル信号に変換する 標本化:sampling
第6章 カーネル法 修士2年 藤井 敬士.
線形代数学 谷津 哲平 第1章 ベクトル 1.1 ベクトル空間 1.2 ベクトルの一次独立性 1.3 部分ベクトル空間
授業展開#3 アナログとデジタル.
独立成分分析 1.問題は何か:例:解法:全体の見通し 2007/10/17 名雪 勲.
情報科学Ⅰ 担当教員:幸山直人.
2. 論理ゲート と ブール代数 五島 正裕.
動画ファイル形式 コンピュータでは、文字や画像、動画、音声といった様々な種類の情報を扱うことができるが、記憶装置に記録されるデータそのものは0と1の情報でしかない。動画ファイルの形式としてはMPEGやAVIです。
2008年度 情報数理 ~ 様々なデジタル情報 ~.
情報数理 ~様々なデジタル情報~ 2007年度 担当教員:幸山直人.
音楽をつくろう! 1.MIDI音楽の仕組みを理解しよう.
【第四講義】接空間と接写像.
5章  3次元形状を2次元面に投影する 3次元空間内に定義した形状を,2次元面上(ディスプレイのスクリーン面,プリンタの紙面など)に投影して表示するために必要になる変換について説明する.
第6章 特徴空間の変換 6.1 特徴選択と特徴空間の変換 6.2 特徴量の正規化 平成15年5月23日(金) 発表者 藤井 丈明
【第二講義】1次元非線形写像の不変集合とエントロピー
Basic Tools B4  八田 直樹.
コードクローン検出ツールを用いた ソースコード分析システムの試作と プログラミング演習への適用
情報処理の概念 #1 デジタル表現 安田豊 1.
デジタル画像とC言語.
レポート提出者のリスト 次のURLに掲載 ~goto/infomath.html 学内のIPアドレスからのみ閲覧 ( )
主成分分析 Principal Component Analysis PCA
変換されても変換されない頑固ベクトル どうしたら頑固になれるか 頑固なベクトルは何に使える?
Data Clustering: A Review
2012年度 情報数理 ~ 様々なデジタル情報(1) ~.
パターン認識特論 担当:和田 俊和 部屋 A513 主成分分析
Fourier 変換 Mellin変換 演習課題
情報A 第15回授業 04情報のディジタル化 対応ファイル:12exp15.xls
資料 線型変換のイメージ 固有値、固有ベクトル 平賀譲(209研究室) 資料
4. システムの安定性.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
2010年度 情報数理 ~ 様々なデジタル情報(1) ~.
アナログとデジタル.
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
第9章 学習アルゴリズムとベイズ決定側 〔3〕最小2乗法とベイズ決定側 発表:2003年7月4日 時田 陽一
地理情報システム論 第4回 コンピュータシステムおける データ表現(2)
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
パターン認識特論 カーネル主成分分析 和田俊和.
わかりやすいパターン認識 第6章 特徴空間の変換 6.5 KL展開の適用法 〔1〕 KL展開と線形判別法 〔2〕 KL展開と学習パターン数
ベクトル関数の回転(カール、ローティション)
※演習や小テスト(DES/RSA暗号に関する計算問題)と似た問題は出題しません。
2019年度 情報数理特論B ~ 様々なデジタル情報(1) ~.
Fourier 変換 Mellin変換 演習課題
ランダムプロジェクションを用いた音響モデルの線形変換
2008年度 情報数理 ~ 授業紹介 ~.
2012年度 情報数理 ~ 授業紹介 ~.
コンピュータと音 B3 入野仁志(irino).
Presentation transcript:

情報科学概論I 【第2回】実データの数理表現 ~音響信号と画像について~ 徳永隆治 (情報学類)

【音響信号;acoustic signals 】 アナログ表現からデジタル表現へ t s 【音響信号;acoustic signals 】 時間t上の粗密波の振幅を表す連続関数s(t) 【写真;photograph 】 2次元空間(h,v)上の明るさを表す連続関数s(h,v) v 【標本化;sampling】 連続関数の変域を離散化する処理 . s n m n s . 【量子化;quantization】 関数の値域を離散化する処理

デジタル画像 ピクセル R G B 色の三原色 0~255 (8 bit)

デジタル音響信号 音楽用CD:PCMフォーマット 標本化:44[kHz] = 44,000 [sample/sec]    量子化:16 [bit/sample] ∈{0,1,.., 65535} 振幅 . . . . . . 1秒間に16[bit]精度の整数が44,000個 1秒 時間

【歪み圧縮;losy data compression】 データ圧縮とは? 【歪み圧縮;losy data compression】 画像や音響信号の質(価値)を大幅に低下させず,可能な限りデータ量を削減する処理. (文書ファイル・プログラムファイル等には,無歪み(lossless)圧縮が適用される.) 生データ 生データ 符号化器 encoder 復号器 decoder 圧縮 ファイル ←小 データ量 大→ 【質問】身の回りの歪み圧縮の例をあげよ.また,その有効性について述べよ. 【例解】映像DVDおよびデジタルビデオに用いられる動画像用フォーマットMPEG2, デジタルカメラに用いられる画像フォーマットJPEG.音楽ソフトに用いられる  音響信号フォーマットADPCM,MP3等.データ転送に要する通信コストおよび  記憶媒体に要するコストを削減できる.

認識とは? 【認識;recognition 】 画像あるいは音響信号から特徴を抽出し,それが何であるか識別し, それらと関連する“事物”を判定する自動処理. 生データ “あ” 認識系 recognizer “A氏” 【質問】すでに利用されている自動認識の例を挙げよ. 【例解】郵便局の集配システムにおける郵便番号の自動識別 (OCR) . 【質問】近年,話題となっている生体認証に用いられる特徴を挙げよ. 【例解】声紋,眼底血管,こうさい,毛細血管,指紋等.

合成とは? 【合成;synthesis 】 意味(価値) のある画像や音声・音響信号を自動生成する処理. 高度な合成技術によって超高効率な情報圧縮が可能となる. 合成結果 制御用 パラメータ ファイル 合成器 synthesizer 制御用 パラメータ ファイル ←極小 データ量 大→ 【質問】すでに合成を用いて,高効率のデータ圧縮を達成している製品がある.  これは何か答えよ. 【例解】ゲーム機,通信カラオケ,着メロ等で用いられるMIDI符号(音楽スコア).  ADPCMあるいはMP3で音響信号を直接圧縮した場合と比べると良い.

解析学で学ぶ距離空間 【距離と距離空間】 集合X上の2つの元x,y∈Xを実数値に対応づける写像d(x,y)が,以下の条件を満足するとき,dを距離といい,集合Xを距離空間という. 1.d(x,y)≧0 (非負性) 2.d(x,y) = d(y,x)  (可換) 3.d(x,y) = 0  ⇔ x=y 4.d(x,y) ≦ d(x,z) + d(z,y)  (三角不等式) 集合X 元x 元y -2 -1 0 1 2 3 4 R1 d 【例】人間関係の“親密”さは,距離の公理を満足しないあいまいなものである.  2.他人から計った自分の距離と,自分から計った他人の距離は必ずしも一致しない.  3.自分と自分の距離は,常に零とは限らない.(時として自分が分からなくなる.)  4.第3者が介入することで2者の間の距離が近くなる場合がある.

情報圧縮における距離空間 符号化器 … … … … [Code Book] 64x3[B] → 1[B] 000:■, 001 :■, 002 :■, 003 :■, 004:■, 005 :■, 006 :■, 007 :■, 008:■, 009 :■, 010 :■, 011:■, 012:■, 013 :■, 014 :■, 015 :■, : 252:■, 253 :■, 254 :■, 255 :■, 【コードブック;code book】 類似したブロック群を代表する ブロックを記録したテーブル. [Data File] 8x8, 64x64 123,222,034,254,001,102,211,246, 123,222,034,253,001,102,211,246, : 123,222,034,254,001,006,211,246, 復号器 … … …

n画素からなる画像ブロックは,n次元実空間Rn上の元となる. コードブックの作成 【画像空間;image space】 n画素からなる画像ブロックは,n次元実空間Rn上の元となる. 【距離で類似度を計る】 画像空間上で,位置の近い画像ブロック 同士は,類似している.したがって, 画像空間には類似度を測るための適当な 距離を定義する必要がある. 【群化;clustering】  元を幾つかの代表点で近似するとき,  できるだけ誤差を小さくする代表点  を選択する処理をクラスタリングと  いう.コードブックとは,群番号と  代表点を記録したファイルである. 【LBG法】 全ての元を最寄の代表点で近似した場合の 距離の総量 (誤差関数,目的関数)が極小となるように代表点を移動させる最適化法

【特徴抽出;feature extraction】 認識における距離空間 あ お い (a1,b1,c1) (a3,b3,c3) (a4,b4,c4) (a2,b2,c2) (a5,b5,c5) (a6,b6,c6) 【特徴抽出;feature extraction】 対象データから特徴量を 数値として取り出す処理 【マッピング;mapping】 対象データを特徴空間に移す処理 【特徴空間;feature space】 いくつかの特徴量で張られる実空間 a → ↑ c b 【ラベリング;labeling】 名称や意味に基づき群化あるいは, 分割された領域に記名する処理. (a,b,c) お

ある集合X上の任意の要素xが,幾つかの特徴的要素(基底ベクトル) 距離だけでは足りない 距離だけでは,2つのパターンが“どれだけ似ているか”が分かるのみであり, “どこがどれぐらい似ているか”を知ることはできない. か お あ 【座標系と成分の重要性】 ある集合X上の任意の要素xが,幾つかの特徴的要素(基底ベクトル)   {a,b,c,….}の重ね合わせ x = a a + b b + g c + ……..   で表現されるとき,重なりの強さ(a,b,g, ….) はxと特徴的要素との   類似度(成分)を意味する.

【ベクトル空間;vector space 】 線形代数で学ぶベクトル空間 【ベクトル空間;vector space 】 集合Xには,任意の2元x,y ∈X間の和x+yと差x-yが定義され, 結合則の成立   :x+(y+z) = (x+y)+z 交換則の成立   :x+y = y+x 単位元・逆元の存在:x+0 = x, x+(-x) = 0 が成り立つとする.また,定数a∈R1との積axが定義されており, 定数の分配則の成立: (a+b)x = ax+bx 元の分配則の成立 : (x+y)a = ax+ay 単位元と逆元の存在:0x = 0, 1x = x が満たされて,線形結合ax + byもXの元となるとき,元をベクトルといい, Xをベクトル空間という. 上記の定義において最も重要な点は, 「何か“x”と何か“y”の線形結合ax+byで,別の何か“z”が作られる」 という特性にある.z は,“x”らしさと“y”らしさだけを持つことに注意する.  ここで,線形結合・線形独立・線形従属・基底・次元の概念を熟知しよう.

実際に成分を計算するとき,“距離”の拡張概念である“内積”が重要となる. 座標を決める=空間を張る C 直線A={ae1:a∈R1}は,ベクトルe1 で張られる1次元部分空間である.            集合X B ce3 直線B ={be1:b∈R1}は,ベクトルe2 で張られる1次元部分空間である. be2 e3 A ae1 e2 e1 線形独立性:e1とe2が平行でない ならば,AとBは同一直線ではない. AとBは一つの平面を定める. 平面a={ae1+be2 : a, b∈R1}は,e1およびe2 で張られる2次元部分空間である. 集合X上の任意の点xが,線形独立なn個のベクトルの線形結合 X = a1e1+a2e2 +……. +anen で表現されるとき,集合Xはn次元ベクトル空間をなす.ここで,{e1,…,en}を基底系,{a1,…,an}を成分(あるいは係数) という. 実際に成分を計算するとき,“距離”の拡張概念である“内積”が重要となる.

コーシー・シュワルツの不等式:|<x,y>| = ||x||||y|| ⇔ xとyが平行(線形従属)である. ベクトル空間から内積空間へ 【内積;inner product 】 ベクトル空間X上に,任意の2ベクトルx,y ∈Xを実数値<x,y>へ対応づける 写像が定義されており, 分配則の成立  :<x+y,z> = <x,z> + <y,z> 交換則の成立  : <x,y> = <y,x> 定数の括り出し :<ax, y> = a<x.y> 非負性     :<x, x> ≧ 0, <x.x> =0 ⇔x = 0 を満たすとき,<x,y>を内積といい,Xを内積空間という. 距離の公理:<x,x>=||x||2は,距離である. 直交性:<x,y>=0 ⇔ xとyが直交する. コーシー・シュワルツの不等式:|<x,y>| = ||x||||y|| ⇔ xとyが平行(線形従属)である. 【射影;projection 】 ベクトルxが正規化(||x||=1) されているとき, 内積<x,y>は,xの張る部分空間へ落ちるY の影の長さとなる. y x <x,y>

認識と内積空間 . . sn デジタル信号S(1) S(1) = (s1,s2,s3,….,sD) ∈ RD sn デジタル信号S(2) デジタル信号S(k) . n sn デジタル信号S(2) S(2) = (s1,s2,s3,….,sD) ∈ RD S(k) = (s1,s2,s3,….,sD) ∈ RD . これらのベクトルは,D次元空間全体を 本当に占めているのだろうか? RD マッピングの結果がd(<D)次元部分空間のみを 占めているならば,この特徴空間は冗長である. この部分空間の次元をどうやって計るのか?

射影と主成分分析 座標回転 分散の最大方向 座標回転 データの零平均化 最大方向と直交する 次の最大方向 【主成分;principal component】 データの分散の順に並んだ正規直交座標系の成分を主成分という. 後方に現れる成分は,データを含まない分散が零の部分空間に対応する.

情報圧縮における内積空間 D画素ブロック D成分 画素順に並べられた成分には, 昇順あるいは降順という特徴はない. D次元空間 主成分分析と同様に,適当に座標系を回転させることで, 分散の順に成分を並べかえることができる.

降順に成分を並べかえることで末尾に零を集中させる. スカラー量子化との併用 量 子 化 量 子 化 直交変換 整数除算を用いることで, 割り当てるビット数を減らす. 降順に成分を並べかえることで末尾に零を集中させる.

レポート問題 【問題1】4つの整数値{0,1,2,3}からなる記号列 0000011101230100020011000011120111000000  は,2ビットの2進符号 0 → 00, 1 → 01 , 2 → 10 , 3 → 11  を用いて,2×40=80ビットのデータ量で表現できる.  ここで,2進符号 0 → 1, 1 → 01 , 2 → 001 , 3 → 0001  を用いるとき,記号列のデータ量を計算し,総データ量がそのように  変化した理由を考察せよ. 【レポートの提出方法】  次回終了の後,2回と3回に出題された2問に回答して,  レポートを提出せよ.提出場所および期限は,次週に告知する.