Download presentation
Presentation is loading. Please wait.
1
コンピュータビジョン 第1回
2
自己紹介 CMU MIT 東大 生研 1980 1983 1996 1986 1982 1978 高度交通システム 車両・事象認識
仮想現実感 モデルの自動生成 仮想現実感 ロボティクス 人まねロボット 電総研 MIT 明るさ解析 コンピュタビジョン 東大院 情報工
3
所属 大学院 研究所 情報学環・学際情報学府 情報理工学系研究科・コンピュータ科学専攻 情報理工学系研究科・電子情報学専攻 生産技術研究所
国際産学共同センター 空間情報科学研究センター 国立情報学研究所
4
コースについて 講師:池内克史 評価 研究室: 生産技術研究所 E405 目黒区駒場 4-6-1 ki@iis.u-tokyo.ac.jp
目黒区駒場 4-6-1 評価 出席 50% レポート 50%
5
内容 2次元画像処理 3次元再構成法 線画解釈 明るさ解析 両眼立体視 3次元解析法 情報統合法 表現法
6
本年度の予定 6月1日 入門+2D画像処理+線画解釈 6月8日 両眼立体視と明るさ解析 6月15日 距離データとバイヨンプロジェクト
6月8日 両眼立体視と明るさ解析 6月15日 距離データとバイヨンプロジェクト 6月22日 カラー解析とIBR 6月29日 物体表現 7月6日 人間行動観察学習ロボット 7月13日 4次元仮想化都市空間
7
コンピュータビジョン 人間の視覚機能の代替アルゴリズムを設計する分野 2次元画像(網膜画像)から3次元世界を再構成
最大の応用分野はロボットが行動するための目
8
2次元画像と3次元世界 カメラ画像は,三次元の座標系から二次元の画像座標系へ射影したもの 二次元画像 三次元世界
9
コンピュータビジョンパラダイム(Marr)
物体中心表現 3次元物体表現 各種3次元表現 観測者中心表現 2-1/2次元表現 統合処理 明るさ 両眼立体視 動き テクスチャ 線画 3D特徴抽出 (shape-from-x) 2次元画像
10
デジタル画像処理(2D)
11
デジタル画像とは アナログ情報 (フィルム,絵,実世界) デジタル画像 デジタルカメラ 携帯電話 PCデータ, IT デジタル放送
量子化&標本化
12
標本化 アナログデータを離散的に領域分割 アナログデータ (時間軸と数値は連続) サンプリングデータ (時間軸は離散的) サンプリング間隔
13
標本化(続き) 2-D デジタル画像の場合 サンプリング間隔によって画像解像度が決まる
14
ピクセル (Pixel) 2-Dデジタル画像の単位 空間分割 columns 1 N-1 n 1 rows m Digital image
1 N-1 n 1 rows m Digital image M x N pixels M-1
15
空間的標本化(解像度) 40 x 30 pixels 80 x 60 pixels 160 x 120 pixels 320 x 240
16
量子化 サンプリングされたデータの数値を離散的に分ける サンプリングデータ (時間軸は離散的) デジタルデータ
(時間軸と数値の両方が離散的) 量子化ビット数: 3 bit = 8 level 8 bit = 256 level
17
量子化(続き) 2-Dデジタル画像の場合 1 2 3 5 色は数値として表される (行列形式) 量子化ビット数によって色数が決まる
18
表現の色数 何色で十分か? 16.7 million colors 256 colors 16 colors 4 colors
19
フィルタ処理
20
フィルタ 人間の視覚やコンピュータビジョンための前処理 ノイズ除去 画像強調 特徴抽出 FILTER ?
21
空間フィルタ・周波数フィルタ 空間領域での処理 隣接ピクセルとの演算 周波数領域での処理 画像をフーリエ変換
22
ノイズ除去 ノイズ源 取得時に発生 圧縮や伝送時に発生
23
平均値フィルタ 隣接点の値を平均して置き換える 5 3 1 4 10 8 7 6 9 5 4 6 4 1 / 9 3 10 / 9
5 3 1 4 10 8 7 6 9 5 4 6 4 1 / 9 3 10 / 9 8 / 9 5 / 9 0 / 9 9 / 9 7 / 9 7 8 5 5 5 9 10 8 8 7 3 7 8 9 8 1 5 7 9 10 3 x 3 (5 x 5) (7 x 7)
24
平均値フィルタ(続き) 重み付け平均では 5 3 1 4 10 8 7 6 9 5 3 1 4 10 8 7 6 9 4 / 16
5 3 1 4 10 8 7 6 9 5 3 1 4 10 8 7 6 9 4 / 16 2 / 16 1 / 16 40 / 16 16 / 16 5 / 16 0 / 16 18 / 16 7 / 16 8 6
25
平均値フィルタ(続き) 例1 ガウスノイズの場合 ノイズ画像 (5% Gaussian) 平均値 重み付け平均値
26
平均値フィルタ(続き) 例2 ショットノイズの場合 ノイズ画像 (Random binary) 平均値 重み付け平均値
27
非線形フィルタ 最大値フィルタ 最小値フィルタ メディアン(中央値)フィルタ ウィンドウ内の最大値で置き換える
ウィンドウ内の最小値で置き換える メディアン(中央値)フィルタ
28
メディアンフィルタ ウィンドウ内の中央値で置き換える 10 9 8 7 5 5 3 1 4 10 8 7 6 9 5 3 1 4 10 8
5 3 1 4 10 8 7 6 9 5 3 1 4 10 8 7 6 9 10 9 8 7 5 ソート 中央値 8 8
29
メディアンフィルタ(続き) 例 3 x 3 フィルタ ガウスノイズ ショットノイズ
30
エッジ
31
エッジ 画像中の明るさ(数値)が急激に変化する部分 近傍ピクセルとの微分処理 (離散的には差分式) 物体認識などでは重要な特徴となる
微分処理であるためノイズに弱い
32
エッジの種類 ステップエッジ ルーフエッジ ピークエッジ Intensity x Intensity x Intensity x
33
1-D エッジの微分 1回微分と2回微分 元信号 1回微分 2回微分
Fig. from Digital Image Processing (Springer)
34
Gradient-base 1回微分のオペレータ 離散的な差分式では 2 x 2 サイズ 3 x 3 サイズ エッジの強さと方向が得られる
35
Gradient-base (続き) オペレータの種類 Roberts Prewitt Sobel
36
Gradient-base (続き) 例 Prewittオペレータ Dx Dy
37
Laplacian operator 2回微分のオペレータ 4 direction 8 direction エッジの強さが得られる
38
Laplacian operator (続き)
4 direction 8 direction
39
Laplacian Of Gaussian 微分演算はノイズに対して弱い
Gauss関数でぼかして(ノイズ除去)してからLaplacianオペレータ Laplacian of Gaussian
40
Laplacian Of Gaussian (続き)
例 LOGオペレータ
41
カメラモデル 数学的にモデル化 三次元世界の点Mから画像上の点mをどのように対応付けるか X m 焦点距離:f y 画像中心:c
Z Y x M 画像座標系 カメラ座標系 三次元世界の点Mから画像上の点mをどのように対応付けるか
42
中心射影 ピンホールカメラモデル レンズ系を針の穴(pinhole)とみなす X m 焦点距離:f y 画像中心:c レンズ中心:C Z Y
(X,Y,Z):三次元空間の座標 (x,y):射影された画像上の座標 s:スカラー M 画像座標系 カメラ座標系
43
中心射影(続き) 座標系の位置を入れ替えると よく使われているモデルであるが,非線形変換である X x f Z C c m y Y M
カメラ座標系 画像座標系 よく使われているモデルであるが,非線形変換である
44
正射影(平行射影) 射影の近似(線形化) カメラ↔物体間の距離に無関係 X x Z C c y Y m (X,Y,Z):三次元空間の座標
カメラ座標系 画像座標系
45
線画解析
46
線画抽出抽出 原画像 微分画像 線画画像
47
線画から奥行き情報 2次元の線画が与えられ 元の3次元物形状を推定 なぜひし形にみえずますにみえるのか?
コンピュータが同じように解釈するようにできないか?
48
稜線のタイプ 凸稜線:+ 凹稜線:- 輪郭線:矢印の方向に進むと右側に物体,左側が背景
49
線画のラベル付け 3D形状を知っていればラベル付けは容易 逆操作は可能か?
50
可能なラベル数(拘束なし) →3Dの知識による拘束の必要性 9 本の線よりなる 各4 ラベルの可能性
→4x4x4x4x4x4x4x4x4=250,000の可能性 しかし! 現実は1通りしかない 250,000の可能性を減少させる必要あり! →3Dの知識による拘束の必要性
51
ハフマン・クロー頂点辞書 他の可能性なし 208の可能性が12個に限定 L型 - 6個 ARROW型 - 3個 FORK型 - 3個
52
ラベル付けへの拘束 拘束なし --250,000の可能性 拘束あり 3ARROW - 3x3x3 3L - 6x6x6 1FORK - 3
拘束なし --250,000の可能性 拘束あり 3ARROW - 3x3x3 3L - 6x6x6 1FORK - 3 →3x3x3x6x6x6x3=17,496の可能性
53
拘束伝播 線の両端での整合性 -> さらなる拘束
54
線画解釈の問題点 あいまい性の存在 完全な線画抽出が前提 -> 不可能 定性表現にしかすぎない
55
欠点1: ラベル付け不可能
56
ラベル付け可能な不可能物体 ラベル付けができても,その立体が実現するわけではない
57
欠点3: 定性表現 ラベルが同じで合っても一意には決まらない
58
まとめ 2次元画像処理 デジタル化 フィルター処理 エッジ抽出 コンピュータビジョン 3次元情報の縮退 拘束の導出 線画解釈
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.