Presentation is loading. Please wait.

Presentation is loading. Please wait.

コンピュータビジョン 第1回.

Similar presentations


Presentation on theme: "コンピュータビジョン 第1回."— Presentation transcript:

1 コンピュータビジョン 第1回

2 自己紹介 CMU MIT 東大 生研 1980 1983 1996 1986 1982 1978 高度交通システム 車両・事象認識
仮想現実感 モデルの自動生成 仮想現実感 ロボティクス 人まねロボット 電総研 MIT 明るさ解析 コンピュタビジョン 東大院 情報工

3 所属 大学院 研究所 情報学環・学際情報学府 情報理工学系研究科・コンピュータ科学専攻 情報理工学系研究科・電子情報学専攻 生産技術研究所
国際産学共同センター 空間情報科学研究センター 国立情報学研究所

4 コースについて 講師:池内克史 評価 研究室: 生産技術研究所 E405 目黒区駒場 4-6-1 ki@iis.u-tokyo.ac.jp
目黒区駒場 4-6-1 評価 出席    50% レポート 50%

5 内容 2次元画像処理 3次元再構成法 線画解釈 明るさ解析 両眼立体視 3次元解析法 情報統合法 表現法

6 本年度の予定 6月1日 入門+2D画像処理+線画解釈 6月8日 両眼立体視と明るさ解析 6月15日 距離データとバイヨンプロジェクト
6月8日 両眼立体視と明るさ解析 6月15日 距離データとバイヨンプロジェクト 6月22日 カラー解析とIBR 6月29日 物体表現 7月6日 人間行動観察学習ロボット 7月13日 4次元仮想化都市空間

7 コンピュータビジョン 人間の視覚機能の代替アルゴリズムを設計する分野 2次元画像(網膜画像)から3次元世界を再構成
最大の応用分野はロボットが行動するための目

8 2次元画像と3次元世界 カメラ画像は,三次元の座標系から二次元の画像座標系へ射影したもの 二次元画像 三次元世界

9 コンピュータビジョンパラダイム(Marr)
物体中心表現 3次元物体表現 各種3次元表現 観測者中心表現   2-1/2次元表現 統合処理 明るさ 両眼立体視 動き テクスチャ 線画 3D特徴抽出 (shape-from-x) 2次元画像

10 デジタル画像処理(2D)

11 デジタル画像とは アナログ情報 (フィルム,絵,実世界) デジタル画像 デジタルカメラ 携帯電話 PCデータ, IT デジタル放送
量子化&標本化

12 標本化 アナログデータを離散的に領域分割 アナログデータ (時間軸と数値は連続) サンプリングデータ (時間軸は離散的) サンプリング間隔

13 標本化(続き) 2-D デジタル画像の場合 サンプリング間隔によって画像解像度が決まる

14 ピクセル (Pixel) 2-Dデジタル画像の単位 空間分割 columns 1 N-1 n 1 rows m Digital image
1 N-1 n 1 rows m Digital image M x N pixels M-1

15 空間的標本化(解像度) 40 x 30 pixels 80 x 60 pixels 160 x 120 pixels 320 x 240

16 量子化 サンプリングされたデータの数値を離散的に分ける サンプリングデータ (時間軸は離散的) デジタルデータ
(時間軸と数値の両方が離散的) 量子化ビット数: 3 bit = 8 level 8 bit = 256 level

17 量子化(続き) 2-Dデジタル画像の場合 1 2 3 5 色は数値として表される (行列形式) 量子化ビット数によって色数が決まる

18 表現の色数 何色で十分か? 16.7 million colors 256 colors 16 colors 4 colors

19 フィルタ処理

20 フィルタ 人間の視覚やコンピュータビジョンための前処理 ノイズ除去 画像強調 特徴抽出 FILTER ?

21 空間フィルタ・周波数フィルタ 空間領域での処理 隣接ピクセルとの演算 周波数領域での処理 画像をフーリエ変換

22 ノイズ除去 ノイズ源 取得時に発生 圧縮や伝送時に発生

23 平均値フィルタ 隣接点の値を平均して置き換える 5 3 1 4 10 8 7 6 9 5 4 6 4 1 / 9 3 10 / 9
5 3 1 4 10 8 7 6 9 5 4 6 4 1 / 9 3 10 / 9 8 / 9 5 / 9 0 / 9 9 / 9 7 / 9 7 8 5 5 5 9 10 8 8 7 3 7 8 9 8 1 5 7 9 10 3 x 3 (5 x 5) (7 x 7)

24 平均値フィルタ(続き) 重み付け平均では 5 3 1 4 10 8 7 6 9 5 3 1 4 10 8 7 6 9 4 / 16
5 3 1 4 10 8 7 6 9 5 3 1 4 10 8 7 6 9 4 / 16 2 / 16 1 / 16 40 / 16 16 / 16 5 / 16 0 / 16 18 / 16 7 / 16 8 6

25 平均値フィルタ(続き) 例1 ガウスノイズの場合 ノイズ画像 (5% Gaussian) 平均値 重み付け平均値

26 平均値フィルタ(続き) 例2 ショットノイズの場合 ノイズ画像 (Random binary) 平均値 重み付け平均値

27 非線形フィルタ 最大値フィルタ 最小値フィルタ メディアン(中央値)フィルタ ウィンドウ内の最大値で置き換える
ウィンドウ内の最小値で置き換える メディアン(中央値)フィルタ

28 メディアンフィルタ ウィンドウ内の中央値で置き換える 10 9 8 7 5 5 3 1 4 10 8 7 6 9 5 3 1 4 10 8
5 3 1 4 10 8 7 6 9 5 3 1 4 10 8 7 6 9 10 9 8 7 5 ソート 中央値 8 8

29 メディアンフィルタ(続き) 例 3 x 3 フィルタ ガウスノイズ ショットノイズ

30 エッジ

31 エッジ 画像中の明るさ(数値)が急激に変化する部分 近傍ピクセルとの微分処理 (離散的には差分式) 物体認識などでは重要な特徴となる
微分処理であるためノイズに弱い

32 エッジの種類 ステップエッジ ルーフエッジ ピークエッジ Intensity x Intensity x Intensity x

33 1-D エッジの微分 1回微分と2回微分 元信号 1回微分 2回微分
Fig. from Digital Image Processing (Springer)

34 Gradient-base 1回微分のオペレータ 離散的な差分式では 2 x 2 サイズ 3 x 3 サイズ エッジの強さと方向が得られる

35 Gradient-base (続き) オペレータの種類 Roberts Prewitt Sobel

36 Gradient-base (続き) 例 Prewittオペレータ Dx Dy

37 Laplacian operator 2回微分のオペレータ 4 direction 8 direction エッジの強さが得られる

38 Laplacian operator (続き)
4 direction 8 direction

39 Laplacian Of Gaussian 微分演算はノイズに対して弱い
Gauss関数でぼかして(ノイズ除去)してからLaplacianオペレータ Laplacian of Gaussian

40 Laplacian Of Gaussian (続き)
例 LOGオペレータ

41 カメラモデル 数学的にモデル化 三次元世界の点Mから画像上の点mをどのように対応付けるか X m 焦点距離:f y 画像中心:c
Z Y x M 画像座標系 カメラ座標系 三次元世界の点Mから画像上の点mをどのように対応付けるか

42 中心射影 ピンホールカメラモデル レンズ系を針の穴(pinhole)とみなす X m 焦点距離:f y 画像中心:c レンズ中心:C Z Y
(X,Y,Z):三次元空間の座標 (x,y):射影された画像上の座標 s:スカラー M 画像座標系 カメラ座標系

43 中心射影(続き) 座標系の位置を入れ替えると よく使われているモデルであるが,非線形変換である X x f Z C c m y Y M
カメラ座標系 画像座標系 よく使われているモデルであるが,非線形変換である

44 正射影(平行射影) 射影の近似(線形化) カメラ↔物体間の距離に無関係 X x Z C c y Y m (X,Y,Z):三次元空間の座標
カメラ座標系 画像座標系

45 線画解析

46 線画抽出抽出 原画像 微分画像 線画画像

47 線画から奥行き情報 2次元の線画が与えられ 元の3次元物形状を推定 なぜひし形にみえずますにみえるのか?
コンピュータが同じように解釈するようにできないか?

48 稜線のタイプ 凸稜線:+ 凹稜線:- 輪郭線:矢印の方向に進むと右側に物体,左側が背景

49 線画のラベル付け 3D形状を知っていればラベル付けは容易 逆操作は可能か?

50 可能なラベル数(拘束なし) →3Dの知識による拘束の必要性 9 本の線よりなる 各4 ラベルの可能性
→4x4x4x4x4x4x4x4x4=250,000の可能性 しかし!  現実は1通りしかない 250,000の可能性を減少させる必要あり! →3Dの知識による拘束の必要性

51 ハフマン・クロー頂点辞書 他の可能性なし 208の可能性が12個に限定 L型      - 6個 ARROW型 - 3個 FORK型   - 3個

52 ラベル付けへの拘束 拘束なし --250,000の可能性 拘束あり 3ARROW - 3x3x3 3L - 6x6x6 1FORK - 3
拘束なし --250,000の可能性 拘束あり    3ARROW - 3x3x3   3L - 6x6x6   1FORK - 3 →3x3x3x6x6x6x3=17,496の可能性

53 拘束伝播 線の両端での整合性         -> さらなる拘束

54 線画解釈の問題点 あいまい性の存在 完全な線画抽出が前提 -> 不可能 定性表現にしかすぎない

55 欠点1: ラベル付け不可能

56 ラベル付け可能な不可能物体 ラベル付けができても,その立体が実現するわけではない

57 欠点3: 定性表現 ラベルが同じで合っても一意には決まらない

58 まとめ 2次元画像処理 デジタル化 フィルター処理 エッジ抽出 コンピュータビジョン 3次元情報の縮退 拘束の導出 線画解釈


Download ppt "コンピュータビジョン 第1回."

Similar presentations


Ads by Google