コンピュータビジョン 第1回
自己紹介 CMU MIT 東大 生研 1980 1983 1996 1986 1982 1978 高度交通システム 車両・事象認識 仮想現実感 モデルの自動生成 仮想現実感 ロボティクス 人まねロボット 電総研 MIT 明るさ解析 コンピュタビジョン 東大院 情報工
所属 大学院 研究所 情報学環・学際情報学府 情報理工学系研究科・コンピュータ科学専攻 情報理工学系研究科・電子情報学専攻 生産技術研究所 国際産学共同センター 空間情報科学研究センター 国立情報学研究所
コースについて 講師:池内克史 評価 研究室: 生産技術研究所 E405 目黒区駒場 4-6-1 ki@iis.u-tokyo.ac.jp 目黒区駒場 4-6-1 ki@iis.u-tokyo.ac.jp 評価 出席 50% レポート 50%
内容 2次元画像処理 3次元再構成法 線画解釈 明るさ解析 両眼立体視 3次元解析法 情報統合法 表現法
本年度の予定 6月1日 入門+2D画像処理+線画解釈 6月8日 両眼立体視と明るさ解析 6月15日 距離データとバイヨンプロジェクト 6月8日 両眼立体視と明るさ解析 6月15日 距離データとバイヨンプロジェクト 6月22日 カラー解析とIBR 6月29日 物体表現 7月6日 人間行動観察学習ロボット 7月13日 4次元仮想化都市空間
コンピュータビジョン 人間の視覚機能の代替アルゴリズムを設計する分野 2次元画像(網膜画像)から3次元世界を再構成 最大の応用分野はロボットが行動するための目
2次元画像と3次元世界 カメラ画像は,三次元の座標系から二次元の画像座標系へ射影したもの 二次元画像 三次元世界
コンピュータビジョンパラダイム(Marr) 物体中心表現 3次元物体表現 各種3次元表現 観測者中心表現 2-1/2次元表現 統合処理 明るさ 両眼立体視 動き テクスチャ 線画 3D特徴抽出 (shape-from-x) 2次元画像
デジタル画像処理(2D)
デジタル画像とは アナログ情報 (フィルム,絵,実世界) デジタル画像 デジタルカメラ 携帯電話 PCデータ, IT デジタル放送 量子化&標本化
標本化 アナログデータを離散的に領域分割 アナログデータ (時間軸と数値は連続) サンプリングデータ (時間軸は離散的) サンプリング間隔
標本化(続き) 2-D デジタル画像の場合 サンプリング間隔によって画像解像度が決まる
ピクセル (Pixel) 2-Dデジタル画像の単位 空間分割 columns 1 N-1 n 1 rows m Digital image 1 N-1 n 1 rows m Digital image M x N pixels M-1
空間的標本化(解像度) 40 x 30 pixels 80 x 60 pixels 160 x 120 pixels 320 x 240
量子化 サンプリングされたデータの数値を離散的に分ける サンプリングデータ (時間軸は離散的) デジタルデータ (時間軸と数値の両方が離散的) 量子化ビット数: 3 bit = 8 level 8 bit = 256 level
量子化(続き) 2-Dデジタル画像の場合 1 2 3 5 色は数値として表される (行列形式) 量子化ビット数によって色数が決まる
表現の色数 何色で十分か? 16.7 million colors 256 colors 16 colors 4 colors
フィルタ処理
フィルタ 人間の視覚やコンピュータビジョンための前処理 ノイズ除去 画像強調 特徴抽出 FILTER ?
空間フィルタ・周波数フィルタ 空間領域での処理 隣接ピクセルとの演算 周波数領域での処理 画像をフーリエ変換
ノイズ除去 ノイズ源 取得時に発生 圧縮や伝送時に発生
平均値フィルタ 隣接点の値を平均して置き換える 5 3 1 4 10 8 7 6 9 5 4 6 4 1 / 9 3 10 / 9 5 3 1 4 10 8 7 6 9 5 4 6 4 1 / 9 3 10 / 9 8 / 9 5 / 9 0 / 9 9 / 9 7 / 9 7 8 5 5 5 9 10 8 8 7 3 7 8 9 8 1 5 7 9 10 3 x 3 (5 x 5) (7 x 7)
平均値フィルタ(続き) 重み付け平均では 5 3 1 4 10 8 7 6 9 5 3 1 4 10 8 7 6 9 4 / 16 5 3 1 4 10 8 7 6 9 5 3 1 4 10 8 7 6 9 4 / 16 2 / 16 1 / 16 40 / 16 16 / 16 5 / 16 0 / 16 18 / 16 7 / 16 8 6
平均値フィルタ(続き) 例1 ガウスノイズの場合 ノイズ画像 (5% Gaussian) 平均値 重み付け平均値
平均値フィルタ(続き) 例2 ショットノイズの場合 ノイズ画像 (Random binary) 平均値 重み付け平均値
非線形フィルタ 最大値フィルタ 最小値フィルタ メディアン(中央値)フィルタ ウィンドウ内の最大値で置き換える ウィンドウ内の最小値で置き換える メディアン(中央値)フィルタ
メディアンフィルタ ウィンドウ内の中央値で置き換える 10 9 8 7 5 5 3 1 4 10 8 7 6 9 5 3 1 4 10 8 5 3 1 4 10 8 7 6 9 5 3 1 4 10 8 7 6 9 10 9 8 7 5 ソート 中央値 8 8
メディアンフィルタ(続き) 例 3 x 3 フィルタ ガウスノイズ ショットノイズ
エッジ
エッジ 画像中の明るさ(数値)が急激に変化する部分 近傍ピクセルとの微分処理 (離散的には差分式) 物体認識などでは重要な特徴となる 微分処理であるためノイズに弱い
エッジの種類 ステップエッジ ルーフエッジ ピークエッジ Intensity x Intensity x Intensity x
1-D エッジの微分 1回微分と2回微分 元信号 1回微分 2回微分 Fig. from Digital Image Processing (Springer)
Gradient-base 1回微分のオペレータ 離散的な差分式では 2 x 2 サイズ 3 x 3 サイズ エッジの強さと方向が得られる
Gradient-base (続き) オペレータの種類 Roberts Prewitt Sobel
Gradient-base (続き) 例 Prewittオペレータ Dx Dy
Laplacian operator 2回微分のオペレータ 4 direction 8 direction エッジの強さが得られる
Laplacian operator (続き) 4 direction 8 direction
Laplacian Of Gaussian 微分演算はノイズに対して弱い Gauss関数でぼかして(ノイズ除去)してからLaplacianオペレータ Laplacian of Gaussian
Laplacian Of Gaussian (続き) 例 LOGオペレータ
カメラモデル 数学的にモデル化 三次元世界の点Mから画像上の点mをどのように対応付けるか X m 焦点距離:f y 画像中心:c Z Y x M 画像座標系 カメラ座標系 三次元世界の点Mから画像上の点mをどのように対応付けるか
中心射影 ピンホールカメラモデル レンズ系を針の穴(pinhole)とみなす X m 焦点距離:f y 画像中心:c レンズ中心:C Z Y (X,Y,Z):三次元空間の座標 (x,y):射影された画像上の座標 s:スカラー M 画像座標系 カメラ座標系
中心射影(続き) 座標系の位置を入れ替えると よく使われているモデルであるが,非線形変換である X x f Z C c m y Y M カメラ座標系 画像座標系 よく使われているモデルであるが,非線形変換である
正射影(平行射影) 射影の近似(線形化) カメラ↔物体間の距離に無関係 X x Z C c y Y m (X,Y,Z):三次元空間の座標 カメラ座標系 画像座標系
線画解析
線画抽出抽出 原画像 微分画像 線画画像
線画から奥行き情報 2次元の線画が与えられ 元の3次元物形状を推定 なぜひし形にみえずますにみえるのか? コンピュータが同じように解釈するようにできないか?
稜線のタイプ 凸稜線:+ 凹稜線:- 輪郭線:矢印の方向に進むと右側に物体,左側が背景
線画のラベル付け 3D形状を知っていればラベル付けは容易 逆操作は可能か?
可能なラベル数(拘束なし) →3Dの知識による拘束の必要性 9 本の線よりなる 各4 ラベルの可能性 →4x4x4x4x4x4x4x4x4=250,000の可能性 しかし! 現実は1通りしかない 250,000の可能性を減少させる必要あり! →3Dの知識による拘束の必要性
ハフマン・クロー頂点辞書 他の可能性なし 208の可能性が12個に限定 L型 - 6個 ARROW型 - 3個 FORK型 - 3個
ラベル付けへの拘束 拘束なし --250,000の可能性 拘束あり 3ARROW - 3x3x3 3L - 6x6x6 1FORK - 3 拘束なし --250,000の可能性 拘束あり 3ARROW - 3x3x3 3L - 6x6x6 1FORK - 3 →3x3x3x6x6x6x3=17,496の可能性
拘束伝播 線の両端での整合性 -> さらなる拘束
線画解釈の問題点 あいまい性の存在 完全な線画抽出が前提 -> 不可能 定性表現にしかすぎない
欠点1: ラベル付け不可能
ラベル付け可能な不可能物体 ラベル付けができても,その立体が実現するわけではない
欠点3: 定性表現 ラベルが同じで合っても一意には決まらない
まとめ 2次元画像処理 デジタル化 フィルター処理 エッジ抽出 コンピュータビジョン 3次元情報の縮退 拘束の導出 線画解釈