コンピュータビジョン 第1回.

Slides:



Advertisements
Similar presentations
知能情報工学 年4月26日 吉川雅博 第3回第3回 k最近傍法. プロトタイプによるNN法の流れ 2 AD変換前処理部特徴抽出部識別部 ・標本化 ・量子化 ・ノイズ除去 ・正規化 識別辞書 (プロトタイプ) 音声や画像 (アナログ信号) 識別 結果 識別が容易な 特徴を抽出 プロトタイプと比較.
Advertisements

自動映像生成のための パーティクルフィルタによるボールの追 跡 2007 年 3 月 21 日 神戸大学大学院自然科学研究科 矢野 一樹.
Determining Optical Flow. はじめに オプティカルフローとは画像内の明る さのパターンの動きの見かけの速さの 分布 オプティカルフローは物体の動きの よって変化するため、オプティカルフ ローより速度に関する情報を得ること ができる.
コンピュータビジョン特論 OpenCVについて
コンピュータビジョン特論 第8回対象追跡 2006年11月22日 加藤丈和.
中間まとめ.
HOG特徴に基づく 単眼画像からの人体3次元姿勢推定
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第四回 演習課題 画像中からの物体抽出処理(背景情報を手がかりとして) 芝浦工業大学 工学部 情報工学科 青木 義満 2006/05/15.
パノラマ動画像モデルによる 仮想空間表現システムの研究
ロボットビジョン(ロボットの視覚能力)のための デジタル画像処理
画像処理工学 2012年2月2日 担当教員 北川 輝彦.
第1章 第1節 情報のディジタル化のしくみ 4 音の表現 5 画像の表現
画像処理論.
ウェーブレットによる 信号処理と画像処理 宮崎大輔 2004年11月24日(水) PBVセミナー.
アナログとディジタル 五感 視覚、聴覚、味覚、臭覚、触覚 埼玉県立越ヶ谷高等学校・情報科.
画像処理工学 2011年10月27日 担当教員 北川 輝彦.
平成23年8月 情報学群 岡田 守 このスライドは, 前川佳徳編著による「コンピュータグラフィックス」(オーム社)を基に作成されている.
コンピュータビジョン特論 Advanced Computer Vision
エッジの検出 画像中に表示された物理の輪郭(エッジ(edge))や線では、一般的に濃淡が急激に変化しており、これらは画像中のなんらかの構造を反映していることが多い このようなエッジや線の検出処理は、画像理解や認識のための前処理として重要である   差分型によるエッジ検出   零交差法によるエッジ検出.
Nonrigid Structure from Motion in Trajectory Space
東京工業大学 機械制御システム専攻 山北 昌毅
画像特徴(点、直線、領域)の検出と識別-2 呉海元@和歌山大学 2007年5月14日
クラスター変分法と確率的情報処理 --Belief Propagation と画像処理アルゴリズム--
多重フォーカスカメラと符号化開口を用いた実時間距離画像計測
首都大学東京 都市教養学部数理科学コース 関谷博之
画像工学 2011年10月6日 担当教員 北川 輝彦.
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第三回 演習課題 画像中からの物体抽出処理(色情報を手がかりとして) 芝浦工業大学 工学部 情報工学科 青木 義満 2006/05/08.
情 報 A ー ディジタル化のしくみ ー.
表紙 MATLAB 応用講習会(A) 情報アシスタント M1 山本幸司.
画像のディジタル化 1 A/D変換器 光強度のアナログ情報をディジタル信号に変換する 標本化:sampling
線画解析 第3回.
線形フィルタと畳み込み積分 マスクによる画像のフィルタリング 1.入力画像中の関心の画素のまわりの画素値
画像工学 2012年10月3日 担当教員 北川 輝彦.
コンピュータビジョン特論 Advanced Computer Vision
画像処理 基礎.
エッジの検出 画像中に表示された物理の輪郭(エッジ(edge))や線では、一般的に濃淡が急激に変化しており、これらは画像中のなんらかの構造を反映していることが多い このようなエッジや線の検出処理は、画像理解や認識のための前処理として重要である   差分型によるエッジ検出   零交差法によるエッジ検出.
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
第2回 両眼立体視と明るさ解析.
P4 通信システム P4.1 ディジタルフィルタの設計とその応用 P4.2 伝送線路のFDTD解析 P4.2 H4.1 P4.1 H4.1
第4回 信号表現とエリアシング.
第11回   ディジタル画像(2) ディジタル画像処理(2)
2008年度 情報数理 ~ 様々なデジタル情報 ~.
情報数理 ~様々なデジタル情報~ 2007年度 担当教員:幸山直人.
画像処理工学 2013年1月23日 担当教員 北川 輝彦.
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第二回 演習課題
高度情報演習1C 実践 画像処理プログラミング 第二回 演習課題
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
第12回   ディジタル画像(3) ディジタル画像処理(3)
東京農業大学 東京情報大学 附属第一高等学校・中等部 附属第二高等学校 附属第三高等学校・中等部
QRコードを用いたIDカードに 適した電子透かし
-画像処理(空間フィルタリング)- 画像処理(空間フィルタリング)のモデルとその基本操作 雑音除去・平滑化への適用
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
2012年度 情報数理 ~ 様々なデジタル情報(1) ~.
文化財のデジタル保存のための 偏光を用いた透明物体形状計測手法
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
Wavelet係数の局所テクスチャ特徴量を用いたGraph Cutsによる画像セグメンテーション
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
2010年度 情報数理 ~ 様々なデジタル情報(1) ~.
適応信号処理とその応用 大阪府立大学大学院工学研究科 電気・情報系専攻 大松 繁.
アナログとデジタル.
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
画像処理工学 2011年12月1日 担当教員 北川 輝彦.
第9章 学習アルゴリズムとベイズ決定側 〔3〕最小2乗法とベイズ決定側 発表:2003年7月4日 時田 陽一
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
P4 通信システム P4.1 ディジタルフィルタの設計とその応用 P4.2 伝送線路のFDTD解析 P4.2 H4.1 P4.1 H4.1
ポッツスピン型隠れ変数による画像領域分割
ソースフィルタモデル.
AAMと回帰分析による視線、顔方向同時推定
市松模様を使用した カメラキャリブレーション
2019年度 情報数理特論B ~ 様々なデジタル情報(1) ~.
Presentation transcript:

コンピュータビジョン 第1回

自己紹介 CMU MIT 東大 生研 1980 1983 1996 1986 1982 1978 高度交通システム 車両・事象認識 仮想現実感 モデルの自動生成 仮想現実感 ロボティクス 人まねロボット 電総研 MIT 明るさ解析 コンピュタビジョン 東大院 情報工

所属 大学院 研究所 情報学環・学際情報学府 情報理工学系研究科・コンピュータ科学専攻 情報理工学系研究科・電子情報学専攻 生産技術研究所 国際産学共同センター 空間情報科学研究センター 国立情報学研究所

コースについて 講師:池内克史 評価 研究室: 生産技術研究所 E405 目黒区駒場 4-6-1 ki@iis.u-tokyo.ac.jp 目黒区駒場 4-6-1 ki@iis.u-tokyo.ac.jp 評価 出席    50% レポート 50%

内容 2次元画像処理 3次元再構成法 線画解釈 明るさ解析 両眼立体視 3次元解析法 情報統合法 表現法

本年度の予定 6月1日 入門+2D画像処理+線画解釈 6月8日 両眼立体視と明るさ解析 6月15日 距離データとバイヨンプロジェクト 6月8日 両眼立体視と明るさ解析 6月15日 距離データとバイヨンプロジェクト 6月22日 カラー解析とIBR 6月29日 物体表現 7月6日 人間行動観察学習ロボット 7月13日 4次元仮想化都市空間

コンピュータビジョン 人間の視覚機能の代替アルゴリズムを設計する分野 2次元画像(網膜画像)から3次元世界を再構成 最大の応用分野はロボットが行動するための目

2次元画像と3次元世界 カメラ画像は,三次元の座標系から二次元の画像座標系へ射影したもの 二次元画像 三次元世界

コンピュータビジョンパラダイム(Marr) 物体中心表現 3次元物体表現 各種3次元表現 観測者中心表現   2-1/2次元表現 統合処理 明るさ 両眼立体視 動き テクスチャ 線画 3D特徴抽出 (shape-from-x) 2次元画像

デジタル画像処理(2D)

デジタル画像とは アナログ情報 (フィルム,絵,実世界) デジタル画像 デジタルカメラ 携帯電話 PCデータ, IT デジタル放送 量子化&標本化

標本化 アナログデータを離散的に領域分割 アナログデータ (時間軸と数値は連続) サンプリングデータ (時間軸は離散的) サンプリング間隔

標本化(続き) 2-D デジタル画像の場合 サンプリング間隔によって画像解像度が決まる

ピクセル (Pixel) 2-Dデジタル画像の単位 空間分割 columns 1 N-1 n 1 rows m Digital image 1 N-1 n 1 rows m Digital image M x N pixels M-1

空間的標本化(解像度) 40 x 30 pixels 80 x 60 pixels 160 x 120 pixels 320 x 240

量子化 サンプリングされたデータの数値を離散的に分ける サンプリングデータ (時間軸は離散的) デジタルデータ (時間軸と数値の両方が離散的) 量子化ビット数: 3 bit = 8 level 8 bit = 256 level

量子化(続き) 2-Dデジタル画像の場合 1 2 3 5 色は数値として表される (行列形式) 量子化ビット数によって色数が決まる

表現の色数 何色で十分か? 16.7 million colors 256 colors 16 colors 4 colors

フィルタ処理

フィルタ 人間の視覚やコンピュータビジョンための前処理 ノイズ除去 画像強調 特徴抽出 FILTER ?

空間フィルタ・周波数フィルタ 空間領域での処理 隣接ピクセルとの演算 周波数領域での処理 画像をフーリエ変換

ノイズ除去 ノイズ源 取得時に発生 圧縮や伝送時に発生

平均値フィルタ 隣接点の値を平均して置き換える 5 3 1 4 10 8 7 6 9 5 4 6 4 1 / 9 3 10 / 9 5 3 1 4 10 8 7 6 9 5 4 6 4 1 / 9 3 10 / 9 8 / 9 5 / 9 0 / 9 9 / 9 7 / 9 7 8 5 5 5 9 10 8 8 7 3 7 8 9 8 1 5 7 9 10 3 x 3 (5 x 5) (7 x 7)

平均値フィルタ(続き) 重み付け平均では 5 3 1 4 10 8 7 6 9 5 3 1 4 10 8 7 6 9 4 / 16 5 3 1 4 10 8 7 6 9 5 3 1 4 10 8 7 6 9 4 / 16 2 / 16 1 / 16 40 / 16 16 / 16 5 / 16 0 / 16 18 / 16 7 / 16 8 6

平均値フィルタ(続き) 例1 ガウスノイズの場合 ノイズ画像 (5% Gaussian) 平均値 重み付け平均値

平均値フィルタ(続き) 例2 ショットノイズの場合 ノイズ画像 (Random binary) 平均値 重み付け平均値

非線形フィルタ 最大値フィルタ 最小値フィルタ メディアン(中央値)フィルタ ウィンドウ内の最大値で置き換える ウィンドウ内の最小値で置き換える メディアン(中央値)フィルタ

メディアンフィルタ ウィンドウ内の中央値で置き換える 10 9 8 7 5 5 3 1 4 10 8 7 6 9 5 3 1 4 10 8 5 3 1 4 10 8 7 6 9 5 3 1 4 10 8 7 6 9 10 9 8 7 5 ソート 中央値 8 8

メディアンフィルタ(続き) 例 3 x 3 フィルタ ガウスノイズ ショットノイズ

エッジ

エッジ 画像中の明るさ(数値)が急激に変化する部分 近傍ピクセルとの微分処理 (離散的には差分式) 物体認識などでは重要な特徴となる 微分処理であるためノイズに弱い

エッジの種類 ステップエッジ ルーフエッジ ピークエッジ Intensity x Intensity x Intensity x

1-D エッジの微分 1回微分と2回微分 元信号 1回微分 2回微分 Fig. from Digital Image Processing (Springer)

Gradient-base 1回微分のオペレータ 離散的な差分式では 2 x 2 サイズ 3 x 3 サイズ エッジの強さと方向が得られる

Gradient-base (続き) オペレータの種類 Roberts Prewitt Sobel

Gradient-base (続き) 例 Prewittオペレータ Dx Dy

Laplacian operator 2回微分のオペレータ 4 direction 8 direction エッジの強さが得られる

Laplacian operator (続き) 4 direction 8 direction

Laplacian Of Gaussian 微分演算はノイズに対して弱い Gauss関数でぼかして(ノイズ除去)してからLaplacianオペレータ Laplacian of Gaussian

Laplacian Of Gaussian (続き) 例 LOGオペレータ

カメラモデル 数学的にモデル化 三次元世界の点Mから画像上の点mをどのように対応付けるか X m 焦点距離:f y 画像中心:c Z Y x M 画像座標系 カメラ座標系 三次元世界の点Mから画像上の点mをどのように対応付けるか

中心射影 ピンホールカメラモデル レンズ系を針の穴(pinhole)とみなす X m 焦点距離:f y 画像中心:c レンズ中心:C Z Y (X,Y,Z):三次元空間の座標 (x,y):射影された画像上の座標 s:スカラー M 画像座標系 カメラ座標系

中心射影(続き) 座標系の位置を入れ替えると よく使われているモデルであるが,非線形変換である X x f Z C c m y Y M カメラ座標系 画像座標系 よく使われているモデルであるが,非線形変換である

正射影(平行射影) 射影の近似(線形化) カメラ↔物体間の距離に無関係 X x Z C c y Y m (X,Y,Z):三次元空間の座標 カメラ座標系 画像座標系

線画解析

線画抽出抽出 原画像 微分画像 線画画像

線画から奥行き情報 2次元の線画が与えられ 元の3次元物形状を推定 なぜひし形にみえずますにみえるのか? コンピュータが同じように解釈するようにできないか?

稜線のタイプ 凸稜線:+ 凹稜線:- 輪郭線:矢印の方向に進むと右側に物体,左側が背景

線画のラベル付け 3D形状を知っていればラベル付けは容易 逆操作は可能か?

可能なラベル数(拘束なし) →3Dの知識による拘束の必要性 9 本の線よりなる 各4 ラベルの可能性 →4x4x4x4x4x4x4x4x4=250,000の可能性 しかし!  現実は1通りしかない 250,000の可能性を減少させる必要あり! →3Dの知識による拘束の必要性

ハフマン・クロー頂点辞書 他の可能性なし 208の可能性が12個に限定 L型      - 6個 ARROW型 - 3個 FORK型   - 3個

ラベル付けへの拘束 拘束なし --250,000の可能性 拘束あり 3ARROW - 3x3x3 3L - 6x6x6 1FORK - 3 拘束なし --250,000の可能性 拘束あり    3ARROW - 3x3x3   3L - 6x6x6   1FORK - 3 →3x3x3x6x6x6x3=17,496の可能性

拘束伝播 線の両端での整合性         -> さらなる拘束

線画解釈の問題点 あいまい性の存在 完全な線画抽出が前提 -> 不可能 定性表現にしかすぎない

欠点1: ラベル付け不可能

ラベル付け可能な不可能物体 ラベル付けができても,その立体が実現するわけではない

欠点3: 定性表現 ラベルが同じで合っても一意には決まらない

まとめ 2次元画像処理 デジタル化 フィルター処理 エッジ抽出 コンピュータビジョン 3次元情報の縮退 拘束の導出 線画解釈