参考書 佐藤 淳: 「コンピュータビジョン -視覚の幾何学-」 コロナ社 視覚の幾何学1 呉海元@和歌山大学 2007年6月11日 参考書 佐藤 淳: 「コンピュータビジョン -視覚の幾何学-」 コロナ社
実際のカメラ ★イメージセンサに受光部と信号処理部を含まれる ●実際に使用するテレビカメラは対象物からの光を受ける受光部(撮像素子)と、受光により発生する微弱な電気信号を処理する信号処理部からなっている ★イメージセンサに受光部と信号処理部を含まれる ●受光部の前にはレンズが置かれ、光はこのレンズによって集光され、絞りを通して撮像素子(イメージセンサ)に至る ●レンズ系と撮像素子によって、3D空間から2D画像への投影
●実際のカメラではレンズ収差や歪みが生じるため、複数のレンズを組み合わせて、レンズ収差や歪みなどを取り除く
レンズのひずみ(Lens Distortions) (x, y) (xd, yd) k1 , k2 In some real applications, such as accurate 3D measurement and really distorted lens (wide angle lens for example), you really need to consider to remove the distortion. For the purpose of showing you the principle of 3D geometry and calibration let’s forget about the radial distortion for the moment.
ズームレンズの内部構造 ・レンズの配置を変わると 焦点距離を変わる
Single view geometry Camera model Single view geom.
カメラモデル(Camera model) 画像内の一点と3次元空間中の光線の関係 投影・射影関係によって決定 ? ⇒ この関係を記述するモデルが複数ある ?
投影( Projections ) 投影:m次元からn次元への変換 (m>n) CV: 3D to 2D 投影中心 投影面 投影面 平行投影・正射影 透視投影
理想的なカメラ ●3次元空間のある点から発せられた光はレンズによって一点に集光される ●光がレンズに入射する角度に応じて集光される位置が変わる ●どのような角度で入射した平行な光もすべてある一つの平面上に集光される ☆この平面上に撮像素子を置いておけば,ピントの合った画像が得られる
ピンホール・カメラ(pinhole camera) ●CVの場合には必ずしも実際のカメラの物理的な投影をそのまま考える必要はない ●カメラの幾何学的な性質のみを考えるなら、レンズの中心の一点のみに注目し、撮像素子に至る光は全てこの一点を通過してくるものと考える方が扱いやすい ●このようなカメラをピンホール・カメラと呼ぶ Image plane Pinhole Object
ピンホール・カメラ o f ●撮像素子が置かれる面を画像面I (image plane) Pinhole Object f o 像が上下逆転 ●撮像素子が置かれる面を画像面I (image plane) ●全ての光が通過する点(pinhole)を光学中心o(optical center) ●光学中心と画像面の間の距離を焦点距離f (focal length) 特徴: ●ピント合わせの必要がない ●投影の幾何学的な性質がそのまま保存されている ●視覚の幾何を考えるうえで理想的な性質を持つ
ピンホール・カメラ ●仮想的に画像面(Virtual image plane)を光学中心の前(対象物側)に置くと、像が上下逆転せずに投影される ⇒ 投影がより扱いやすくなる ●普通、画像面を対象物側に置いて考える もちろん、光学中心の後ろのまま考える場合もある Image plane Pinhole Object Virtual image plane 画像面の場所によって、 数式の±記号の差がある
Pinhole camera image Amsterdam: what do you see in this picture? straight line size parallelism/angle shape shape of planes depth We may see Objects : river, river bank, cars parking on the bank, buildings, tree in front of the buildings, bridge, sky. Can figure out relative distances – SO WHAT? Do we see the 3D structure with just one images? Let’s first have a look at what geometric properties are preserved in the 2D perspective image. Photo by Robert Kosara, robert@kosara.net http://www.kosara.net/gallery/pinholeamsterdam/pic01.html
Pinhole camera image straight line size parallelism/angle shape Amsterdam straight line size parallelism/angle shape shape of planes depth Straightness is preserved Proof. x= fX/Z, y=fY/Z: a 3D line in space projects to a 2D line in the image Photo by Robert Kosara, robert@kosara.net http://www.kosara.net/gallery/pinholeamsterdam/pic01.html
Pinhole camera image straight line size parallelism/angle shape Amsterdam straight line size parallelism/angle shape shape of planes depth Size is inversely proportional to the depth (distance) Z Photo by Robert Kosara, robert@kosara.net http://www.kosara.net/gallery/pinholeamsterdam/pic01.html
Pinhole camera image straight line size parallelism/angle shape Amsterdam straight line size parallelism/angle shape shape of planes depth In general, the angles and parallelism are not preserved. For example, the right angles of the rectangular building change: Acute angles (smaller than 90) in the nearer end and abtuse angles (greater than 90) in the farther end…. Photo by Robert Kosara, robert@kosara.net http://www.kosara.net/gallery/pinholeamsterdam/pic01.html
Pinhole camera image straight line size parallelism/angle shape Amsterdam straight line size parallelism/angle shape shape of planes depth The projections of parallel lines converge to a point. --- vanishing point So the shapes usually change How about planes parallel to the image plane… we may not be able to find such a plane in this image, but… Photo by Robert Kosara, robert@kosara.net http://www.kosara.net/gallery/pinholeamsterdam/pic01.html
Pinhole camera image straight line size parallelism/angle shape Amsterdam straight line size parallelism/angle shape shape of planes parallel to image depth The façade of building in the far end approximately is parallel to the image plane so the shape is preserved Photo by Robert Kosara, robert@kosara.net http://www.kosara.net/gallery/pinholeamsterdam/pic01.html
Pinhole camera image straight line size parallelism/angle shape Amsterdam: what do you see? straight line size parallelism/angle shape shape of planes parallel to image Depth ? stereo motion structure … SO why can we see 3D structure from a single image? We do not see individual pixels, but rather spatial shapes We use knowledge of the objects (RECTANGULAR building, similar size of the cars), river and bank in a plane – perceptual organization (up-down vision) Perspective distortion actually tells us some 3D information: Using the projections of parallel lines in the façade of the building, we can estimate the orientation of the building therefore 3D structure Order of the object, Occlusion, BUT it is extremely hard for a computer to use high level knowledge . Up-down paradigm seems to be the privilege of human visual perception. The state-of-the-art of the computer vision mainly use bottom-up approach. SO Stereo Motion The idea is to recover 3D of each small local pieces (point, line, patch), and then group and segment the 3D point cloud into meaningful objects so that the computer may recognize the objects in images Intermediate results for image and video representations, coding and compression, interactive 3D presentation and event detection image mosaics for entertainment, interface, virtual reality, and monitoring Layered representation (MPEG4) 3D video Motion Detection (of human, cars) for surveillance, traffic monitoring, Human Vision: You can see it but you don't know how you see it. - We see spatial shapes rather than individual pixels - Knowledge: top-down vision belongs to human - Stereo & Motion most successful in 3D CV & application - You can see it but you don't know how…
透視投影 (Perspective Projection) Image plane Pinhole Object Virtual image plane x’ y’ x z y O 簡略されたモデル:
透視投影 (Perspective Projection) 点⇒点 線⇒線 面⇒面 ポリゴン⇒ポリゴン 遠い物体が小さい 奥行き情報が得られない Horizon 消失点
透視投影モデル 仮定: 1.原点をレンズの中心に 2.Z軸と光軸と同じ ●透視投影はZに関し非線形である (x,y,z)から(x’,y’,z’)へ投影: (相似三角関係より) (x’, y’, z’) x z y x’ y’ (x, y, z) z z’ x’ O x 仮定: 1.原点をレンズの中心に 2.Z軸と光軸と同じ (f = Z’) ●透視投影はZに関し非線形である ★幾何関係だけ考える理論系の人はよくf = Z’ =1とする
同次座標系 Homogenous Coordinates
カメラのパラメータ Camera Parameters 画像座標系Image coordinates (ximage, yimage) 画像中心Image center (ox, oy) カメラ座標系Camera coordinates (xcamera, ycamera) ワールド座標系Real world coordinates (X, Y, Z) 焦点距離Focal length f 画素の有効サイズEffective size of pixel in millimeter (kx, ky)
カメラのパラメータ
カメラの内部パラメータ xim yim Pixel (xim,yim) Y Z X x y O p (x,y,f) ox oy (0,0) Size: (Sx,Sy) fx fy ox oy 内部パラメータ(Intrinsic Camera Parameters)はワールド座標系内のカメラの位置と姿勢と依存しない
カメラの内部パラメータII レンズのひずみLens Distortions k1 , k2 (x, y) (xd, yd) k1 , k2 レンズのひずみLens Distortions In some real applications, such as accurate 3D measurement and really distorted lens (wide angle lens for example), you really need to consider to remove the distortion. For the purpose of showing you the principle of 3D geometry and calibration let’s forget about the radial distortion for the moment. Modeled as simple radial distortions r2 = xd2+yd2 (xd , yd) distorted points k1 , k2: distortion coefficients A model with k2 =0 is still accurate for a CCD sensor of 500x500 with ~5 pixels distortion on the outer boundary
カメラの外部パラメータ Extrinsic Camera Parameters 外部パラメータはワールド座標系内のカメラの位置と姿勢によって決定される 平行移動Translation (3x1ベクトル) 回転Rotation (3x3行列) Zw Xw Yw Y X Z x y O Pw P p xim yim (xim,yim) R t O
平行移動(Translation) (tx, ty, tz) Translation vector
平行移動(Translation) Inverse translation
回転(Rotation) Y Z X (X,Y,Z) ) (X’,Y’,Z’) Z-軸周り
回転(Rotation) X-軸周り Y-軸周り Z-軸周り 回転なし
回転(Rotation) Inverse rotation 回転行列は直交行列!!
回転行列とEuler角 , , はX, Y, Z軸周りの回転角 注意: 一回一つの角度しか回転できない 順番と関係がある Rotation Matrix Orthogonal R3 = R1 X R2 R1’, R2’ and R3’ are the three camera axes (X, Y, Z) in the world coordinate system Zw Xw Yw Y X Z O a b g If angle is small, then cos =1 and sin = また * + =
カメラのパラメータ ワールド座標系とカメラ座標系の下 tx, ty, tz と r1,1…r3,3 はカメラ外部パラメータ
カメラのパラメータ ワールド座標系と画像座標系の下で
透視投影モデル (x,y,z)から(x’,y’,z’)へ投影: (相似三角関係より) 仮定: 原点をレンズの中心に Z軸と光軸と同じ O x 仮定: 原点をレンズの中心に Z軸と光軸と同じ (f = Z’) ●透視投影はZに関し非線形である ★幾何関係だけ考える理論系の人はよくf=1とする
ピンホールカメラモデル
正射影 (orthographic projection) ●正射影画像面に垂直な軸に沿って投影するもの ●Z軸方向の情報が失われ, X軸とY軸方向の座標はそのまま保存される ●正射影はZに関し線形であり数学 的にははるかに扱いやすい ●正射影は実際のカメラによる投影 とは掛け離れたものであり,この投影 モデルがCVの分野に応用できる場 合は稀である
正射影モデル Projection from (x,y,z) to (x’,y’,z’): or (x’, y’, z’) y
弱透視投影(weak perspective projection) ●透視投影は現実のカメラによる投影にきわめて近いが、非線形であり数学的には扱いにくい ●正射影は線形であるが、実際のカメラによる投影とは程遠い ●弱透視投影はこれら二の投影の中間的なものであり、正射影と透視投影を組み合わせた投影である
弱透視投影 Step 1) 対象物を画像面pに平行な平面Pに正射影 この投影は正射影 ⇒ 線形 この投影は正射影 ⇒ 線形 Step 2) その投影像をさらに画像面pへ透視投影 この投影は平面Pから平行な平面pへの投影 ⇒ 均一に拡大或は縮小を行っている ⇒ 線形 ★弱透視投影は線形
弱透視投影の式(Step 1) ●対象物を画像面pに平行な平面Pに正射影することは、対象物上の各点のX座標とY座標を保存したままZ座標のみ一定の値 即ち、平面PのZ座標であるZ°に変更することに等しい ●この投影は次のように表せる : X’=X Y’=Y Z' =Z°
弱透視投影の式(Step 2) ●正射影されたものをさらに透視投影される ⇒ 弱透視投影は次のように表せる x = X’/Z’ = X/Z° ⇒ 弱透視投影は次のように表せる x = X’/Z’ = X/Z° y = Y’/Z’ = Y/Z° Z°は定数 ●これらの式はXとYに関して線形である ⇒ 投影が線形化された
弱透視投影が成り立つ条件 ●弱透視投影は透視投影の近似である ●この近似の有効範囲は限られている ●弱透視投影では対象物上の各点までの距離Zが一定値Z°で近似できることを前提としている ●対象物のZ軸方向の厚みDがカメラから対象物までの距離Zと比較して十分小さければよい ●D:Zが1:10以上であればこの近似が有効であると考えてよい
1.ピンホールカメラ(透視投影モデル)の原理図を描き、撮影された画像の特徴について述べなさい 出席チェック 1.ピンホールカメラ(透視投影モデル)の原理図を描き、撮影された画像の特徴について述べなさい