カメラ撮影文字の 事例に基づく実時間認識 岩村雅一 辻 智彦 黄瀬浩一.

Slides:



Advertisements
Similar presentations
第 5 章 2 次元モデル Chapter 5 2-dimensional model. Contents 1.2 次元モデル 2-dimensional model 2. 弱形式 Weak form 3.FEM 近似 FEM approximation 4. まとめ Summary.
Advertisements

自動映像生成のための パーティクルフィルタによるボールの追 跡 2007 年 3 月 21 日 神戸大学大学院自然科学研究科 矢野 一樹.
Essay writing rules for Japanese!!. * First ・ There are two directions you can write. ・よこがき / 横書き (same as we write English) ・たてがき / 縦書き (from right to.
VE 01 え form What is え form? え? You can do that many things with え form?
SS2-15:A Study on Image Recognition and Understanding
HOG特徴に基づく 単眼画像からの人体3次元姿勢推定
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第四回 演習課題 画像中からの物体抽出処理(背景情報を手がかりとして) 芝浦工業大学 工学部 情報工学科 青木 義満 2006/05/15.
「わかりやすいパターン認識」 第1章:パターン認識とは
リアルタイム単語認識技術を利用した カメラベース情報取得システム
Pose Tracking from Natural Features on Mobile Phones
英語勉強会(詫間English) /26 三木裕太.
英語勉強会.
Chapter 11 Queues 行列.
2010年7月9日 統計数理研究所 オープンハウス 確率モデル推定パラメータ値を用いた市場木材価格の期間構造変化の探求 Searching for Structural Change in Market-Based Log Price with Regard to the Estimated Parameters.
2009年 3月 17日 法政大学 常盤祐司、児玉靖司、八名和夫、Ivan Ho、Billy Pham
The ball being captured inside the net
Super-Functionに基づく日英機械翻訳
What did you do, mate? Plain-Past
芦田尚美*,髙田雅美*,木目沢司†,城和貴* *奈良女子大学大学院 †国立国会図書館
Object Group ANalizer Graduate School of Information Science and Technology, Osaka University OGAN visualizes representative interactions between a pair.
画像特徴(点、直線、領域)の検出と識別-2 呉海元@和歌山大学 2007年5月14日
Noun の 間(に) + Adjective Verb てform + いる間(に) during/while.
D. M. Rust and B. J. LaBonte 2005, ApJ, 622, L 年6月6日 太陽雑誌会(速報)
SP0 check.
CV輪講 姿勢変化に対応したSoft Decision Featureと Online Real Boostingによる人物追跡
ランダムプロジェクションを用いた 音声特徴量変換
Tohoku University Kyo Tsukada
Estimating Position Information by Detecting Network-Connection
by Phil Sonn and John Kim
Histograms of Oriented Gradients(HOG)
Licensing information
The Sacred Deer of 奈良(なら)
ポスター作成について (テンプレートファイル利用について) Making Poster
“You Should Go To Kyoto”
If we have his tool ドラえもんの道具があったら.
Topics on Japan これらは、過去のインターンが作成したパワポの写真です。毎回、同じような題材が多いため、皆さんの出身地等、ここにない題材も取り上げるようにしてください。
P4-21 ネットワーク上の経路に対する 回帰問題について
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
ポスター作成について (テンプレートファイル利用について) Making Poster
第11回   ディジタル画像(2) ディジタル画像処理(2)
Songzhu Gao, Tetsuya Takiguchi, Yasuo Ariki (Kobe University) 
Where is Wumpus Propositional logic (cont…) Reasoning where is wumpus
豊田正史(Masashi Toyoda) 福地健太郎(Kentarou Fukuchi)
第12回   ディジタル画像(3) ディジタル画像処理(3)
岡山大学 工学部 情報工学科 (大学院自然科学研究科 計算機科学講座) 尺長 研究室
クイズやゲーム形式で紹介した実例です。いずれも過去のインターン作です。
半構造化テキストに対する 文字列照合アルゴリズム
2019年4月8日星期一 I. EPL 84, (2008) 2019年4月8日星期一.
著者:六川修一 著者:六川修一 原画像(左画像)は ©METI and JAXA[2007] Distributed by ERSDAC 著者:六川修一.
データ圧縮技術による文字列照合処理の高速化に関する研究
22 物理パラメータに陽に依存する補償器を用いた低剛性二慣性系の速度制御実験 高山誠 指導教員 小林泰秀
2019/4/22 Warm-up ※Warm-up 1~3には、小学校外国語活動「アルファベットを探そう」(H26年度、神埼小学校におけるSTの授業実践)で、5年生が撮影した写真を使用しています(授業者より使用許諾済)。
Number of random matrices
第1回レポートの課題 6月24日出題 今回の課題は1問のみ 第2回レポートと併せて本科目の単位を認定 第2回は7月に出題予定
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
北大MMCセミナー 第62回 附属社会創造数学センター主催 Date: 2016年11月4日(金) 16:30~18:00
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
Created by L. Whittingham
東北大 情報科学 田中和之,吉池紀子 山口大 工 庄野逸 理化学研究所 岡田真人
時間連続性を考慮した 動画からの人物の姿勢推定
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
音響伝達特性を用いたシングルチャネル音源方向推定
Apply sound transmission to soundproofing
自己縮小画像と混合ガウス分布モデルを用いた超解像
市松模様を使用した カメラキャリブレーション
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
ランダムプロジェクションを用いた音響モデルの線形変換
Improving Strategic Play in Shogi by Using Move Sequence Trees
自己ルーティングによるラベル識別 コリニア音響光学効果を用いたラベル識別 スケジューリング 経路制御 ラベル ラベル 識別 ラベル 処理
Presentation transcript:

カメラ撮影文字の 事例に基づく実時間認識 岩村雅一 辻 智彦 黄瀬浩一

カメラベース文字認識システム リアルタイムで動作 認識結果 関連情報 カメラ 文書 ノートPC “University” 翻訳 ・大学 画像 音声

♪ 応用例 歩 者 行 天 国 環境中の全ての文字を認識して、 必要な情報のみを提供することができる 視覚障害者への音声案内 翻訳システム 『押ボタン信号があります』 Car-free mall 歩 者 行 天 国 ♪ ♪ As possible applications of the system, there are a voice navigator for visually disabled people, translation service for foreign travelers who cannot understand the local language, and so on.

認識の流れ S c h o l ① 1文字ごとに文字認識 本発表 ② 文字を連結して単語を推定 昨日発表 ① どこにどんな文字があるか  辻 智彦, 岩村 雅一, 黄瀬 浩一:  “リアルタイム単語認識技術を利用した   カメラベース情報取得システム” (PRMU2009-216) ① 1文字ごとに文字認識 ② 文字を連結して単語を推定 本発表 昨日発表 ① どこにどんな文字があるか ② どんな単語があるか S c h o l “School”

従来手法の長所 (MIRU2009/CBDAR2009にて発表) 実時間処理 ノートPCで動作可能 射影歪みに頑健 斜め45度から認識可能 レイアウトフリー 方針:テンプレートマッチングによる カメラ撮影文字の認識

従来手法の短所: 多種のフォント登録による認識性能の低下 複数フォントを登録すると 認識率が急激に低下 従来手法 クラス認識率 (%) 目標:100フォントを登録可能に フォント数

目次 背景 従来手法 提案手法 実験 まとめ アフィン不変な図形の照合と高速化 分離文字の認識 姿勢推定 改良1: 距離計算の導入 改良2: 新たなクエリ特徴ベクトルの生成 改良3: 登録データの間引き 実験 まとめ

従来手法1: 前提条件(1) 切り出した後の文字の高速処理に特化 連結成分単位の認識 問題設定 後処理へ i S c h o l 文字は同一平面上に存在 文字は二値化で簡単に抽出可能 S c h o l In order to be free from layout constraints, our proposed method recognizes each connected component. In this research, recognition objects are defined as black texts on a flat white paper. And we assume that we can extract connected components with binarization. 切り出した後の文字の高速処理に特化 8

従来手法1: 前提条件(2) ― クラス単位の認識 文字認識部分 単語認識部分 a a i i p M d d M W e e 同一クラス

従来手法1: 前提条件(2) ― クラス単位の認識 同一クラスに統合された字種(自動的に生成) Arialの場合 0 O o 6 9 7 L C c E m I l N Z z S s V v W w b q d p n u

目次 背景 従来手法 提案手法 実験 まとめ アフィン不変な図形の照合と高速化 分離文字の認識 姿勢推定 改良1: 距離計算の導入 改良2: 新たなクエリ特徴ベクトルの生成 改良3: 登録データの間引き 実験 まとめ

A A 従来手法1-2: アフィン不変な認識 射影歪みに頑健な 認識の実現 特徴点数:P アフィン不変な認識 クエリ画像 テンプレート画像 同一の3点が選択できれば、照合可能 A 正規化 クエリ画像 For robustness to perspective distortion, our method does affine invariant matching. If corresponding 3 feature points are extracted, the captured image and the template image can be matched by normalization. There is a method to cope with the problem which is called geometric hashing, in short, we call GH. We apply GH to recognition of a connected component, and we call the method contour version of GH. The method is the base of our proposed method. A 正規化 テンプレート画像 特徴点数:P 12

従来手法1-2: 同一の3点を選択する方法(単純な場合) P 点から3点を選択する全ての組み合わせを試す 1st 2nd 3rd Database In this method, 3 points are selected randomly from P contour points. For matching the images, all arrangements have to be generated. The total number of the patterns is the order of P cubic. This is too large number to compute the feature vector in real-time. パターン数 P (P-1) (P-2) O(P3) × × = 13

O(P3) 1 P 1 O(P) 従来手法1-2: 従来手法が作る3点の配置 P=100 の場合 全組み合わせ 従来手法 970,200 従来手法1-2: 従来手法が作る3点の配置 登録したテンプレートと 対応しない組み合わせを計算しない P=100 の場合 全組み合わせ 従来手法 970,200 100 実時間認識を実現 1st Database 2nd 3rd In order to recognize a character in real-time, we reduce the 3-point arrangements without losing its recognition ability. The key idea of the reduction is to use an affine invariant in a different manner as usual. O(P3) パターン数 1 P 1 O(P) × × = 14

A 従来手法1-2: パターン数を削減する原理 = 通常の方法 S1 S’1 アフィン不変量 面積比 S1 S0 S’1 S’0 S0 3点の配置  面積比 A S1 S’1 アフィン不変量 面積比 We use an area ratio which is one of the affine invariants for the reduction. The usual process is that area ratios S0 and S1 are unchanged before and after affine transformation. = S1 S0 S’1 S’0 S0 S’0 15

A 従来手法1-2: パターン数を削減する原理 = 通常とは逆の方法 S1 S’1 アフィン不変量 面積比 S1 S0 S’1 S’0 S0 2点の配置 + 面積比  3点目の位置 A S1 S’1 アフィン不変量 面積比 The unusual process is that when two points and area ratio are given, the third point can be determined uniquely. = S1 S0 S’1 S’0 S0 S’0 16

従来手法1-2: 従来手法のパターンの生成方法 一意 1点目:図形の重心 (アフィン歪みに不変) 2点目:輪郭上の任意の点 3点目:面積比によって決定 一意 A 特徴点数:P Using such a method, we generate the 3-point arrangements as follows. The first point is determined from the centroid of the connected components instead of a contour point. In fact, the centroid is affine invariant. The second point is selected arbitrary from the feature points. At the selection of the third point the unusual process of the affine invariant is used. The third point is determined from a point which makes the largest triangle. 17

従来手法1-3: 特徴ベクトルを用いた図形の照合 従来手法1-3: 特徴ベクトルを用いた図形の照合 特徴ベクトルの計算 正規化 領域分割 黒画素の割合のヒストグラム作成 量子化 特徴ベクトル A 1 1 1 ... In order to match the images, a feature vector is computed. Firstly, 2 lines are drawn and the image is normalized so that 2 lines are perpendicular. And the image is divided into several equal parts. Then, ratios of black area in every subregions are computed. The value of the ratio is quantized. 18

従来手法1-4: ハッシュを用いた高速化 ― 登録 特徴ベクトルをハッシュテーブルに登録 A データベース 1 2 3 4 5 6 … Hash ID : 1 A Hash table In the storage phase, all the feature vectors are stored with classes and 3 points to a hash table. Hash ID : 5 A Hash ID : 2 19

従来手法1-4: ハッシュを用いた高速化 ― 認識(検索) 特徴ベクトルを作成 字種に投票 データベース 1 2 3 4 5 6 … Hash table ID : 1 ID : 5 ID : 2 In the retrieval phase, the feature vectors of captured images are computed. And the corresponding data to the feature vectors is retrieved from the hash table, and then casts a vote for corresponding classes. Result A A B ... R ... 20

目次 背景 従来手法 提案手法 実験 まとめ アフィン不変な図形の照合と高速化 分離文字の認識 姿勢推定 改良1: 距離計算の導入 改良2: 新たなクエリ特徴ベクトルの生成 改良3: 登録データの間引き 実験 まとめ

i j 従来手法2:分離文字の認識 5 25 40 相手の面積 相対位置 連結成分 字種 面積 面積: 5 面積: 40 分離文字テーブルを作成 相手の面積 相対位置 連結成分 字種 面積 j i 40 25 5 面積: 5 In order to recognize the separated characters, we prepare a table. In the storage phase, the data of the separated character such as area and position is stored to the table. And then, each connected component are stored to the hash table separately. チェック 面積: 40 22

目次 背景 従来手法 提案手法 実験 まとめ アフィン不変な図形の照合と高速化 分離文字の認識 姿勢推定 改良1: 距離計算の導入 改良2: 新たなクエリ特徴ベクトルの生成 改良3: 登録データの間引き 実験 まとめ

A 従来手法3: 姿勢推定(1) パラメータ 対応する3点からアフィン変換パラメータを推定 紙面の姿勢 文字の姿勢 アフィン変換 独立変倍 従来手法3: 姿勢推定(1) 紙面の姿勢 文字の姿勢 対応する3点からアフィン変換パラメータを推定 A アフィン変換 パラメータ We can estimate the pose of papers and pose of characters by calculating affine parameters from corresponding 3 points which are obtained at retrieval process. The parameter contains independent scaling, shear, rotate, and scaling. The pose of a paper is estimated from independent scaling and shear. And the pose of characters is estimated from rotate and scaling. 独立変倍 シアー 回転 拡大・縮小 24

従来手法3: 姿勢推定(2) 連結成分の対応関係から パラメータを推定 紙面の姿勢 文字の姿勢 最も密度の高い点を選択 従来手法3: 姿勢推定(2) 紙面の姿勢 文字の姿勢 最も密度の高い点を選択 最も密度の高い点を選択

目次 背景 従来手法 提案手法 実験 まとめ アフィン不変な図形の照合と高速化 分離文字の認識 姿勢推定 改良1: 距離計算の導入 改良2: 新たなクエリ特徴ベクトルの生成 改良3: 登録データの間引き 実験 まとめ

提案手法 特定物体認識の高速化に使用した アイディアを3つ流用 既発表の特定物体認識手法 データベースの大きさ:  データベースの大きさ:     100万画像( 26億ベクトル) 精度: 約90% 計算時間: 約60ms メモリ使用量: 33.6GB

目次 背景 従来手法 提案手法 実験 まとめ アフィン不変な図形の照合と高速化 分離文字の認識 姿勢推定 改良1: 距離計算の導入 改良2: 新たなクエリ特徴ベクトルの生成 改良3: 登録データの間引き 実験 まとめ

A … 提案手法: 改良1: 距離計算の導入(1) データベース Hash table A B ... R ... 特徴ベクトルを作成 字種に投票 データベース 1 2 3 4 5 6 … Hash table ID : 1 ID : 5 ID : 2 In the retrieval phase, the feature vectors of captured images are computed. And the corresponding data to the feature vectors is retrieved from the hash table, and then casts a vote for corresponding classes. Result A A B ... R ... 29

提案手法: 改良1: 距離計算の導入(2) クエリ データベース 小さい 距離計算 大きい

目次 背景 従来手法 提案手法 実験 まとめ アフィン不変な図形の照合と高速化 分離文字の認識 姿勢推定 改良1: 距離計算の導入 改良2: 新たなクエリ特徴ベクトルの生成 改良3: 登録データの間引き 実験 まとめ

提案手法: 改良2:新たなクエリ特徴ベクトルの生成 1, 1 0, ( ) 0, 1, 新たに 生成された 二値ベクトル 1, 1 0, ( ) 1, 1, 1 0, ( ) 0, 二値ベクトル 1, 1 0, ( ) 特徴ベクトル e 閾値 e 1 2 4 3 2個まで選択 1 2 3 4 5 6 7 8 9 10 11 12 次元

目次 背景 従来手法 提案手法 実験 まとめ アフィン不変な図形の照合と高速化 分離文字の認識 姿勢推定 改良1: 距離計算の導入 改良2: 新たなクエリ特徴ベクトルの生成 改良3: 登録データの間引き 実験 まとめ

A B A R O o … O o 提案手法: 改良3:登録データの間引き ハッシュの衝突が多いと処理時間を要する ハッシュを間引く 閾値 4 閾値 A B A R 5 O o … O o 6 7 ハッシュテーブル ハッシュのインデックス

目次 背景 従来手法 提案手法 実験 まとめ アフィン不変な図形の照合と高速化 分離文字の認識 姿勢推定 改良1: 距離計算の導入 改良2: 新たなクエリ特徴ベクトルの生成 改良3: 登録データの間引き 実験 まとめ

実験対象 英数字が書かれた文書を3方向から撮影 1枚あたり124文字 0度 30度 45度

実験条件 最大100フォント 登録フォント数を増やし,  クラス識別率を計算した データベース 認識 認識 従来手法と 提案手法を比較 文書

クラス認識率 従来手法 精度が20%向上 精度が8%向上 認識率 (%) 提案手法 フォント数

誤認識の例 連結成分取得の失敗 結合している

1文字あたりのクラス認識時間 従来手法 処理時間を 70%削減 処理時間 (ms) 提案手法 フォント数

クラス数 1フォントで 100フォントで 55クラス 1672クラス フォント数と共に増加 増加率は徐々に減少 10フォントで 397クラス

メモリ使用量 フォント数にほぼ比例 100フォントで約4GB メモリ使用量 (GB) フォント数

目次 背景 従来手法 提案手法 実験 まとめ アフィン不変な図形の照合と高速化 分離文字の認識 姿勢推定 改良1: 距離計算の導入 改良2: 新たなクエリ特徴ベクトルの生成 改良3: 登録データの間引き 実験 まとめ

まとめ 100フォントに対応したカメラベース文字認識シ ステムの実現 100フォントを登録したときの性能(正面から) 今後の課題 テンプレートマッチングによるカメラ撮影文字の認識 100フォントを登録したときの性能(正面から) クラス認識率:98.4% 計算時間:7.2ms / 1文字 今後の課題 メモリ使用量の削減 日本語への対応

カメラ撮影文字の 事例に基づく実時間認識 岩村雅一 辻 智彦 黄瀬浩一