リアルタイム単語認識技術を利用した カメラベース情報取得システム リアルタイム単語認識技術を利用した カメラベース情報取得システム 辻 智彦 岩村 雅一 黄瀬 浩一 大阪府立大学大学院工学研究科
発表の流れ 背景 文字認識手法の概要 単語認識の提案手法 実験 まとめ
インタラクティブデモ 16:15~(本発表のすぐあと) 提案システム リアルタイムで動作 認識結果 関連情報 カメラ “University” 翻訳 ・大学 画像 文書 ノートPC 音声 環境中文字列のリンクアンカー化 インタラクティブデモ 16:15~(本発表のすぐあと)
有望な応用例 単語の認識が必要 視覚障害者への音声案内 関連情報取得システム タンブラー 『押ボタン信号があります』 新デザイン発表!! 多フォント対応・レイアウトフリー
単語の認識 認識対象 平行な文字行 行を成さない 既存手法 (Myers 2004) 行ごとに認識 提案手法 1文字ごとに認識
問題設定 同一平面上の紙面 白紙に黒色の文字 連結成分を容易に切り出すことが出来る 単語間がスペースで区切られる 左から右に記される 文字行を成さない
認識の流れ S c h o l ① 1文字ごとに文字認識 概説 ② 文字を連結して単語を推定 本発表の主題 どこにどんな文字があるか 岩村 雅一, 辻 智彦, 黄瀬 浩一: “カメラ撮影文字の事例に基づく実時間認識” テーマセッション4 19日 11:45予定 ① 1文字ごとに文字認識 ② 文字を連結して単語を推定 概説 本発表の主題 どこにどんな文字があるか どんな単語があるか S c h o l “School”
発表の流れ 背景 文字認識手法の概要 単語認識の提案手法 実験 まとめ
文字認識の特徴 実時間処理が可能 射影歪みに頑健 レイアウトフリー 多種フォント登録可能
Z N A O z o クラスレベルの識別 互いにアフィン変換の関係にある文字群は 識別できない 1つのクラスに統合 類似 認識結果 識別できない 1つのクラスに統合 認識結果 キャプチャ画像 クラス1 クラス3 クラス2 Z N A O z 類似 o データベース
A 姿勢推定 認識時にアフィン変換パラメータが計算可能 パラメータ 紙面の姿勢 文字の姿勢 アフィン変換 歪みを取り除く 独立変倍 シアー キャプチャ画像 テンプレート画像 アフィン変換 歪みを取り除く パラメータ 紙面の姿勢 文字の姿勢 独立変倍 シアー 回転 拡大・縮小 単語推定で利用
発表の流れ 背景 文字認識手法の概要 単語認識の提案手法 実験 まとめ
単語領域の推定 画像をぼかして隣接文字を結合させる ぼかし画像の連結成分を単語領域とする 文字間距離・連結成分面積によって 逐次的にぼかし強度を決定 単語領域2 単語領域1
構成する文字の決定 ⑤ ④ ③ ② ① 単語領域内に含まれる文字を調べる d or p ? M or W ? クラスレベルの 識別結果 M or W ? 単語領域2 ① ② ③ ④ ⑤ 単語領域1 各文字の字種は一意に決定していない
文字の並び順の推定 仮定 読む方向が急激に変化したり 文字を飛ばして読んだりするデザインは存在しない ⑤ ④ ③ ② ① これを“①②⑤④③”の 順で読むワケがない!! ⑤ ④ ③ ② ①
“Media” か “Media” か分からない 文字の並び順の推定 全ての文字を最短で通る経路を求める 長 短 ⑤ ⑤ ④ ④ ③ ③ ② ② ① ① 最短は“①②③④⑤” および“⑤④③②①” “Media” か “Media” か分からない Media
M d e i a W p 単語候補の生成 Media Wepia aideM ① ② ③ ④ ⑤ 各文字のクラスが属する 字種を組み合わせる 文字番号 ① ② ③ ④ ⑤ M d e i a W 単語候補の中から 尤もらしい単語を推定する p … etc. 単語候補 Media Wepia aideM
文字の向きを利用した単語推定 文字の向きに関する ペナルティを設ける “Wepia” の場合 “aideM” の場合 左向きには読まないと 言ってたのに!! 一部だけ180度回転 しているのはオカシイ!! 文字の向きに関する ペナルティを設ける
ペナルティの計算① 小 大 文字の向きに関するペナルティ 「急激に変化しない」という仮定を利用 ペナルティ① “Media” “Wepia” 隣接文字間の 角度差 小 大
ペナルティの計算② 小 大 単語の読む方向に関するペナルティ 「右向きに読む」という仮定を利用 ペナルティ② “Media” “aideM” 上 ペナルティ② 右 上 右 仮定した上方向と 文字の上方向との 角度差 小 大
単語の推定 “Media” “aideM” “aideW” “Wedia” “Mepia” “aipeM” “aipeW” “Wepia” 候補をペナルティの昇順にソート “Media” “aideM” “aideW” “Wedia” “Mepia” “aipeM” “aipeW” “Wepia” 17 185 359 361 365 533 707 709 高 尤度 低
発表の流れ 背景 文字認識手法の概要 単語認識の提案手法 実験 まとめ
実験対象 英字が書かれた文書を3方向から撮影 144文字 30単語 0度 30度 45度
実験条件 登録フォント数を増やし, 認識性能を評価 最大10フォント データベース 使用した計算機 CPU Opteron 2.8GHz 認識性能を評価 データベース 使用した計算機 CPU Opteron 2.8GHz メモリ 16GB 認識 認識 文書
実験条件 “Media” “aideM” “aideW” “Wedia” “Mepia” … 17 185 359 361 365 … 単語認識率 小 “Media” “aideM” “aideW” “Wedia” “Mepia” … 17 185 359 361 365 … 上位1単語または 上位10単語の中に 正解の単語が 含まれるかどうか ペナルティ 大
単語認識率 上位10単語 上位1単語 認識率 (%) フォント数
単語認識の失敗例 クラスレベルでの認識失敗 ⇒後で検証 単語領域取得の失敗 分離している
1単語あたりの単語認識時間 処理時間 (ms) 1クラス内の 字種増加 フォント数
同一クラスに統合された字種 0 O o 6 9 7 L C c E m I l N Z z S s V v W w b q d p n u Arialの場合 0 O o 6 9 7 L C c E m I l N Z z S s V v W w b q d p n u
検証 - 1文字あたりのクラス識別率 認識率 (%) フォント数
文字認識の失敗例 誤認識 連結成分取得の失敗 結合している
実用性に関する性能評価 メモリ削減が課題 1秒あたり42単語の認識が可能 10フォント登録,正面から撮影の場合 単語認識率(上位10個を見た場合) 92.3% 1文字あたりの文字認識時間 3.44ms 1単語あたりの単語認識時間 6.14ms 100フォントの場合 約4GB (実測値) メモリ使用量 397MB メモリ削減が課題 6.14ms 3.44ms × 5 1秒あたり42単語の認識が可能
発表の流れ 背景 文字認識手法の概要 単語認識の提案手法 実験 まとめ
まとめ 提案手法 リンクアンカー化システムに有効な単語認識 今後の課題 文字領域・単語領域の抽出法の改良 メモリ削減 文字の向きを用いた単語認識 今後の課題 文字領域・単語領域の抽出法の改良 メモリ削減
リアルタイム単語認識技術を利用した カメラベース情報取得システム リアルタイム単語認識技術を利用した カメラベース情報取得システム 辻 智彦 岩村 雅一 黄瀬 浩一 大阪府立大学大学院工学研究科