リアルタイム単語認識技術を利用した カメラベース情報取得システム

Slides:



Advertisements
Similar presentations
パノラマ合成 富山商船高等専門学校 情報工学科4 年 富田 大志 長岡技術科学大学オープンハウス テーマ:ロボット実践コース③-映像信号処 理- 研修期間 2009 年 8 月 17 日~ 21 日.
Advertisements

自動映像生成のための パーティクルフィルタによるボールの追 跡 2007 年 3 月 21 日 神戸大学大学院自然科学研究科 矢野 一樹.
音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
顔表情クラスタリングによる 映像コンテンツへのタギング
区間グラフにおける区間表現からMPQ-treeを効率よく構成するアルゴリズム
Building text features for object image classification
点対応の外れ値除去の最適化によるカメラの動的校正手法の精度向上
HOG特徴に基づく 単眼画像からの人体3次元姿勢推定
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第四回 演習課題 画像中からの物体抽出処理(背景情報を手がかりとして) 芝浦工業大学 工学部 情報工学科 青木 義満 2006/05/15.
「わかりやすいパターン認識」 第1章:パターン認識とは
Pose Tracking from Natural Features on Mobile Phones
XHTML構文検証手法における スクリプト要素の静的解析アルゴリズム
Intelligent Computing Systems Laboratory
画素密度検出エージェントを用いた文字列の検出と文字切り出し
芦田尚美*,髙田雅美*,木目沢司†,城和貴* *奈良女子大学大学院 †国立国会図書館
時空間データからのオブジェクトベース知識発見
雑音重み推定と音声 GMMを用いた雑音除去
顔表情認識のための顔特徴点抽出 徳島大学 大学院 工学研究科 長野 信男.
OpenCV を使った画像処理コンポーネントの作成例 田窪 朋仁(大阪大学)
CV輪講 姿勢変化に対応したSoft Decision Featureと Online Real Boostingによる人物追跡
ランダムプロジェクションを用いた 音声特徴量変換
固定カメラ映像からの音声情報を 用いた映像コンテンツ生成
画像情報を用いた交通流計測 情報工学科 藤吉研究室 EP02076 都築勇司
川口真司 松下誠 井上克郎 大阪大学大学院情報科学研究科
プログラム実行履歴を用いたトランザクションファンクション抽出手法
長岡技科大オープンハウス 岐阜高専4年電子制御工学科 森 永二郎.
カメラ撮影文字の 事例に基づく実時間認識 岩村雅一 辻 智彦 黄瀬浩一.
内視鏡画像からの奥行き情報提示による 視覚支援システムの開発
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
視点移動カメラにおけるカメラキャリブレーション
第11回   ディジタル画像(2) ディジタル画像処理(2)
グラフアルゴリズムの可視化 数理科学コース 福永研究室 高橋 優子 2018/12/29.
中京大学 情報理工学部 機械情報学科 H 野口裕司
高度情報演習1C 実践 画像処理プログラミング 第二回 演習課題
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
1-P-6 パラボラ反射板を用いたアクティブマイクロフォンによる方向推定
中京大学 工学部 電気電子工学科 白井研究室 4年 T 為房直人
岩村雅一 知能情報工学演習I 第13回(後半第7回) 岩村雅一
オープンソース開発支援のための ソースコード及びメールの履歴対応表示システム
オープンソース開発支援のための リビジョン情報と電子メールの検索システム
一方向画像からの 3Dモデル生成 電気電子工学科 白井研究室 T215049 田原 大輝.
物体検出による視覚補助システム T215085 若松大仁 白井研究室.
Fourier 変換 Mellin変換 演習課題
文化財のデジタル保存のための 偏光を用いた透明物体形状計測手法
各会話シーン毎に、発話(音源)方向を推定
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
ナイキストの安定判別に基づく熱音響システムの自励発振解析における発振余裕と 定常発振状態における圧力振幅の関係
HMM音声合成における 変分ベイズ法に基づく線形回帰
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
クラスタリングを用いた ベイズ学習モデルを動的に更新する ソフトウェア障害検知手法
音響伝達特性を用いたシングルチャネル音源方向推定
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
ビデオデータベースを用いた 流体画像に基づくアニメーション生成
ICML読む会資料 (鹿島担当) 教師ナシ の 構造→構造 マッピング 読んだ論文: Discriminative Unsupervised Learning of Structured Predictors Linli Xu (U. Waterloo) , … , Dale Schuurmans.
ソフトウェア理解支援を目的とした 辞書の作成法
Webページタイプによるクラスタ リングを用いた検索支援システム
プログラムの一時停止時に 将来の実行情報を提供するデバッガ
CSP係数の識別に基づく話者の 頭部方向の推定
MPIを用いた 並列処理 情報論理工学研究室 06‐1‐037‐0246 杉所 拓也.
市松模様を使用した カメラキャリブレーション
オブジェクト指向メトリクスを用いた 開発支援に関する研究 --- VC++とMFCを用いた開発を対象として ---
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
Fourier 変換 Mellin変換 演習課題
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
ネットワークを介した 計測制御システムの開発
Presentation transcript:

リアルタイム単語認識技術を利用した カメラベース情報取得システム リアルタイム単語認識技術を利用した カメラベース情報取得システム 辻 智彦 岩村 雅一 黄瀬 浩一 大阪府立大学大学院工学研究科

発表の流れ 背景 文字認識手法の概要 単語認識の提案手法 実験 まとめ

インタラクティブデモ 16:15~(本発表のすぐあと) 提案システム リアルタイムで動作 認識結果 関連情報 カメラ “University” 翻訳 ・大学 画像 文書 ノートPC 音声 環境中文字列のリンクアンカー化 インタラクティブデモ 16:15~(本発表のすぐあと)

有望な応用例 単語の認識が必要 視覚障害者への音声案内 関連情報取得システム タンブラー 『押ボタン信号があります』 新デザイン発表!! 多フォント対応・レイアウトフリー

単語の認識 認識対象 平行な文字行 行を成さない 既存手法 (Myers 2004) 行ごとに認識 提案手法 1文字ごとに認識

問題設定 同一平面上の紙面 白紙に黒色の文字 連結成分を容易に切り出すことが出来る 単語間がスペースで区切られる 左から右に記される 文字行を成さない

認識の流れ S c h o l ① 1文字ごとに文字認識 概説 ② 文字を連結して単語を推定 本発表の主題 どこにどんな文字があるか 岩村 雅一, 辻 智彦, 黄瀬 浩一: “カメラ撮影文字の事例に基づく実時間認識” テーマセッション4 19日 11:45予定 ① 1文字ごとに文字認識 ② 文字を連結して単語を推定 概説 本発表の主題 どこにどんな文字があるか どんな単語があるか S c h o l “School”

発表の流れ 背景 文字認識手法の概要 単語認識の提案手法 実験 まとめ

文字認識の特徴 実時間処理が可能 射影歪みに頑健 レイアウトフリー 多種フォント登録可能

Z N A O z o クラスレベルの識別 互いにアフィン変換の関係にある文字群は 識別できない 1つのクラスに統合 類似 認識結果  識別できない 1つのクラスに統合 認識結果 キャプチャ画像 クラス1 クラス3 クラス2 Z N A O z 類似 o データベース

A 姿勢推定 認識時にアフィン変換パラメータが計算可能 パラメータ 紙面の姿勢 文字の姿勢 アフィン変換 歪みを取り除く 独立変倍 シアー キャプチャ画像 テンプレート画像 アフィン変換 歪みを取り除く パラメータ 紙面の姿勢 文字の姿勢 独立変倍 シアー 回転 拡大・縮小 単語推定で利用

発表の流れ 背景 文字認識手法の概要 単語認識の提案手法 実験 まとめ

単語領域の推定 画像をぼかして隣接文字を結合させる ぼかし画像の連結成分を単語領域とする 文字間距離・連結成分面積によって 逐次的にぼかし強度を決定 単語領域2 単語領域1

構成する文字の決定 ⑤ ④ ③ ② ① 単語領域内に含まれる文字を調べる d or p ? M or W ? クラスレベルの 識別結果 M or W ? 単語領域2 ① ② ③ ④ ⑤ 単語領域1 各文字の字種は一意に決定していない

文字の並び順の推定 仮定 読む方向が急激に変化したり 文字を飛ばして読んだりするデザインは存在しない ⑤ ④ ③ ② ① これを“①②⑤④③”の 順で読むワケがない!! ⑤ ④ ③ ② ①

“Media” か “Media” か分からない 文字の並び順の推定 全ての文字を最短で通る経路を求める 長 短 ⑤ ⑤ ④ ④ ③ ③ ② ② ① ① 最短は“①②③④⑤” および“⑤④③②①” “Media” か “Media” か分からない Media

M d e i a W p 単語候補の生成 Media Wepia aideM ① ② ③ ④ ⑤ 各文字のクラスが属する  字種を組み合わせる 文字番号 ① ② ③ ④ ⑤ M d e i a W 単語候補の中から 尤もらしい単語を推定する p … etc. 単語候補 Media Wepia aideM

文字の向きを利用した単語推定 文字の向きに関する ペナルティを設ける “Wepia” の場合 “aideM” の場合 左向きには読まないと 言ってたのに!! 一部だけ180度回転 しているのはオカシイ!! 文字の向きに関する ペナルティを設ける

ペナルティの計算① 小 大 文字の向きに関するペナルティ 「急激に変化しない」という仮定を利用 ペナルティ① “Media” “Wepia” 隣接文字間の 角度差 小 大

ペナルティの計算② 小 大 単語の読む方向に関するペナルティ 「右向きに読む」という仮定を利用 ペナルティ② “Media” “aideM” 上 ペナルティ② 右 上 右 仮定した上方向と 文字の上方向との 角度差 小 大

単語の推定 “Media” “aideM” “aideW” “Wedia” “Mepia” “aipeM” “aipeW” “Wepia” 候補をペナルティの昇順にソート “Media” “aideM” “aideW” “Wedia” “Mepia” “aipeM” “aipeW” “Wepia” 17 185 359 361 365 533 707 709 高 尤度 低

発表の流れ 背景 文字認識手法の概要 単語認識の提案手法 実験 まとめ

実験対象 英字が書かれた文書を3方向から撮影 144文字 30単語 0度 30度 45度

実験条件 登録フォント数を増やし, 認識性能を評価 最大10フォント データベース 使用した計算機 CPU Opteron 2.8GHz  認識性能を評価 データベース 使用した計算機 CPU Opteron 2.8GHz メモリ 16GB 認識 認識 文書

実験条件 “Media” “aideM” “aideW” “Wedia” “Mepia” … 17 185 359 361 365 … 単語認識率 小 “Media” “aideM” “aideW” “Wedia” “Mepia” … 17 185 359 361 365 … 上位1単語または 上位10単語の中に 正解の単語が 含まれるかどうか ペナルティ 大

単語認識率 上位10単語 上位1単語 認識率 (%) フォント数

単語認識の失敗例 クラスレベルでの認識失敗 ⇒後で検証 単語領域取得の失敗 分離している

1単語あたりの単語認識時間 処理時間 (ms) 1クラス内の 字種増加 フォント数

同一クラスに統合された字種 0 O o 6 9 7 L C c E m I l N Z z S s V v W w b q d p n u Arialの場合 0 O o 6 9 7 L C c E m I l N Z z S s V v W w b q d p n u

検証 - 1文字あたりのクラス識別率 認識率 (%) フォント数

文字認識の失敗例 誤認識 連結成分取得の失敗 結合している

実用性に関する性能評価 メモリ削減が課題 1秒あたり42単語の認識が可能 10フォント登録,正面から撮影の場合 単語認識率(上位10個を見た場合) 92.3% 1文字あたりの文字認識時間 3.44ms 1単語あたりの単語認識時間 6.14ms 100フォントの場合 約4GB (実測値) メモリ使用量 397MB メモリ削減が課題 6.14ms 3.44ms × 5 1秒あたり42単語の認識が可能

発表の流れ 背景 文字認識手法の概要 単語認識の提案手法 実験 まとめ

まとめ 提案手法 リンクアンカー化システムに有効な単語認識 今後の課題 文字領域・単語領域の抽出法の改良 メモリ削減 文字の向きを用いた単語認識 今後の課題 文字領域・単語領域の抽出法の改良 メモリ削減

リアルタイム単語認識技術を利用した カメラベース情報取得システム リアルタイム単語認識技術を利用した カメラベース情報取得システム 辻 智彦 岩村 雅一 黄瀬 浩一 大阪府立大学大学院工学研究科