画素密度検出エージェントを用いた文字列の検出と文字切り出し 大島商船高専 情報工学科 岡村 健史郎 山口大学工学部 ユジン・クルズ 山口大学工学部 佐長康久 山口大学工学部 浜本義彦
はじめに 「島」 文字切り出し 文字認識 手書き文章処理システム 文字切り出し
画素密度による文字切り出し方式 前 処 理 部 結 果 出 力 文 字 列 抽 部 切 リ し 修 正 位 置 検 文 字 位 置 検 出 像 入 力 画 像 入 力 結 果 出 力
前処理部 連結成分 ラベリング処理 マージ処理 細線化処理
文字位置検出部 画素密度・・ 画像とガウスフィルタの畳込みから得る : 観測スケール (a) 原画像 (b) (c)
文字位置検出部 評価関数 1.矩形内に検出点は一つ以下 2.検出点同士は近接しない (3 内に他の検出点が存在しない) のとき 検出エージェント 検出点 1.矩形内に検出点は一つ以下 2.検出点同士は近接しない (3 内に他の検出点が存在しない) 評価関数 のとき
文字位置検出部 (提案) 連結成分のサイズによるしきい値
文字切り出し部 前処理部の結果 文字切り出し結果
文字列抽出部 接続線・・ 各文字の前・後にくる文字同士の接続線 上接続線対 下接続線対 左接続線対 右接続線対
文字列抽出部 長さが最小となる 上接続線対 下接続線対 左接続線対 右接続線対
文字列抽出部 “町”の場合 2 3 合計 1 “市” “本” 横 縦
文字切り出しの修正部 統合処理 切断処理 h h/4 切断位置
計算機シミュレーション 実験データ 実験 町域部 縦書きデータ : 300枚 240X 560 ピクセル,256 階調の白黒濃淡画像 番地部 縦書きデータ : 300枚 240X 560 ピクセル,256 階調の白黒濃淡画像 横書きデータ : 300枚 様々なサイズ,256 階調の白黒濃淡画像 実験 文字列抽出 文字切り出し (切り出し対象:町域部の文字のみ)
文字列抽出の実験結果 文字列の抽出率 96.0% 96.3% 文字列抽出率 横書きデータ 縦書きデータ 対象データ
文字切り出しの実験結果 町域部の文字切り出し率 対象データ 従来手法 (A) (A)+(B) (A)+(B)+(C) 縦書きデータ 83.2% 87.3% 88.4% 89.4% 横書きデータ 30.9% 81.0% 81.1% 85.7% (A) 観測スケールの可能な範囲の設定 (B) 文字統合による修正 (C) 文字切断による修正
実験結果例 文字切り出しの成功例 文字切り出しの失敗例
まとめ 文字切り出し率の向上 今後の課題 文字列抽出に成功 文字列抽出部と文字切り出し部の協調動作 文字列抽出に成功 文字切り出し率の向上 今後の課題 文字列抽出部と文字切り出し部の協調動作 文字のストロークの各角度に基づく文字切断処理
実験結果例 文字列抽出の成功例 文字列抽出の失敗例
実験結果例 従来手法 提案手法 従来手法 提案手法
実験結果例 町域部 町域部 データ 番地部 番地部 データ 実験結果 データ 実験結果