Download presentation
Presentation is loading. Please wait.
1
芦田尚美*,髙田雅美*,木目沢司†,城和貴* *奈良女子大学大学院 †国立国会図書館
近代書籍に特化した 多フォント活字認識法 芦田尚美*,髙田雅美*,木目沢司†,城和貴* *奈良女子大学大学院 †国立国会図書館
2
発表の流れ 背景 目的と問題点 文字認識の手法 実験 まとめ
3
背景 国立国会図書館 近代デジタルライブラリー 蔵書のデジタルアーカイブ化 Webでの閲覧が出来るサービス
4
問題点 近代活字OCRの必要性 テキスト化の必要性 書籍の問題 →従来のOCR技術を適用できない 明治~大正期の書籍 約160,000冊
そのほとんどが画像データ →全文検索の適用不可 書籍の問題 フォントの種類が不明 旧字体/異字体を含む 低品質の印刷 →従来のOCR技術を適用できない 近代活字OCRの必要性
5
旧字体
6
文字認識の流れ 入力 前処理 特徴抽出 識別
7
前処理 ノイズの除去 画像余白の除去 大きさの補正 位置の補正 入力 前処理 特徴抽出 識別
8
特徴抽出 PDC(Peripheral Direction Contribution: 外郭方向寄与度)特徴 入力 文字線の 複雑さ 方向
外郭方向寄与度)特徴 文字線の 複雑さ 方向 接続関係 相対位置関係 を抽出する 入力 前処理 特徴抽出 識別
9
PDC特徴 8方向から走査 ぶつかった点から8方向に矢印を伸ばす 長さが方向寄与度となる 示 走査
10
PDC特徴 方向寄与度→どの向きの成分が大きいかを表す 第2,第3深度の成分が 正反対の方向の矢印の長さを足し合わせ,4方向の長さを得る
0でない→文字線が複雑 0である→文字線が単純 正反対の方向の矢印の長さを足し合わせ,4方向の長さを得る 走査方向 深度1 深度2 深度3
11
PDC特徴 第1外郭形状 元画像 第2外郭形状 第3外郭形状
12
あ PDC特徴 特徴ベクトル 特徴ベクトルの次元 となる 全走査方向(8方向) × 深度(外郭深度N=3) × 寄与度成分(4方向) ×
全走査方向(8方向) × 深度(外郭深度N=3) × 寄与度成分(4方向) × 区画(16区画※) = 1536次元ベクトル となる ※各方向128回の走査の後, 16等分して平均 あ
13
文字の識別 SVM(Support Vector Machines)を使用 入力 機械学習の一種 高い汎化性能 マージン最大化 前処理
カーネルトリック 入力 前処理 特徴抽出 識別
14
Support Vector Machines
原理 × 線形分離不可能な データ ○ w b 分離超平面 x 高次元特徴空間に射影 →平面で分離可能 比較的単純な仕組み 他の機械学習と比較し同等以上の性能
15
実験 実験データ LIB-SVMを使用 近代デジタルライブラリーの書籍画像から切り出した文字 文字種:10種類の文字
「行」,「三」,「人」,「生」,「十」,「来」,「小」,「中」,「年」,「彼」の10種 教師データを各クラスにつき50個生成し,訓練 LIB-SVMを使用
16
文字画像例
17
実験手順(1) 前処理 特徴抽出 2値化 3×3のメディアンフィルタ(ノイズ除去) 余白の除去 大きさの補正(線形なサイズ補正) 位置の補正
PDC特徴の抽出
18
実験手順(2) SVMでの学習 未知データを用いて評価 各クラスにつき50個の画像を教師として選択
教師データの学習 未知データを用いて評価
19
実験環境 CPU:Intel Pentium D 2.80GHz OS:Windows XP SVM:LIB-SVM ver 2.88
20
実験結果 認識率 97.8% 内訳:
21
誤認識した文字(1) ケース1 クラス6(来)と誤認識 ケース2 ノイズ クラス7(小)と誤認識 ケース3 クラス7(小)と誤認識 ケース4
長い縦線,左右斜め下に延びる線 →類似形状
22
誤認識した文字(2) クラス5(十)と誤認識 クラス7(小)と誤認識 クラス6(来)と誤認識 クラス7(小)と誤認識 クラス5(十)と誤認識
ケース5 クラス7(小)と誤認識 ケース11 クラス6(来)と誤認識 ケース6 クラス7(小)と誤認識 ケース12 クラス5(十)と誤認識 ケース7 クラス1(行)と誤認識 ケース13 クラス5(十)と誤認識 ケース8 クラス7(小)と誤認識 ケース14 クラス9(年)と誤認識 ケース9 クラス7(小)と誤認識 ケース15 クラス9(年)と誤認識 ケース10 クラス5(十)と誤認識 ケース16
23
誤認識した文字(3) ノイズが多い クラス9(年)と誤認識 クラス6(来)と誤認識 クラス7(小)と誤認識 クラス7(小)と誤認識
ケース6 クラス9(年)と誤認識 ケース10 クラス7(小)と誤認識 ケース11 クラス7(小)と誤認識 ケース12 クラス1(行)と誤認識 ケース13 ノイズが多い
24
誤認識した文字(4) 「中」と「十」は共に垂直・水平方向に太い文字線がある 類似した文字形状 クラス5(十)と誤認識 クラス5(十)と誤認識
ケース5 クラス5(十)と誤認識 ケース7 クラス5(十)と誤認識 ケース8 クラス5(十)と誤認識 ケース16 「中」と「十」は共に垂直・水平方向に太い文字線がある 類似した文字形状
25
誤認識した文字(5) 「中」と「小」は共に画像中央に長い縦線とその左右の短い縦線を持つ 類似した文字形状 クラス7(小)と誤認識
ケース14 クラス7(小)と誤認識 ケース15 「中」と「小」は共に画像中央に長い縦線とその左右の短い縦線を持つ 類似した文字形状 クラス9(年)と誤認識 ケース9
26
ニューラルネットワークに よる実験 3層の階層型 中間層:64ユニット 誤差逆伝播法 1000回の学習 教師データに対する誤答率0.8%
学習時間:12248[sec] (参考)中間層32ユニット 3000回の学習で教師データに対する誤答率10%
27
ニューラルネットによる 実験結果 テストデータに対する認識率 77.6%
28
考察(SVMによる認識) 誤認識 誤認が多いクラス ノイズが多い 明瞭な文字画像を誤認識する場合もある 明確な理由が判明しない誤認もあった
ノイズの点を文字線と認識 余白の除去が適切に行われなかった 明瞭な文字画像を誤認識する場合もある 類似した特徴を持つ文字と誤認 明確な理由が判明しない誤認もあった 誤認が多いクラス 学習例がテストデータ数と比較し少ない
29
考察(NNによる学習) 中間層64個で学習 認識率77.6% 中間層32個では不足 学習時間はSVMより長い SVMの約7.7倍
30
まとめ 近代書籍の活字認識を行った 97.8%の精度で10種の文字を認識できた 改善点 SVMはNNより適している
ノイズ除去アルゴリズムの改良 文字種が多くなる→階層的な分類で対応 文字領域の切り出しの自動化
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.