芦田尚美，髙田雅美，木目沢司†，城和貴* *奈良女子大学大学院 †国立国会図書館

芦田尚美*，髙田雅美*，木目沢司†，城和貴* *奈良女子大学大学院 †国立国会図書館
近代書籍に特化した多フォント活字認識法芦田尚美*，髙田雅美*，木目沢司†，城和貴* *奈良女子大学大学院 †国立国会図書館

発表の流れ背景目的と問題点文字認識の手法実験まとめ

背景国立国会図書館　近代デジタルライブラリー蔵書のデジタルアーカイブ化 Webでの閲覧が出来るサービス

問題点近代活字OCRの必要性テキスト化の必要性書籍の問題 →従来のOCR技術を適用できない明治～大正期の書籍約160,000冊
そのほとんどが画像データ →全文検索の適用不可書籍の問題フォントの種類が不明旧字体/異字体を含む低品質の印刷　→従来のOCR技術を適用できない近代活字OCRの必要性

旧字体

文字認識の流れ入力前処理特徴抽出識別

前処理ノイズの除去画像余白の除去大きさの補正位置の補正入力前処理特徴抽出識別

特徴抽出 PDC（Peripheral Direction Contribution: 外郭方向寄与度）特徴入力文字線の複雑さ方向
　　外郭方向寄与度）特徴文字線の複雑さ方向接続関係相対位置関係　　　　　　　　　　を抽出する入力前処理特徴抽出識別

PDC特徴 8方向から走査ぶつかった点から8方向に矢印を伸ばす長さが方向寄与度となる示走査

PDC特徴方向寄与度→どの向きの成分が大きいかを表す第2，第3深度の成分が正反対の方向の矢印の長さを足し合わせ，4方向の長さを得る
0でない→文字線が複雑 0である→文字線が単純正反対の方向の矢印の長さを足し合わせ，4方向の長さを得る走査方向深度1 深度2 深度3

PDC特徴第1外郭形状元画像第2外郭形状第3外郭形状

あ PDC特徴特徴ベクトル特徴ベクトルの次元となる全走査方向(8方向) × 深度(外郭深度N=3) × 寄与度成分(4方向) ×
全走査方向(8方向)　× 　深度(外郭深度N=3)　× 　寄与度成分(4方向)　× 　区画(16区画※)　＝　1536次元ベクトルとなる ※各方向128回の走査の後， 16等分して平均あ

文字の識別 SVM（Support Vector Machines）を使用入力機械学習の一種高い汎化性能マージン最大化前処理
カーネルトリック入力前処理特徴抽出識別

Support Vector Machines
原理 × 線形分離不可能なデータ ○ w b 分離超平面 x 高次元特徴空間に射影 →平面で分離可能比較的単純な仕組み他の機械学習と比較し同等以上の性能

実験実験データ LIB-SVMを使用近代デジタルライブラリーの書籍画像から切り出した文字文字種：10種類の文字
「行」，「三」，「人」，「生」，「十」，「来」，「小」，「中」，「年」，「彼」の10種教師データを各クラスにつき50個生成し，訓練 LIB-SVMを使用

文字画像例

実験手順(1) 前処理特徴抽出 2値化 3×3のメディアンフィルタ（ノイズ除去）余白の除去大きさの補正（線形なサイズ補正）位置の補正
PDC特徴の抽出

実験手順(2) SVMでの学習未知データを用いて評価各クラスにつき50個の画像を教師として選択
教師データの学習未知データを用いて評価

実験環境 CPU：Intel Pentium D 2.80GHz OS：Windows XP SVM：LIB-SVM ver 2.88

実験結果認識率　97.8％内訳：

誤認識した文字(1) ケース1 クラス6(来)と誤認識ケース2 ノイズクラス7(小)と誤認識ケース3 クラス7(小)と誤認識ケース4
長い縦線，左右斜め下に延びる線　　　　　　　　　　　　　　　→類似形状

誤認識した文字(2) クラス5(十)と誤認識クラス7(小)と誤認識クラス6(来)と誤認識クラス7(小)と誤認識クラス5(十)と誤認識
ケース5 クラス7(小)と誤認識ケース11 クラス6(来)と誤認識ケース6 クラス7(小)と誤認識ケース12 クラス5(十)と誤認識ケース7 クラス1(行)と誤認識ケース13 クラス5(十)と誤認識ケース8 クラス7(小)と誤認識ケース14 クラス9(年)と誤認識ケース9 クラス7(小)と誤認識ケース15 クラス9(年)と誤認識ケース10 クラス5(十)と誤認識ケース16

誤認識した文字(3) ノイズが多いクラス9(年)と誤認識クラス6(来)と誤認識クラス7(小)と誤認識クラス7(小)と誤認識
ケース6 クラス9(年)と誤認識ケース10 クラス7(小)と誤認識ケース11 クラス7(小)と誤認識ケース12 クラス1(行)と誤認識ケース13 ノイズが多い

誤認識した文字(4) 「中」と「十」は共に垂直・水平方向に太い文字線がある類似した文字形状クラス5(十)と誤認識クラス5(十)と誤認識
ケース5 クラス5(十)と誤認識ケース7 クラス5(十)と誤認識ケース8 クラス5(十)と誤認識ケース16 「中」と「十」は共に垂直・水平方向に太い文字線がある類似した文字形状

誤認識した文字(5) 「中」と「小」は共に画像中央に長い縦線とその左右の短い縦線を持つ類似した文字形状クラス7(小)と誤認識
ケース14 クラス7(小)と誤認識ケース15 「中」と「小」は共に画像中央に長い縦線とその左右の短い縦線を持つ類似した文字形状クラス9(年)と誤認識ケース9

ニューラルネットワークによる実験 3層の階層型中間層：64ユニット誤差逆伝播法 1000回の学習教師データに対する誤答率0.8%
学習時間：12248[sec] (参考)中間層32ユニット 3000回の学習で教師データに対する誤答率10％

ニューラルネットによる実験結果テストデータに対する認識率　77.6%

考察(SVMによる認識) 誤認識誤認が多いクラスノイズが多い明瞭な文字画像を誤認識する場合もある明確な理由が判明しない誤認もあった
ノイズの点を文字線と認識余白の除去が適切に行われなかった明瞭な文字画像を誤認識する場合もある類似した特徴を持つ文字と誤認明確な理由が判明しない誤認もあった誤認が多いクラス学習例がテストデータ数と比較し少ない

考察(NNによる学習) 中間層64個で学習認識率77.6% 中間層32個では不足学習時間はSVMより長い SVMの約7.7倍

まとめ近代書籍の活字認識を行った 97.8％の精度で10種の文字を認識できた改善点 SVMはNNより適している
ノイズ除去アルゴリズムの改良文字種が多くなる→階層的な分類で対応文字領域の切り出しの自動化

芦田尚美，髙田雅美，木目沢司†，城和貴* *奈良女子大学大学院 †国立国会図書館

Similar presentations

Presentation on theme: "芦田尚美，髙田雅美，木目沢司†，城和貴* *奈良女子大学大学院 †国立国会図書館"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

芦田尚美*，髙田雅美*，木目沢司†，城和貴* *奈良女子大学大学院 †国立国会図書館

Similar presentations

Presentation on theme: "芦田尚美*，髙田雅美*，木目沢司†，城和貴* *奈良女子大学大学院 †国立国会図書館"— Presentation transcript:

Similar presentations

About project

フィードバック

芦田尚美，髙田雅美，木目沢司†，城和貴* *奈良女子大学大学院 †国立国会図書館

Presentation on theme: "芦田尚美，髙田雅美，木目沢司†，城和貴* *奈良女子大学大学院 †国立国会図書館"— Presentation transcript: