芦田尚美*,髙田雅美*,木目沢司†,城和貴* *奈良女子大学大学院 †国立国会図書館

Slides:



Advertisements
Similar presentations
はじめてのパターン認識 第1章 第4グループ 平田翔暉. パターン認識 パターン認識 o 観測されたパターンを、あらかじめ定められ たクラスに分類すること クラス o 硬貨: 1 円玉、 5 円玉、 10 円玉、 50 円玉、 100 円玉、 500 円玉 o アルファベット: 26 種類 o 数字:
Advertisements

知能情報工学 年4月26日 吉川雅博 第3回第3回 k最近傍法. プロトタイプによるNN法の流れ 2 AD変換前処理部特徴抽出部識別部 ・標本化 ・量子化 ・ノイズ除去 ・正規化 識別辞書 (プロトタイプ) 音声や画像 (アナログ信号) 識別 結果 識別が容易な 特徴を抽出 プロトタイプと比較.
『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
静脈画像を鍵とする暗号化手 法に関する研究 大山研究室 安藤のぞみ. 研究の背景、目的 近年、バイオメトリクス認証が注目されて いる 静脈は身体内部の情報 → 偽造に強い 環境に左右されることが少ない 利用者の心理的抵抗が軽減される オープンなネットワークへのバイオメトリ クス認証の適用 : Double.
自動映像生成のための パーティクルフィルタによるボールの追 跡 2007 年 3 月 21 日 神戸大学大学院自然科学研究科 矢野 一樹.
白井ゼミ 豊田秀樹(2008)『データマイニング入門』 (東京図書)。4章
Building text features for object image classification
HOG特徴に基づく 単眼画像からの人体3次元姿勢推定
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第四回 演習課題 画像中からの物体抽出処理(背景情報を手がかりとして) 芝浦工業大学 工学部 情報工学科 青木 義満 2006/05/15.
「わかりやすいパターン認識」 第1章:パターン認識とは
リアルタイム単語認識技術を利用した カメラベース情報取得システム
ニューラルネットのモデル選択 村田研究室 4年  1G06Q117-5 園田 翔.
画素密度検出エージェントを用いた文字列の検出と文字切り出し
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
時空間データからのオブジェクトベース知識発見
ORB: an efficient alternative to SIFT or SURF
雑音重み推定と音声 GMMを用いた雑音除去
顔表情認識のための顔特徴点抽出 徳島大学 大学院 工学研究科 長野 信男.
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討
パターン認識とニューラルネットワーク 栗田多喜夫 2018/11/8 早稲田大学大学院理工学研究科講義.
サポートベクターマシン によるパターン認識
高度情報演習1C 実践 画像処理プログラミング
長岡技科大オープンハウス 岐阜高専4年電子制御工学科 森 永二郎.
画像処理 基礎.
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
人工知能特論 9.パーセプトロン 北陸先端科学技術大学院大学 鶴岡 慶雅.
音高による音色変化に着目した音源同定に関する研究
あらまし アンサンブル学習の大きな特徴として,多数決などで生徒を組み合わせることにより,単一の生徒では表現できない入出力関係を実現できることがあげられる.その意味で,教師が生徒のモデル空間内にない場合のアンサンブル学習の解析は非常に興味深い.そこで本研究では,教師がコミティマシンであり生徒が単純パーセプトロンである場合のアンサンブル学習を統計力学的なオンライン学習の枠組みで議論する.メトロポリス法により汎化誤差を計算した結果,ヘブ学習ではすべての生徒は教師中間層の中央に漸近すること,パーセプトロン学習では
教師がコミティマシンの場合の アンサンブル学習
Songzhu Gao, Tetsuya Takiguchi, Yasuo Ariki (Kobe University) 
中京大学 情報理工学部 機械情報学科 H 野口裕司
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第二回 演習課題
高度情報演習1C 実践 画像処理プログラミング 第二回 演習課題
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
第7章 疎な解を持つカーネルマシン 修士2年 山川佳洋.
高度情報演習1A “テーマC” 実践 画像処理プログラミング 第六回 最終課題 画像処理による動物体自動抽出、モーションキャプチャ
主成分分析 Principal Component Analysis PCA
-画像処理(空間フィルタリング)- 画像処理(空間フィルタリング)のモデルとその基本操作 雑音除去・平滑化への適用
Data Clustering: A Review
SURF+BoFによる特定物体認識 卒業研究1 1 11/27/11.
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
物体検出による視覚補助システム T215085 若松大仁 白井研究室.
顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識
Number of random matrices
第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一
Wavelet係数の局所テクスチャ特徴量を用いたGraph Cutsによる画像セグメンテーション
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
適応信号処理とその応用 大阪府立大学大学院工学研究科 電気・情報系専攻 大松 繁.
教師がコミティマシンの場合の アンサンブル学習
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
AdaBoostを用いた システムへの問い合わせと雑談の判別
第9章 学習アルゴリズムとベイズ決定側 〔3〕最小2乗法とベイズ決定側 発表:2003年7月4日 時田 陽一
距離空間ピラミッドを用いた LLCによる3次元物体認識
構造的類似性を持つ半構造化文書における頻度分析
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
わかりやすいパターン認識 第3章 誤差評価に基づく学習 3.3 誤差逆伝播法.
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
ICML読む会資料 (鹿島担当) 教師ナシ の 構造→構造 マッピング 読んだ論文: Discriminative Unsupervised Learning of Structured Predictors Linli Xu (U. Waterloo) , … , Dale Schuurmans.
モデルの微分による非線形モデルの解釈 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
パターン認識特論 カーネル主成分分析 和田俊和.
わかりやすいパターン認識 第6章 特徴空間の変換 6.5 KL展開の適用法 〔1〕 KL展開と線形判別法 〔2〕 KL展開と学習パターン数
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
ランダムプロジェクションを用いた音響モデルの線形変換
教師がコミティマシンの場合のアンサンブル学習 三好 誠司(神戸高専) 原 一之(都立高専) 岡田 真人(東大,理研,さきがけ)
Presentation transcript:

芦田尚美*,髙田雅美*,木目沢司†,城和貴* *奈良女子大学大学院 †国立国会図書館 近代書籍に特化した 多フォント活字認識法 芦田尚美*,髙田雅美*,木目沢司†,城和貴* *奈良女子大学大学院 †国立国会図書館

発表の流れ 背景 目的と問題点 文字認識の手法 実験 まとめ

背景 国立国会図書館 近代デジタルライブラリー 蔵書のデジタルアーカイブ化 Webでの閲覧が出来るサービス

問題点 近代活字OCRの必要性 テキスト化の必要性 書籍の問題 →従来のOCR技術を適用できない 明治~大正期の書籍 約160,000冊 そのほとんどが画像データ →全文検索の適用不可 書籍の問題 フォントの種類が不明 旧字体/異字体を含む 低品質の印刷  →従来のOCR技術を適用できない 近代活字OCRの必要性

旧字体

文字認識の流れ 入力 前処理 特徴抽出 識別

前処理 ノイズの除去 画像余白の除去 大きさの補正 位置の補正 入力 前処理 特徴抽出 識別

特徴抽出 PDC(Peripheral Direction Contribution: 外郭方向寄与度)特徴 入力 文字線の 複雑さ 方向   外郭方向寄与度)特徴 文字線の 複雑さ 方向 接続関係 相対位置関係           を抽出する 入力 前処理 特徴抽出 識別

PDC特徴 8方向から走査 ぶつかった点から8方向に矢印を伸ばす 長さが方向寄与度となる 示 走査

PDC特徴 方向寄与度→どの向きの成分が大きいかを表す 第2,第3深度の成分が 正反対の方向の矢印の長さを足し合わせ,4方向の長さを得る 0でない→文字線が複雑 0である→文字線が単純 正反対の方向の矢印の長さを足し合わせ,4方向の長さを得る 走査方向 深度1 深度2 深度3

PDC特徴 第1外郭形状 元画像 第2外郭形状 第3外郭形状

あ PDC特徴 特徴ベクトル 特徴ベクトルの次元 となる 全走査方向(8方向) × 深度(外郭深度N=3) × 寄与度成分(4方向) × 全走査方向(8方向) ×  深度(外郭深度N=3) ×  寄与度成分(4方向) ×  区画(16区画※)  = 1536次元ベクトル となる ※各方向128回の走査の後, 16等分して平均 あ

文字の識別 SVM(Support Vector Machines)を使用 入力 機械学習の一種 高い汎化性能 マージン最大化 前処理 カーネルトリック 入力 前処理 特徴抽出 識別

Support Vector Machines 原理 × 線形分離不可能な データ ○ w b 分離超平面 x 高次元特徴空間に射影 →平面で分離可能 比較的単純な仕組み 他の機械学習と比較し同等以上の性能

実験 実験データ LIB-SVMを使用 近代デジタルライブラリーの書籍画像から切り出した文字 文字種:10種類の文字 「行」,「三」,「人」,「生」,「十」,「来」,「小」,「中」,「年」,「彼」の10種 教師データを各クラスにつき50個生成し,訓練 LIB-SVMを使用

文字画像例

実験手順(1) 前処理 特徴抽出 2値化 3×3のメディアンフィルタ(ノイズ除去) 余白の除去 大きさの補正(線形なサイズ補正) 位置の補正 PDC特徴の抽出

実験手順(2) SVMでの学習 未知データを用いて評価 各クラスにつき50個の画像を教師として選択 教師データの学習 未知データを用いて評価

実験環境 CPU:Intel Pentium D 2.80GHz OS:Windows XP SVM:LIB-SVM ver 2.88

実験結果 認識率 97.8% 内訳:

誤認識した文字(1) ケース1 クラス6(来)と誤認識 ケース2 ノイズ クラス7(小)と誤認識 ケース3 クラス7(小)と誤認識 ケース4 長い縦線,左右斜め下に延びる線                →類似形状

誤認識した文字(2) クラス5(十)と誤認識 クラス7(小)と誤認識 クラス6(来)と誤認識 クラス7(小)と誤認識 クラス5(十)と誤認識 ケース5 クラス7(小)と誤認識 ケース11 クラス6(来)と誤認識 ケース6 クラス7(小)と誤認識 ケース12 クラス5(十)と誤認識 ケース7 クラス1(行)と誤認識 ケース13 クラス5(十)と誤認識 ケース8 クラス7(小)と誤認識 ケース14 クラス9(年)と誤認識 ケース9 クラス7(小)と誤認識 ケース15 クラス9(年)と誤認識 ケース10 クラス5(十)と誤認識 ケース16

誤認識した文字(3) ノイズが多い クラス9(年)と誤認識 クラス6(来)と誤認識 クラス7(小)と誤認識 クラス7(小)と誤認識 ケース6 クラス9(年)と誤認識 ケース10 クラス7(小)と誤認識 ケース11 クラス7(小)と誤認識 ケース12 クラス1(行)と誤認識 ケース13 ノイズが多い

誤認識した文字(4) 「中」と「十」は共に垂直・水平方向に太い文字線がある 類似した文字形状 クラス5(十)と誤認識 クラス5(十)と誤認識 ケース5 クラス5(十)と誤認識 ケース7 クラス5(十)と誤認識 ケース8 クラス5(十)と誤認識 ケース16 「中」と「十」は共に垂直・水平方向に太い文字線がある 類似した文字形状

誤認識した文字(5) 「中」と「小」は共に画像中央に長い縦線とその左右の短い縦線を持つ 類似した文字形状 クラス7(小)と誤認識 ケース14 クラス7(小)と誤認識 ケース15 「中」と「小」は共に画像中央に長い縦線とその左右の短い縦線を持つ 類似した文字形状 クラス9(年)と誤認識 ケース9

ニューラルネットワークに よる実験 3層の階層型 中間層:64ユニット 誤差逆伝播法 1000回の学習 教師データに対する誤答率0.8% 学習時間:12248[sec] (参考)中間層32ユニット 3000回の学習で教師データに対する誤答率10%

ニューラルネットによる 実験結果 テストデータに対する認識率 77.6%

考察(SVMによる認識) 誤認識 誤認が多いクラス ノイズが多い 明瞭な文字画像を誤認識する場合もある 明確な理由が判明しない誤認もあった ノイズの点を文字線と認識 余白の除去が適切に行われなかった 明瞭な文字画像を誤認識する場合もある 類似した特徴を持つ文字と誤認 明確な理由が判明しない誤認もあった 誤認が多いクラス 学習例がテストデータ数と比較し少ない

考察(NNによる学習) 中間層64個で学習 認識率77.6% 中間層32個では不足 学習時間はSVMより長い SVMの約7.7倍

まとめ 近代書籍の活字認識を行った 97.8%の精度で10種の文字を認識できた 改善点 SVMはNNより適している ノイズ除去アルゴリズムの改良 文字種が多くなる→階層的な分類で対応 文字領域の切り出しの自動化