情報技術演習Ⅰ 人文学研究のための情報技術入門 2014/05/01 情報技術演習Ⅰ 人文学研究のための情報技術入門 2014/05/01 担当:林晋 TA:橋本雄太
今回のテーマ OCR の使い方
文書とOCR 「文書」という言葉には色々な意味があります.コンピュータ上では, “aaa.txt”, “bbb.doc” などの文書がありますし,“20140501.ppt” というファイルも「PowerPoint の文書」と呼ばれることがあります.これらはSJIS, Unicode などの文字コードで文を表現していますので,コード化文書と呼べるでしょう(一般的用語がないので,林が作った言葉です). 紙の上のインクや看板上のペンキ,石碑上の凹み,などの物理的模様による文書を物理的文書ということにしましょう.皆さんが見ているモニタ(ディスプレィ)上の,この文書も物理的文書と言えるでしょう. また,物理的文書をデジカメで撮影して作った “aaa.jpg” “bbb.bmp”などの電子画像を画像化文書(正確には電子画像化文書)と呼びましょう. OCR とは画像化文書をコード化文書に変換することだといえます.物理的文書を画像化して画像化文書にするのにはデジカメやスキャナーを使います.
三つの方法 今日は,自炊を行う三つの手段を実際にやってもらいます. そして,その結果のPDFファイルとHTMLファイルが提出すべき課題となります. 注意:自炊の方法はほかにも色々ある.しかし,ここで紹介するのは典型的ケース.
自炊 大量の書物を読んでレポートを書く,卒論を書く,研究する場合,それが Google Books の書籍のように検索できると大変便利 また検索ができなくても,書籍がデジタル画像になっていれば,大量の本を軽々ともち運ぶことができる. 本棚も不必要になり省スペースになる それらを可能にするのが,いわゆる自炊 本を解体したりして,スキャナーで電子画像にし,PDFファイルなどにまとめることを自炊という. 注意!!! これは自分だけのためにやるのならば問題がないが,人に渡してしまったりすると著作権侵害となる(らしい)ので注意!! これからやる演習の結果も,林への課題提出以外では,決して他人に渡してはいけません
自炊のやり方を書いたWEBページ http://wikiwiki.jp/bookjisui/ http://ushigyu.net/2012/03/01/jisui_q_and_a_by_jisui_blogger/ http://bizmakoto.jp/bizid/articles/1006/01/news031.html http://pc.watch.impress.co.jp/docs/topic/feature/20110218_426830.html
専用ブックスキャナを使う方法 本をフラットベッドスキャナーと呼ばれる廉価なスキャナーでスキャンして電子画像にしようとすると,厚い本の場合,真ん中あたりが曲がってスキャンされる. さらには真ん中に黒い帯が入ってしまい,場合によっては,文字が読めない場合もある.これはコピー機の場合と同じ. これを防ぐために,作られたフラットベッドスキャナー 本の中央をスキャナの端にあててスキャンしてもコピーができる. 普通のスキャナは,周りに余裕を持たせてあるので,そうやると真ん中が欠けてスキャンされる.
長所と短所 長所 短所 本を分解しなですむ. ページごとに上下が交代する. やすいといっても,兎に角,スキャナを買わなくてはならない. 不必要なら古本として売れば良い. 短所 ページごとに上下が交代する. やすいといっても,兎に角,スキャナを買わなくてはならない.
本を解体する方法 本を裁断して,ドキュメントスキャナという,文書専用スキャナで読み込む. 長所と短所 短所:本がバラバラ.捨てることになる. 長所:裁断さえできれば,読み込み(スキャン)は簡単かつ速い 短所:裁断は裁断機のよいものがない場合は大変
裁断の事例集 http://www.youtube.com/watch?v=pYBLZUKB0Uw http://www.youtube.com/watch?v=6D_6unB4X6c&feature=related http://www.youtube.com/watch?v=RD2EmcgVRR8&feature=related ディスクカッター http://www.youtube.com/watch?v=wJ5Lefyx26E&feature=related http://www.youtube.com/watch?v=G7i9E4XovMw&feature=related 置き場所にさえ困らなければ,比較的安い裁断機がある.
融合型:一度コピーする方法 普通のフラットベッド・スキャナは、コピー機に比べて、一枚をスキャンする時間が長い。 そこで本をコピーするときと同様、一度、コピー機でコピーを作り、それをドキュメント・スキャナにかけるという方法もあります。 これは紙のコピーも作っておきたいときには便利な方法ですが、コピー代がかかるという短所があります。
オーバーヘッド・スキャナ ScanSnap SV600 (1/4) 以上、紹介してきた方法で本、特に厚みのある本をスキャンするのは、いずれにしてもかなり大変でした。 しかし、昨年、オーバーヘッド・スキャナ ScanSnap SV600 というものが発売されて、状況が大きく変わりました。 まず、そのデモ画像を見ます: https://www.youtube.com/watch?v=j9oeXiNqIDk
オーバーヘッド・スキャナ ScanSnap SV600 (2/4) 撮影用無反射ガラスを使うと良い:押さえ指のソフトによる削除は面倒だし、指で両端を抑えたのでは、本中央の盛り上がりは抑えられず、そのために画像がどうしても歪む。無反射ガラスを使って、それで押さえて撮影する方が良い結果が得られる。今日の演習でも、無反射ガラスを使う。 無反射ガラスとは http://www.glass-dictionary.com/14/ 写真撮影に良く使われるので、例えば、京都駅前のヨドバシカメラなどで簡単に買える。 ヨドバシのオンライショップでも: 半切りサイズで大抵の本や史料のスキャンには十分。 透明アクリル板で代用できることもあるが、透明アクリル板は、天井灯の反射が映り込むことが多い。 ページめくり検出でなく、ボタンを一回一回押す方が実用的。ボタンは大きく、苦にならず、おそらく、慣れると、その方が速い。特に無反射ガラスを使う場合はそう。
オーバーヘッド・スキャナ ScanSnap SV600 (3/4) 長所 安い、小さい、軽い: 4万円台、210x156x383、3kg この様なスキャナは以前から業務用として販売されていました。しかし、それは数十万円もする大きくて重い機械でした。 それが個人でも買えて、何時もは、小さくしまっておけるようになり、調査旅行にも持っていける(キャリングケースがついている)ようになったところが、歴史家の目からすると革命的なのです。 天井の照明の映り込みを気にしないで済む。 次回の「デジカメによる史料撮影の方法」の紹介で詳しく説明するが、高精度史料撮影の最大の難関は、史料を押さえるために使う無反射ガラスに、天井の照明が映り込んでしまうこと。これは特に、出張して撮影するときに大きな問題となる。 SV600は自ら発光してスキャンするので、天井の照明をオフにすることができる
オーバーヘッド・スキャナ ScanSnap SV600 (2/3) 短所 不十分な精度: 個人で自炊するとか、歴史史料を撮影してきて研究する場合、つまり、自分だけのために撮影するには、十分な精度がある。しかし、たとえば、京都学派アーカイブのような公開されたアーカイブのための画像を作る場合には、現在のWEBアーカイブに求められている画像精度に達していない。 スピード: 群馬大学図書館の田辺元史料で、昨年秋に、林が実際にデジカメとSV600で撮影とスキャンをしてみたときの記録:林晋ブログ記事2013年11月18日 デジカメ撮影より若干遅い。現代史の研究者は、一日に数百の画像を撮ることは普通。千を超えることも珍しくはない。そういう場合には遅すぎる。
実際にやってみよう 説明を完了した後,前に集まってもらいます. そして、まず,林と橋本がスキャン+OCR使用をやってみせます.その後で,それぞれのPCに適当に分かれて,各自,自分で実際にやってみてください.それが今日の課題です. スキャナは3種類.三種類すべてやってください.おそらく時間が足りないと思いますが、その場合は次回も、同じ演習を行います。
OCRは e-typist を使用 OCR は三つのPCとも e-typist を使います. YouTube の画像にように,スキャナのボタンを使う方法もあるのですが,今回は e-typist からスキャナを呼び出してスキャンする方法で行います. これはソフト役割を理解できるようにする教育上の配慮なので、現実にスキャナを使う場合は、マネする必要はありません。 それぞれのPC+スキャナの周りに集まり, 林か橋本の説明を聞いてください. どの順番でやっても構いませんが, 待ち時間を考慮してスキャナを選択ください. 使い方の説明は必要に応じて繰り返します.
課題(提出要):ScanSnap S1500 による自炊 That Noble Dream を裁断したものを利用 なれていないと危ないので,この部分だけは、既に裁断してあるものを使います。 ひとりあたり数ページをScanSnapでスキャンしてOCRでテキストにしてください. スキャンのためには, eTypist を使ってください.詳しい使い方は林か橋本が説明します. 結果は何ページ読んだ場合でも,一つのテキストファイルか HTMLファイルにして,デスクトップにある「情報技術演習提出用」というフォルダに置く. ただし,ファイル名を 自分の名前学籍番号.txt のようにしてください. 例えば,西田幾多郎0100243333.txt これで課題提出となります. OCRはかなり読みを間違います.この誤認識は気にしなくて結構です.
課題(提出要): OpticBook 4600での自炊 That Noble Dream の、まだ裁断してない部分を利用します。そのどこでもよいから,自分の好きなページを幾つかスキャンしてください. 自分で本や文書を持ってきたひとは,この本ではなくて,自分がもってきたものでやって結構です. ひとりあたり数ページを OpticBook でスキャンしてOCR eTypist でテキストにしてください. 詳しい使い方は林か橋本が説明します. 結果は何ページ読んだ場合でも,一つのテキストファイルか HTMLファイルにして,デスクトップにある「情報技術演習提出用」というフォルダに置く. ただし,ファイル名を 自分の名前学籍番号.txt のようにしてください. 例えば,西田幾多郎0100243333.txt これで課題提出となります. OCRはかなり読みを間違います.この誤認識は気にしなくて結構です.
課題(提出要): ScanSnap SV600 での自炊 現代史の永井和先生の著作を利用します。そのどこでもよいから,自分の好きなページを幾つかスキャンしてください. 自分で本や文書を持ってきたひとは,この本ではなくて,自分がもってきたものでやって結構です. ひとりあたり数ページを SV600 でスキャンしてOCR eTypist でテキストにしてください. 詳しい使い方は林か橋本が説明します. 結果は何ページ読んだ場合でも,一つのテキストファイルか HTMLファイルにして,デスクトップにある「情報技術演習提出用」というフォルダに置く. ただし,ファイル名を 自分の名前学籍番号.txt のようにしてください. 例えば,西田幾多郎0100243333.txt これで課題提出となります. OCRはかなり読みを間違います.この誤認識は気にしなくて結構です.