情報技術演習Ⅰ 人文学研究のための情報技術入門 2011/11/10 情報技術演習Ⅰ 人文学研究のための情報技術入門 2011/11/10 担当:林晋 TA:秋田慧 2009/10/14
今回のテーマ OCR の使い方 デジカメ・PCで研究資料を収集:史料研究デジカメ革命の時代 C1)研究の現場から(現代文化系の例から) 2009/10/14
画面キャプチャ Google Booksでは著作権の切れていない書籍はブラウザーで読むことはできても,ダウンロードやカットアンドペーストはできません. 気が付かなかったかも知れませんが,限定表示の場合は, 全文表示の場合にあるダウンロードのリンク(Plain text, Download)が現れません. しかし,物理的文書同様,兎に角,見えているのですから,画像化文書にできればOCRでコード化できるはずです. これを実際に行うときに便利なのが「画面キャプチャ」のツールです.一番簡単な画面キャプチャの方法は Windows を使う方法です.PrintScreen (PrtScn)というキーを押すと画面全体の画像がクリップボードにコピーされるので,たとえば Paintを起動して([スタート]→[プログラム]→[アクセサリ]→[ペイント]),編集の「貼り付け」をすると,全画面の画像が貼り付けられます.また,Alt+PrtScn だと,今,アクティブになっているウィンドウの画像がクリップボードにコピーされます. 2009/10/14
文書とOCR 「文書」という言葉には色々な意味があります.コンピュータ上では, “aaa.txt”, “bbb.doc” などの文書がありますし,“20100506.ppt” というファイルも「PowerPoint の文書」と呼ばれることがあります.これらはSJIS, Unicode などの文字コードで文を表現していますので,コード化文書と呼べるでしょう(一般的用語がないので,林が作った言葉です). 紙の上のインクや看板上のペンキ,石碑上の凹み,などの物理的模様による文書を物理的文書ということにしましょう.皆さんが見ているモニタ(ディスプレィ)上の,この文書も物理的文書と言えるでしょう. また,物理的文書をデジカメで撮影して作った “aaa.jpg” “bbb.bmp”などの電子画像を画像化文書(正確には電子画像化文書)と呼びましょう. OCR とは画像化文書をコード化文書に変換することだといえます.物理的文書を画像化して画像化文書にするのにはデジカメやスキャナーを使います. 2009/10/14
実際にやってみよう ここから席を立って,前に集まってください. まず,林がやってみせます.その後で,それぞれのPCに適当に分かれて,各自,自分で実際にやってみてください. 2009/10/14
画面キャプチャ・ツールと OCRの連動 無料,シェアウェア,有料の画面キャプチャを使うともっと色々なことできます.たとえばディスプレー上の文書の領域を矩形で指定し,それを自分で指定したOCRソフトに送ることもできます.つまり,画面上の「画像として見える文章」ならば,何でも(正確には殆どの場合),OCRにかけられるのです. 画面キャプチャのツールは一般に廉価ですが,無料やシェアウェアでも十分性能が良いものもあります.たとえば,WinShot は無料ですが,色々な機能をもっており,キャプチャした画像をOCRなどのアプリに自動的に送ることもできます. 2009/10/14
フリー・ソフト,シェアウェアを活用する WinShot のような無料のソフトを,無料ソフト,フリー・ソフトといいます.また,ただで使えるが,気に入った人からはお金を徴収する(寄付?,大道芸のような感じ)場合を,シェアウェアと言います. http://www.forest.impress.co.jp/lib/pic/piccam/capture/ にそういうソフトのリストがあり,ダウンロードできる場所へのリンクもあります.このサイト,「窓の杜」 http://www.forest.impress.co.jp には,多くのフリーソフト,シェアウェア,有料ソフトが登録されており,ダウンロードできるようになっています.何かツールが必要なとき,まず,ここを見るようにしましょう. 2009/10/14
ただし,OCR は・・・ 機能面などで贅沢を言わなければ大抵は無料ソフトで済む時代になっています.たとえば,MS Office (Word, Excel, …)の代わりをする Open Office という無料ツールは有名です.http://www.forest.impress.co.jp/lib/offc/document/offcsuite/openoffice.html しかし,そういう時代でもOCRは例外です.日本語のOCR でチャンと使える無料のものは,今のところSmartOCR http://ocr.rossa.cc/ しかないようです.しかし,これを作っていた会社は潰れたので,バリバリ使うのは難しい状況です. OCR を使いたい場合は,購入する,スキャナーやAcrobat などに附属でついてくるOCRを使う,のどちらかしか良い方法はありません. 欧文の場合は,SimpleOCR など幾つか有名なフリーOCRソフトがあり,Google Book Search でもドイツ文字の認識にフリーOCR Tesseract が使われています. 特に Simple OCR は良くできていて,続け字でなければ手書きでも認識します.(ただし,日本語は活字も認識しません.) 2009/10/14
この部屋ではもうひとつ問題が... フリーなOCRソフト SimpleOCR や SmartOCR をダウンロードして,サテライト室(演習をやっえているこの部屋)のPCにインストールしてみてください.そうすると,... ...失敗します.例え,自分のUSBディスクにインストールしようとしても失敗します.自分のUSBディスクならば勝手に書き込めるはずなのに,インストールができません. これはこれらのソフトをインストールする際に,レジストリという管理者しか書き換えられないファイルを変更する必要があるからです.この部屋ではレジストリは変更不可能です.すべてのソフトがそうではありませんが,多くのソフトはインストールの際にレジストリを変更します. ということで,残念ながらOCRはこの部屋での実習は難しいので,これで終わりにします.各自は自分のPCなどで試してみてください. 2009/10/14
デジカメ・PCで研究資料を収集: 史料研究デジカメ革命の時代 ここでOCRから離れ,物理的文書を画像化文書にする,そして,それをPCで整理するという,今,多くの歴史家がマイクロフィルなどの変わりに使い始めている方法を紹介します. 一次資料(史料)を研究対象にする歴史研究者にとって,デジカメの登場は大変な朗報でした.デジカメ登場以前は,マイクロフィル業者に頼むしか良い方法はありませんでした.しかし,これはかなり高いのです. ところが高解像度のデジカメが登場して,この10年くらいで資料調査の姿はかなり変わってしまいました. デジカメ,電子化文書,PCのインパクト! 現代文化系の3人の歴史研究者,小野沢(米国政治史),永井(日本近代史),林(近現代科学技術史,思想史)の研究の実例を説明します.長くなるので,WEBページにまとめました.これを見ながら説明をします. 永井先生のグループは何回か後にみなさんに使ってもらうSMART-GSで倉富勇三郎日記を翻刻し出版しています。 そして,林が群馬大図書館で京都学派の哲学者田辺元の史料を調査するときの撮影方法を再現してみせます. 2009/10/14
デジカメ,電子化文書,PCのインパクト 研究の現場から(現代文化系の例を中心に) 特殊文庫(貴重書) 京大文学部の特殊文庫 京都学派に関連した特殊文庫 群馬大田辺元文庫 法政大学,三木清文庫,戸坂潤文庫 2009/10/14