情報技術演習Ⅰ 人文学研究のための情報技術入門 2015/05/07 情報技術演習Ⅰ 人文学研究のための情報技術入門 2015/05/07 担当:林晋 TA:橋本雄太
デジカメ・PCで研究資料を収集: 史料研究デジカメ革命の時代1 現代の印刷物はOCRでPC上のテキストにできる。そのため、現代の印刷物をPCに取り込むときは、前回やってもらったように、スキャナをつかい、画像にして、さらにOCRソフトを使うのが標準的な方法。 しかし、手書き文書のOCRは、特殊な場合(例えば、郵便番号)を除いて、手書きの認識に成功していない。 英文の noncursive だとかなりよめるものがあるが、日本語はまだまだ難しい。 また、明治20年代以前の多くの日本語の印刷物は現代のOCRではうまく処理できない。 この時代以前の活字が中国製であり、それ以後の日本語の活字と異なるからだという説が有力。 日本語と違い英語の印刷物は17世紀のものでは、ほぼ問題なくOCRでテキスト化できる。すでにこの時代から標準化が進んでいたらしい。 この日本語と英語の印刷物の違いは、まだちゃんと研究されたことはないらしい。(詳しくわかると博士論文にもできるでしょう。)
デジカメ・PCで研究資料を収集: 史料研究デジカメ革命の時代2 そのため、その様な文書を歴史家が扱うときには、OCRなしで画像としてだけ扱うしかない。 そういう時には、マイクロフィルム、マイクロフィッシュを使うのが、10年前くらいのまでの標準的方法だった。 そして、史料のマイクロフィルムの作成は、特殊なカメラや撮影方法、現像工程を必要とするために、専門業者に依頼するしかなく、文書館・図書館が、それを行い、歴史家は、マイクロフィルムのコピーを購入するか、それを「焼いた」ハードコピーを購入するしかなった。これは1枚あたりのコストがかなり高かった。普通、コピー代より高い。 そのため、どの史料を購入するかを決めるために、歴史家は史料館・図書館などを訪問して、史料のオリジナルやマイクロフィルムを閲覧して、どの画像(マイクロフィルムやそのハードコピー)を買うかを決める必要があり、その決断は難しいし、時には間違うし、また判断している時間は閲覧が止まるので時間がかかる等、結構大変だった。
デジカメ・PCで研究資料を収集: 史料研究デジカメ革命の時代3 また、マイクロフィルム化がなされていない史料の場合は、業者にマイクロフィルム化を依頼する必要があり、これはかなり高価だった。 ところが、高解像度のデジカメが登場して,この資料調査の常識が大きく変わった。 史料館・図書館が許可さえしてくれれば、歴史家が自ら、デジカメで史料を撮影することが可能になった。 デジカメ画像の利点 1枚あたりのラニングコストは、ほぼゼロ カラー画像である 「大きさゼロ」なので膨大な量の史料を簡単に持ちあるくことができる
デジカメ・PCで研究資料を収集: 史料研究デジカメ革命の時代4 このため、現在は次のどれかの方法が取られる 歴史家が自らデジカメで史料を電子化する 史料館・図書館などが史料をデジカメで電子化して、それを歴史家に売る。場合によっては無料で配布する。 無料の場合はWEBアーカイブで公開されることが多い デジカメで撮影するのではなく、既存のマイクロフィルムを、電子画像化する マイクロフィルムを焼いたハードコピーをスキャナで電子化する
デジカメ時代の史料の実物 マイクロフィルムの画像化: デジカメ画像(カラー画像) 群馬大学田辺元文庫の史料を群馬大がマイクロフィルム化し、それを電子化してWEBアーカイブにして無料で公開しているもの デジカメ画像(カラー画像) 1と同じ文庫の史料(日記)を業者に依頼して撮影してもらったもので、WEBアーカイブ「京都学派アーカイブ」として公開しているもの 同じ文庫の史料を林が自分で撮影したもの マイクロフィルムを焼いたハードコピーをスキャナで電子画像化したもの ドイツの数学者D.ヒルベルトの日記のマイクロフィルムを、林がドイツ、ゲッチンゲンの大学図書館に赴いてオリジナルを確認した上でハードコピーを購入したもの 同じ史料をゲッチンゲンの図書館がデジカメ画像として売っているのを、林が購入したもの 3,4の資料を見るには認証が必要です。IDとパスワードは別に見せますので、記録しておいてください。これはゲッチンゲン大学図書館の史料画像のコントロールが厳しいからです。
現代のデジタル史料の実際 現代文化系の3人の歴史研究者,小野沢(米国政治史),永井(日本近代史),林(近現代科学技術史,思想史)の研究の実例.長くなるので,WEBページにまとめました.これを見ながら説明をします. 永井先生のグループは後でみなさんに使ってもらうSMART-GSで倉富勇三郎日記を翻刻し出版しています。
新たな問題 デジカメ史料の登場で新たな課題も生まれている それが膨大な数の画像をどうやって整理するかという問題 簡単に、しかも、ラニングコストほぼゼロで史料画像が作れると、つい沢山作り過ぎてしまう また、撮影時には色々な理由で同じ史料を二度とったり、史料のページの順番を違えて撮影したり、ということが起きる また、画像ファイルには、普通は撮影時の日時や、撮影順の通し番号で名前がつく これらのため、「不必要なものは消し、綺麗に並べ直し、統一的な名前(ファイル名)をつける」という作業が必要 数が少なければ簡単だが、デジカメ画像は膨大な数に登るのが普通なので(ラニングコストが実質ゼロであるため)、この作業を手作業でやると大変なことになる。数千画像は当たり前の世界なので…
課題5 提出期限: 5月18日(月) 18:00 ←再来週です! 提出方法: susumu@shayashi.jp にメールで. 件名(subject)は必ず,“情報技術演習 課題5”とする. http://www.shayashi.jp/s9lnfigsmall.zip は,先ほどの動画で撮影していた昭和9年京大文学部哲学教室田辺元教授の特殊講義の記録です.おそらく講義参加者が勝手に作ったものと思われますが,田辺哲学の研究の手がかりとなる貴重な史料です.(zip の意味は後で説明します.) 説明したとおり,本を保護するため奇数頁と偶数頁に分けて撮影しました.デジカメは画像にIMG_0001.jpg , IMG_0002.jpgのような連番を撮影順につけますので,この連番の順と頁の順番が一致しません.また,本が傾いていたことに気が付き,数頁を取り直した重複する画像や不必要な試し撮り画像もあります.原因不明で連番が IMG_0002_1.jpg のようになっているものもあります.さらに厄介なことに頁めくりの都合で,偶数頁は184頁から2頁へ逆順に撮影されています. タスク(やること):画像のファイル名を,その画像が,たとえば23頁の場合は page023.jpg, 178頁の場合は,page178.jpg となるようにつけかえなさい.その方法を書いて,上記の方法と期限に従って提出してください.(頁数がない画像の名前は自分で工夫すること.)また,実際に名前を置き換えたものを(一つのフォルダに纏めて置いてください),次回以後の演習の際に直接見せてもらいます. 何も説明しないで、これをやってもらうのは難しすぎるので、ヒントとなる説明を以下でします。
手順は? それが課題ですから詳細は説明しません. しかし,その概略は次のようになります. 必要な画像,不必要な画像,新しいファイル名を画像全部をチェック(画像の閲覧)して決定する. 画像を種類ごとに仕分ける. 名前を変える. 一つのフォルダに纏める.
画像をチェックする方法 画像ビューワ: 画像閲覧のためのソフト.それらの多くはレジストリを変更しないので,自分のUSBディスクにインストールして使える: ViX Susie XnView:非常に高機能でビューワというより画像変換ツールと言った方がよい.日本語への対応が悪いのが欠点. 注:レジストリを変更しないことを「レジストリー・フリー」などと言います.サテライト室でUSBディスクにツールをインストールして使えるかどうかは,「レジストリー・フリーと書いてある」,「インストールがダウンロードや解凍だけで済む」が一応の目安になります. Windows のエクスプローラは案外優れもの.次は、それを使っている様子。
ファイル名変更用ツール デジカメが普及し,大量の画像ファイルを扱う機会が増えたため,画像ファイルの名称を変える,特に連番を付けるためのツールが沢山が作られています.使い方は千差万別ですので,たとえば次ページのリンクを参考にして自分で調べてみてください.その際,連番変更のポイントは次の3点です: ファイルは何らかの順番に並べられている. その順に「ファイル名本体+連番+.イクステンション」というファイル名を「連番」を増やしながら(あるいは減らしながら)つけていく.たとえば,課題1では,ファイル名本体は “page”, イクステンションは “jpg”, そして連番は 001, 002,…,184 などとなる.(1,2 とせず,必ず 001, 002, とすること. そうする理由はわかりますか?) 上記の名前変更には,「連番の最初の番号」「連番の増加(減少)単位」「連番の最後の番号」を指定する必要がある.増加(減少)の単位を,通常,ステップという.たとえば,ステップが2ならば,連番は 001, 003 のように増える.
ファイル名変更用ツールリンク集 BatchGOO Namery x_rename Flexible renamer 他にも沢山あります.自分の好みのものを見つけましょう.