情報技術演習Ⅰ 人文学研究のための情報技術入門 2017/05/

Slides:



Advertisements
Similar presentations
情報技術演習Ⅰ 人文学研究のための情報技術入門 2014/06/11 担当:林晋 TA: 橋本雄太.
Advertisements

情報技術演習Ⅰ 人文学研究のための情報技術入門 2016/04/21 担当:林晋. 今回のテーマ:電子メディアにな れる まずは人文学に役立つ「電子メディア」になれる. 電子メディア:電子アーカイブ,電子ライブラリ, 電子ジャーナル,電子ブック,... – 同じことだが,デジタル・アーカイブ,デジタル・ライブ.
T2V 技術 Web 製作ラボ 3/ hayashiLabo 2. T2V 技術 PC 操作 念のため・・・
デジタルカメラで撮影した写真を 友人や親戚にメールを使って送る
(実はアイコンは単なる飾りで、この縦書きの部分のどこをクリックしても次のページに移動します。)
情報・知能工学系 山本一公 プログラミング演習Ⅱ 第3回 配列(1) 情報・知能工学系 山本一公
本日のスケジュール 14:45~15:30 テキストの講義 15:30~16:15 設計レビュー 16:15~16:30 休憩
情報技術演習Ⅰ 人文学研究のための情報技術入門 2016/05/11
HG/PscanServシリーズ Acrobatとなにが違うのか?
情報技術演習Ⅰ 人文学研究のための情報技術入門 2012/11/08
情報技術演習Ⅰ 人文学研究のための情報技術入門 2014/05/29
情報技術演習Ⅰ 人文学研究のための情報技術入門 2015/07/02
情報技術演習Ⅰ 人文学研究のための情報技術入門 2011/11/10
Android と iPhone (仮題) 情報社会とコンピュータ 第13回
QRコード作って使ってみる 作成者: 川瀬 智美 川瀬智美ですよろしくお願いします ここにあるマークご覧になったことありますでしょうか?
小学校3年 指導資料例データ.
情報技術演習Ⅰ 人文学研究のための情報技術入門 2013/06/26
情報技術演習Ⅰ 人文学研究のための情報技術入門 2013/04/18
ファイルやフォルダを検索する ①「スタート」→「検索」→「ファイルとフォルダ」とクリックする。
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
情報技術と著作権.
情報技術演習Ⅰ 人文学研究のための情報技術入門 2013/05/16
ただで使えるソフトウェア ーインストールとお絵かきー
情報技術演習Ⅰ 人文学研究のための情報技術入門 2013/05/09
簡単な画像処理 通信教育学部 コンピュータ演習 遠藤美純.
デスクトップを画像として保存する(1) ① デスクトップの画像をクリップボードへコピーする。
コンピュータと情報 第3回 補遺 ファイルとフォルダ.
情報技術演習Ⅰ 人文学研究のための情報技術入門 2012/11/29
情報技術演習Ⅰ 人文学研究のための情報技術入門 2013/04/11
“所有”から“利用”へ 情報社会とコンピュータ 第12回.
アナログとディジタル 高校1年 社会と情報⑤.
情報技術演習Ⅰ 人文学研究のための情報技術入門 2015/05/07
コンピュータ基礎実習上級 #10 絶対パスによる指定
情報技術演習Ⅰ 人文学研究のための情報技術入門 2011/10/13
NC-2 情報通信基礎実験 WEBデザイン基礎実験 (1日目) 担当:清水,田代 副手:浦辺,石井.
2009/5/22 けーちゃん カンタン  Wikiで情報共有 あいさつ 2009/5/22 けーちゃん
情報技術演習Ⅰ 人文学研究のための情報技術入門 2017/07/06
情報技術演習Ⅰ 人文学研究のための情報技術入門 2017/06/22
情報技術演習Ⅰ 人文学研究のための情報技術入門 2013/06/06
情報技術演習Ⅰ 人文学研究のための情報技術入門 2017/06/01
(Wed) Edited by KON IT講習会 一太郎編.
情報技術演習Ⅰ 人文学研究のための情報技術入門 2017/04/20
経営工学基礎演習a PowerPointの利用.
Microsoft PowerPoint98 Netscape Communicator 4.06[ja]
あなたが加害者にならないために こんどは「あなたが加害者にならないために」という観点からみていきましょう。
文献の整理術 ―文献管理ソフトを使ってみよう―!
情報技術演習Ⅰ 人文学研究のための情報技術入門 2014/05/15
情報技術演習Ⅰ 人文学研究のための情報技術入門 2011/12/01
単語登録(1) ◎MS-IMEの「単語登録」に、単語、語句、記号など自分がよく使うものを登録しておくと、便利である。
情報技術演習Ⅰ 人文学研究のための情報技術入門 2014/05/01
情報機器と情報社会のしくみ Web素材利用
6演習 「ICTを活用した授業の展開」 すでに学校に英語ノートのコンピュータ用ソフトが届いているかと思います。電子黒板がある学校では、そのソフトをさらに効果的に活用することもできます。電子黒板でどんなことができるかを紹介します。
インタラクティブ・ゲーム制作 プログラミングコース 補足資料
情報スキル活用 第4週 基礎技術-4 : その1(タグのまとめ).
情報技術演習Ⅰ 人文学研究のための情報技術入門 2017/06/08
情報技術演習Ⅰ 人文学研究のための情報技術入門 2017/05/11
情報技術演習Ⅰ 人文学研究のための情報技術入門 2016/06/09
環境教育関係の素材作り 島田 篤.
連絡先 ① ② ③ 作成 平成 年 月 日 名 前 生年月日 住 所 学校・園 家や園での呼び名 平成 年 月 日 ( 男 ・ 女 )
ホ-5班 発表タイトル(30字以内) 学籍番号1 名前 学籍番号2 名前 学籍番号3 名前 学籍番号4 名前 …
プログラミング入門 電卓を作ろう・パートI!!.
プログラミング演習I 2003年4月15日(第一回) 木村巌.
本当は消去できていない!? ~データを完全消去する方法~
本当は消去できていない!? ~データを完全消去する方法~
情報技術演習Ⅰ 人文学研究のための情報技術入門 2016/05/26
情報技術演習Ⅰ 人文学研究のための情報技術入門 2017/04/13
情報技術演習Ⅰ 人文学研究のための情報技術入門 2015/04/09
単語登録(1) ◎MS-IMEの「単語登録」に、単語、語句、記号など自分がよく使うものを登録しておくと、便利である。
レポート&筆記試験について.
タイマを開始するには、[スライド ショー] メニューの [実行] をクリックします。
Presentation transcript:

情報技術演習Ⅰ 人文学研究のための情報技術入門 2017/05/ 情報技術演習Ⅰ 人文学研究のための情報技術入門 2017/05/ 担当:林晋

課題5についての注意 課題5は、出来上がったフォルダーを林に見せてもらい、また、林が解答と、出来上がったフォルダーについて幾つか質問をして、それで提出完了となります。 間違えて、結果を添付した人も、このインタビューを行って初めて提出となります。

今回のテーマ OCR ツールの使い方

文書とOCR 「文書」という言葉には色々な意味があります.コンピュータ上では, “aaa.txt”, “bbb.doc” などの文書がありますし,“20170525.ppt” というファイルも「PowerPoint の文書」と呼ばれることがあります.これらはSJIS, Unicode などの文字コードで文を表現していますので,コード化文書と呼べるでしょう(一般的用語がないので,林が作った言葉です). 紙の上のインクや看板上のペンキ,石碑上の凹み,などの物理的模様による文書を物理的文書ということにしましょう.皆さんが見ているモニタ(ディスプレィ)上の,この文書も物理的文書と言えるでしょう. また,物理的文書をデジカメで撮影して作った “aaa.jpg” “bbb.bmp”などの電子画像を画像化文書(正確には電子画像化文書)と呼びましょう. OCR とは画像化文書をコード化文書に変換することだといえます.物理的文書を画像化して画像化文書にするにはデジカメやスキャナを使います.

OCRとスキャナの実習 今日は,スキャンとOCRを実際にやってもらいます. そして,その結果のテキストファイルが提出すべき課題となります.

スキャン+OCRの応用:自炊 大量の書物を読んでレポートを書く,卒論を書く,研究する場合,それが Google Books の書籍のように検索できると大変便利 また検索ができなくても,書籍がデジタル画像になっていれば,大量の本を軽々ともち運ぶことができる. 本棚も不必要になり省スペースになる それらを可能にするのが,いわゆる自炊 本を解体したりして,スキャナーで電子画像にし,PDFファイルなどにまとめることを自炊という. 注意!!! これは自分だけのためにやるのならば問題がないが,人に渡してしまったりすると著作権侵害となる(らしい)ので注意!! これからやる演習の結果も,林への課題提出以外では,決して他人に渡してはいけません

自炊のやり方を書いたWEBページ http://wikiwiki.jp/bookjisui/ http://ushigyu.net/2012/03/01/jisui_q_and_a_by_jisui_blogger/ http://bizmakoto.jp/bizid/articles/1006/01/news031.html http://pc.watch.impress.co.jp/docs/topic/feature/20110218_426830.html

本を解体する自炊の方法 本を裁断して,iX500 の様な専用スキャナで読み込む. 長所と短所 短所:本がバラバラ.捨てることになる. 長所:裁断さえできれば,読み込み(スキャン)は簡単かつ速い.(後で実際にやってみる.) 短所:裁断は裁断機のよいものがない場合は大変

裁断の事例集 http://www.youtube.com/watch?v=pYBLZUKB0Uw http://www.youtube.com/watch?v=6D_6unB4X6c&feature=related http://www.youtube.com/watch?v=RD2EmcgVRR8&feature=related ディスクカッター http://www.youtube.com/watch?v=wJ5Lefyx26E&feature=related 電子レンジを使う方法:http://www.youtube.com/watch?v=G7i9E4XovMw&feature=related 置き場所にさえ困らなければ,大きいが比較的安い裁断機もある.

融合型:一度コピーする方法 普通のフラットベッド・スキャナは,コピー機に比べて,一枚をスキャンする時間が長い. そこで本をコピーするときと同様,一度,コピー機でコピーを作り,それをドキュメント・スキャナにかけるという方法もあります. これは紙のコピーも作っておきたいときには便利な方法ですが,コピー代がかかるという短所があります.

オーバーヘッド・スキャナ ScanSnap SV600 (1/4) 以上,紹介してきた方法で本,特に厚みのある本をスキャンするのは,いずれにしてもかなり大変でした. しかし,2013年,オーバーヘッド・スキャナ ScanSnap SV600 というものが発売されて,状況が大きく変わりました. まず,そのデモ画像を見ます: https://www.youtube.com/watch?v=j9oeXiNqIDk

オーバーヘッド・スキャナ ScanSnap SV600 (2/4) 撮影用無反射ガラスを使うと良い:押さえ指のソフトによる削除は面倒だし,指で両端を抑えたのでは,本中央の盛り上がりは抑えられず,そのために画像がどうしても歪む. 歪みは,後でやってみるように,ソフトで修正できるが,いつもは上手くいかないし,時間がかかる. しかし,無反射ガラスを使って,それで押さえて撮影する方が良い結果が得られる. http://www.glass-dictionary.com/14/ ヨドバシのオンラインショップ 透明アクリル板で代用できる. ページめくり検出でなく,ボタンを一回一回押す方が実用的. ボタンは大きく,苦にならず,おそらく,慣れると,その方が速い. 特に無反射ガラスを使う場合はそう.

オーバーヘッド・スキャナ ScanSnap SV600 (3/4) 長所 安い,小さい,軽い: 5万円台 この様なスキャナは以前から業務用として販売されていました. しかし,それは数十万円もする大きくて重い機械でした. それが個人でも買えて,何時もは,小さくしまっておけるようになり,調査旅行にも持っていける(キャリングケースがついている)ようになったところが,歴史家の目からすると革命的なのです. 天井の照明の映り込みを気にしないで済む. 次回の「デジカメによる史料撮影の方法」の紹介で詳しく説明するが,高精度史料撮影の最大の難関は,史料を押さえるために使う無反射ガラスに,天井の照明が映り込んでしまうこと. これは特に,出張して撮影するときに大きな問題となる. SV600は自ら発光してスキャンするので,天井の照明をオフにすることができる.

オーバーヘッド・スキャナ ScanSnap SV600 (4/4) 短所 不十分な精度: 個人で自炊するとか,歴史史料を撮影してきて研究する場合,つまり,自分だけのために撮影するには,十分な精度がある. しかし,たとえば,京都学派アーカイブのような公開されたアーカイブのための画像を作る場合には,現在のWEBアーカイブに求められている画像精度に達していない. スピード: 群馬大学図書館の田辺元史料で,昨年秋に,林が実際にデジカメとSV600で撮影とスキャンをしてみたときの記録:林晋ブログ記事2013年11月18日 デジカメ撮影より若干遅い. 現代史の研究者は,一日に数百の画像を撮ることは普通. 千を超えることも珍しくはない. そういう場合には遅すぎる.

安いスキャナも iX500 の様な本格的スキャナの大きな利点は高速性です. しかし,これを少し犠牲にした,大変小さく安いスキャナもあります.iX100 S1300i 用途にもよりますが,普通は,こういうので十分間に合います.

スマホをスキャナーに さらに廉価に、スマホをSV600の様なオーバーヘッドスキャナにするソフトや、それを使うためのスタンドなどもある。手作りしてしまう人もいる。 色々なスマホ・スキャナ 照明器具と兼用 手持ちのものも多い スマホ用スキャナアプリ5選 無料のもの

無料でOCRを使う方法 OCRのソフトはかなり安くなっていますが,それでも例えば e-typist は2万円近くします. Google のクラウドサービスを使ってテキスト化することも可能です.Google ドライブでOCR. また,日本語のCORで十分な精度のものがないものの,フリーのツールを使うという方法もあります.たとえば,英語のフリーのOCRツールは調べればすぐに見つかりますし,後で演習で使う情報・史料学専修で開発しているツールSMART-GSを使えばグーグルが無料で配布しているOCRエンジン Tesseract を使って,市販ソフトより高いと思われる精度で英文をテキスト化できます. これらについては、後に学びます。

実際にやってみよう 資料の説明を完了した後,前に集まってもらいます. そして,まず,林がスキャン+OCRをやってみせます.その後で,それぞれのPCに適当に分かれて,各自,自分で実際にやってみてください.それが今日の課題です. スキャナは2種類.ScanSnap iX500 と SV600です. 2種類の両方をやってください.おそらく時間は足りると思いますが,足りない場合は,次回も,同じ演習を行います. (他の演習も行います).

課題A(提出要): ScanSnap SV600, iX 500 を使う 自分で本や文書を持ってきたひとは,自分がもってきたものでやって結構です. スキャンしたページを、OCR eTypist でテキストにしてください.少なくとも、1ページをテキストにしてください. 結果は一つのテキストファイルにして,デスクトップにある提出用フォルダに置いてください(提出用フォルダは林が直接に説明). ただし,ファイル名を 自分の学籍番号名前.txt のようにしてください. 例えば,0100243333西田幾多郎.txt これで課題提出となります. OCRはかなり読みを間違います.この誤認識は気にしなくて結構です.