情報技術演習Ⅰ 人文学研究のための情報技術入門 2015/04/23 情報技術演習Ⅰ 人文学研究のための情報技術入門 2015/04/23 担当:林晋 TA:橋本雄太
電子ライブラリ・アーカイブ 全文検索とその威力 図書館の本を利用するとき,どうしていますか? 今では殆どの場合,OPAC(Online Public Access Catalog)を使います.京大ではKULINEの「簡易検索・詳細検索」などがそれ. しかし, 昔は紙のカードを使っていました.多くの図書館などで殆どの書籍データの遡及入力が済んでいますが,それでも,今でも紙カードでしか見つからない場合も稀にあります. 遡及入力とは: http://www.janul.jp/j/publications/reports/66/8.html 京大の遡及入力 静脩(Nov. 2007)の記事.古い記事なので, もう全部終っているはずだが,どのような苦労があったかが偲ばれる. PDFなのでクリックして開かなかったら,ダウンロードしてから読んでみてください.(静脩: 京大の図書館の学内誌) 文学部の遡及入力は完了している. 数年前まで遡及入力をしていた. 今は1Fの学生用のラウンジになっている場所を文学部の遡及入力のために使っていた. ただし,特殊文庫の資料の一部, 例えば西田幾多郎の手書き原稿などはOPACで検索することはできない.京大図書としての番号付けさえされていない…
今の基本はOPAC 現代では大学などの図書館,文書館では,資料や書籍には「番号」がつけられ, その番号で認識されています. そして, その番号はメタデータとともにデータベースに登録され, それを京大のOPAC kuline のようなWEBサービスで検索して, それがどこにあるかを調べたり, 予約したり, 他大学から取り寄せたりができます. ドイツ発祥のSubitoというサービスでは, 図書館に頼むとコピーを郵送してくれさえする. 日本でSubito に参加している図書館 参考資料 http://current.ndl.go.jp/node/8567 ドイツ語Wikipedia http://de.wikipedia.org/wiki/Subito 課題:メタデータとは何か調べよ. 提出必要なし.
ドイツは先進国 ドイツは図書館, 文書館のIT化, WEB化では, 世界トップの一つ. 特に歴史史料のようなものまで, 検索できるようになっている: Kalliope: http://kalliope.staatsbibliothek-berlin.de/ ゲーテの手稿や, 手紙などがどこに所蔵されているか, たちどころに分かる. 手紙の場合は, 送り手, 受け手を指定して検索できる
今はなんでもオンライン! 十年くらい前までは, こんなものはなかったので, ドイツ史をやるためには, その史料を探すために, ドイツに行ったり, メールを書いたりで結構手間だった. 今は特定の大学図書館に, 史料を問い合わせたりすると, 「なぜ, Kalliopeで調べないのか?」と, 怪訝そうな答が返って来る時代になっている. 日本では残念ながら, まったくこういうことはできそうにない. 問題は, 遡及入力のように, 紙の上だけにある情報を, サイバー空間(サイバースペース)にコピーすること. これは情報元が, サイバー空間に属していないので, コピーするには, 非サイバー空間(つまり, 我々が属していると思っている世界)での大変な労力が必要. しかし, 京大の中だけとかならば, 情報はすでにサイバー空間内だけで, 殆どの図書情報を検索可能. さらに,しかし,文学部が持っている西田幾多郎史料の様に,サイバー空間で調べられないものもある.学者ならそれを無視してはいけない. 課題:サイバー空間, サイバースペースとは何か調べよ. 提出必要なし
では, 昔はどうだったか? では, 昔はどうだったか? OPAC だけで済むようになったのは最近. 2007年11月の静脩(Nov. 2007)に遡及入力の記事があるということは, 7年前は, 現実物理世界と, サイバー世界にズレが有ったということ. 今は, これは記事にならない. サイバー世界=Kuline では分からないものがありますよ, という情報ならば記事になる. つまり, サイバーでないものが「例外」ということ. このように, 今はサイバー世界(OPAC)が主流, というより, それこそが「現実世界」となった. では, 図書館にPCさえなかった時代はどうしていた?
昔の人は大変だった:紙カード 昔の紙カードによる書籍探しは? 既に存在しないブログ http://toyohiro.at.webry.info/200812/article_7.html より,紙カード(目録カード)とそのボックス.このブログが存在しないことが時代いの変化を示している.
メタデータとカード 7,8年前まで, 京大でも書籍はカードで検索していました. もちろん, 文学部図書館以外の書籍は, その図書館に出向いて探すしかありませんでした. 各書籍を表すカードには, 書籍の色々な属性(性質, 特徴)が書かれています. 例えば, タイトル, 著者, 出版年などが書かれていて, それをキーにして, 次ページのような箱に入った大量のカードを一枚一枚めくって探していました. この様な情報が, 書籍のメタデータです.
Kuline の詳細検索とカード 次ページの画像は, Kuline の詳細検索の図です. これにも, 著者名, タイトル, 出版年という項目があります. そして, これらを指定して探すわけですから, カードを捲りながら, こういうメタデータで探していたのを, WEBを通して使っている図書館のコンピュータが肩代わりしてくれているということが分かります. また, Kuline の方が紙カードより遥かに, メタデータの項目が多くなっています.
書籍メタデータの標準スキーマ:Dublin Core Kuline 詳細検索や紙カードの項目のパターンを, スキーマ (schema)といいます. これは書籍メタデータだけでなく, データベース一般で使われる言葉. スキーマは各OPAC(のデータベース)ごとに決めますが, できるだけ統一した方が, 沢山のOPACを超えて検索するときなど便利です. つまり標準的スキーマがあると便利ですが, 現在, 最も基本的なものと考えられているのが, Dublin Core と呼ばれるスキーマです.
課題3,4:提出必要 課題3 課題4 提出期限:4月23日(本日)18:00 提出方法:susumu@shayashi.jpにメールで. 件名(subject)は必ず,“情報技術演習 課題3”にする. 自分の名前と学籍番号を本文冒頭とメール本文に書く. 問題: Dublin Core とは何か手短に説明せよ. 課題4 提出期限:4月29日24:00 件名(subject)は必ず,“情報技術演習 課題4”にする. 問題: 先に示した紙カードのスキーマの項目を, Dublin Core の項目と照らし合わせて説明せよ. ただし, 紙カードの画像だけでは, 何かよく判らないものもある. それらの説明は推測でやってよい.
船山信一の論理学史研究 船山信一(1907-1994):50-70年代の立命館教授.京大文卒業.京都学派左派(他に三木清,戸坂潤)の哲学者・労働運動家. 明治期の西洋哲学の導入史で知られる. 明治論理学導入史も研究している.日本の論理学史の,ほぼ唯一の研究.大体,明治20年代までの論理学関係の本を網羅. 図書カードを駆使して「論理」「推論」「推理」「演繹」などのキーワードに関連する題名や項目で探したとしか思えない.文部省(当時)の研究費をもらってやっている.バイトを使った? それが今では・・・
NDL近代デジタルライブラリで検索 http://kindai.ndl.go.jp/search/detail? デジタルライブラリの例で出てきた, 国会図書館の近代デジタルライブラリ. これの詳細検索で, 船山がやったことと同じことをやってみてください. 詳細検索URL: http://kindai.ndl.go.jp/search/detail? タイトル欄を「論理, 推論, 推理, 演繹, 帰納」にし, その右側のAND は OR にする. そして, 出版年は明治1年から45年(月日は空欄), 結果表示の第1ソートを「出版年:古い順」にしてから, 「詳細検索」のボタンを押す. これでタイトルに「論理, 推論, 推理, 演繹, 帰納」のどれかがある明治時代の書籍が出版が早い順ですべて出る. 次ページの図参照
結果は! 一瞬で膨大な数の関連図書が表示される. その中には, 日本の民主主義運動の魁の一人である「憲政の神様尾崎行雄(尾崎咢堂)」が書いた「演繹推理学」(明治15年)などというものも出てくる. これは船山も見つけている. おそらく船山が見つけた書籍は, これでほとんどすべて見つかっているはず.
船山が出来なかった目次検索 船山は目次までは検索できていない. しかし, 近デジならできる. 今度は, 「論理, 推論, 推理, 演繹, 帰納」をタイトル欄でなくて, 目次欄にして, 同様に詳細検索する. (次ページ図参照) そうすると, タイトルが論理を示唆しない本で目次に論理関係の用語があるものが沢山みつかる. その中には, 次のようなものまである: 小学教員必携 明治18年 目次に「論理学ノ部」「論理法ト教育ノ関係」 警官処世訓 明治38年 目次に「論理学」 あまりに沢山結果がでるので, 明治38年出版の「警官処世訓」はなかなか見つかりません.
全文検索 沢山の文書(ファイルなど)から,一つの言葉を一斉に探し出すことを「全文検索」(full text search) という. 文書の中を全部探すという意味らしい.しかし,すべての文書を,という意味もある(日本語では,そちらのニュアンスが強いような・・・). Windows の「検索」,Google など,この全文検索といえる. 船山は「題名」などのメタデータを検索したと思われるが, これは全文検索ではない. 題名でなく全文検索ができたら凄い. 日本では,次の二つが目次レベルまでの全文検索が可能 国会図書館近代デジタルライブラリ http://kindai.ndl.go.jp/index.html NII Webcat Plus http://webcatplus.nii.ac.jp/ Google Books http://books.google.com/ は本を超えての本当の全文検索が可能. たとえば, Franklin, lightning の二つをキーワードにして検索してみてください.
全文検索の威力 人文学研究のためには, 明らかに, メタデータ検索<目次検索<全文検索 近代デジタルライブラリの目次検索や, Google Books の全文検索により, それまでの人文学研究では見落とされていた面白い事実が簡単に見つかることがある. 明治論理学のケース:船山は思想史のレベルでしか, 明治の大論理学ブーム(これは現代のロジカルシンキング, クリティカルシンキングブームを遥かに凌ぐ規模だった)を見ていないが, 小学校教員, 警官のための「ハウツー本」にさえ, 論理学の話が掲載されていることは, これを文化史の立場でみて, 平成のブーム(MBAブーム)と比較すると面白そうだ.
注意! この様な検索技術を用いるとき, 「検索して無かったら, 現実にも無い」と思ってはいけない. 遡及入力の例でわかるように, サイバースペースはあくまで現実の世界ではない. それは現実の世界にドンドン近似しつつあり, それを凌駕しつつあるが, 必ず「抜け」はあるもの. 一旦面白い史料を見つけてしまえば, それはITで見つけても, 図書館の本でみつけても同じこと. 検索で見つけたということは関係ない! ただし, 検索という手段を持つ人は持たない人より, 頭一つ抜け出せる. 検索には知恵が必要だということを常に念頭において検索する. 近デジで明治の論理本を探す時, 「論理」以外に「推理」というキーワードを使っていることに注意. これがないと尾崎咢堂行雄の論理本「演繹推理学」はタイトルサーチではヒットしない. こういうことをやったのは, 林が「論理」という言葉が定着したのが明治のかなり遅い時期だということを, その訳語の考案者である西周を研究していた院生から聞いて知っていたから. だから, 林は, 西周の初期のlogic の訳語である「到知学」なども利用して, 色々とサーチを試みて色々な書物を見つけ, その上で本演習用に「論理, 推論, 推理, 演繹, 帰納」という検索用のフレーズ(クエリ query という)を考えた. こういうものが天から降ってくるのではない.
OCR: Optical Character Recognition Google Books の全文検索を可能にしているもの では, このような強力な全文サーチを可能にしているのは何だろうか? 近デジの場合は, 人間が目次を読んで入力していると思われる. 一方で, Google Books の全文検索を可能にしているのは,人間でなくて, OCR ソフトというソフトウェア. この差は何か?実は, これにはちゃんとした理由があるが, それは次回. 次回,このOCRの実習を, みなさんにやってもらいますで,次の二つを持ってきてください.持ってない人のためには,一応,こちらでも準備をします. デジカメ 撮影した画像をUSBディスクやSDカードでPCに移せるデジカメ.電話を使うと高くなるので,カードやケーブルで転送できるもの.ケーブルの場合,そのケーブルも.最近のものならばケータイでもOK. その文章を PC に入力したい5ページくらいの印刷物