Smart-GS による手稿解析 ── その実際 林 晋 京都大学大学院文学研究科 現代文化学系、情報・史料学教授.

Slides:



Advertisements
Similar presentations
情報技術演習Ⅰ 人文学研究のための情報技術入門 2014/06/11 担当:林晋 TA: 橋本雄太.
Advertisements

ウィキについて 1 1040431 1 1040431 植木貴宏 植木貴宏. ウィキとは? ウェブブラウザを利用して Web サーバ 上のハイパーテキスト文書を書き換え るシステムの一種。 ウェブブラウザを利用して Web サーバ 上のハイパーテキスト文書を書き換え るシステムの一種。 Wiki とは、ハワイ語で「速い」を意味.
IBMユーザ研究会九州研T3 3.Web2.0を実際に使ってみた. Web2.0を実際に使ってみました 研究会をプロジェクトに見立 てて “ Google SpreadSheet ” で会議を開く “ SNS ” でコミュニケーションを補助する “ Wiki ” で成果物を共有する.
英書購読 基礎現代文化学 ( 講読I ) 日本史学 ( 講読 ) 西洋史学 ( 講読 ) 担当:林晋 現代文化学系、情報・史料学教 授 月4 新7講義室.
2016 年度 計量経済学 講義内容 担当者: 河田 正樹
1 情報処理 II 第12回の 教材 高知大学理学部 数理情報科学科 1 回生い組対 象 数理情報科学科 1 回生い組対 象担当:塩田 プレゼンテーションソフト プレゼンテーションソフト PowerPoint.
電子書籍の検索機能の改善 木下研究室 201002713 鴫原 善寿. 背景 スマートフォンなどの携帯端末の普及と ともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、 持ち運びも容易になるなど様々な恩恵を もたらした。
データベースと情報検索 情報検索(3) ウェブアプリケーションを 使ってみる 教員 岩村 雅一. 日程(情報検索:担当 岩村)  12/9 検索エンジンを使ってみる  12/16 メディア検索を使ってみる  12/25 ウェブアプリケーションを 使ってみる  1/9 検索エンジンを用いた演習.
クリックすると、 [SourceEditor2.0] の インストール / 更新・起動 クリックすると、 [MarkReader2.0] の インストール / 更新・起動 クリックすると、 [MarkReader2.0] の インストール / 更新・起動 SQS ホームページ
ブログ blog ・ブログとは何 か? ・ブログとは何 か? ・ブログの始め方・ブログの使い方 Copyright Ⓒ 2005 Chiaki Emi All right reserved Ver 1.0.
Processing + WiiRemote
W e b 2.0 メディアコミュニケーション論Ⅲ 第4回.
本日のスケジュール 14:45~15:30 テキストの講義 15:30~16:15 設計レビュー 16:15~16:30 休憩
パネル型クエリ生成インタフェース画像検索システムの改良
HG/PscanServシリーズ Acrobatとなにが違うのか?
情報技術演習Ⅰ 人文学研究のための情報技術入門 2012/11/08
情報技術演習Ⅰ 人文学研究のための情報技術入門 2015/07/02
情報技術演習Ⅰ 人文学研究のための情報技術入門 2011/11/10
電子黒板活用研修 兵庫県教育委員会.
休講掲示板の電子化 鵜川研究室 菊地洲人 (あらかじめチラシを配る) 情報数理4年の菊地です。 これから私の研究内容の発表を始めます。
情報技術演習Ⅰ 人文学研究のための情報技術入門 2013/06/26
WordPressの基礎.
情報技術演習Ⅰ 人文学研究のための情報技術入門 2013/05/16
HTMLの記述と WWWにおける情報公開 遠藤
CG作品展示サイト”Fragments” ~ 『閲覧しやすさ』と『デザイン性』を両立させた Webデザイン~
ただで使えるソフトウェア ーインストールとお絵かきー
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
情報技術演習Ⅰ 人文学研究のための情報技術入門 2013/05/09
情報技術演習Ⅰ 人文学研究のための情報技術入門 2013/04/11
F5 を押すか、または [スライド ショー] > [最初から] をクリックして、コースを開始してください。
さとりすと Satori Ghost Editor 里々ゴーストの統合開発環境を作ったよ page: 1/25
共同ローカリゼーション フレームワーク 井上 謙次.
ONLINE植物アルバム 運営のサポート 情報数理専攻   D8691 根本亜由美 1.
情報技術演習Ⅰ 人文学研究のための情報技術入門 2015/05/07
Web上で管理・利用できる 面接予約データベースシステムの構築
EBSCOhost 詳細検索 チュートリアル support.ebsco.com.
ユースケース図2-4~ FM11012 中島拓也.
高山建志 五十嵐健夫 テクスチャ合成の新たな応用と展開 k 情報処理 vol.53 No.6 June 2012 pp
2009/5/22 けーちゃん カンタン  Wikiで情報共有 あいさつ 2009/5/22 けーちゃん
サイト運営者へむけて、CMS管理画面をつかって サイト運営していく方法を紹介します。
“W e b 2.0”,次どこへ?  - バズワード メディアコミュニケーション論Ⅲ 第3回.
パスファインダーの作成 slis. tsukuba. ac. jp/~fuyuki/cje2/CJE161018
情報技術演習Ⅰ 人文学研究のための情報技術入門 2017/07/06
情報技術演習Ⅰ 人文学研究のための情報技術入門 2017/06/22
(Wed) Edited by KON IT講習会 一太郎編.
Java ソフトウェア部品検索システム SPARS-J のための リポジトリ自動更新機能の実現
2004年度 サマースクール in 稚内 JavaによるWebアプリケーション入門
文献の整理術 ―文献管理ソフトを使ってみよう―!
情報技術演習Ⅰ 人文学研究のための情報技術入門 2014/05/15
情報検索(6) メディア検索の仕組み 教員 岩村 雅一
・タイプ別のフレームワーク ・デジタルTips(小技テクニック情報)
情報スキル活用 第2週 基礎技術ー2 : Webページの基本形.
暗号技術 ~暗号技術の基本原理~ (1週目) 情報工学科  04A1004 石川 真悟.
情報スキル活用 第4週 基礎技術-4 : その1(タグのまとめ).
すべて読む Microsoft SharePoint ニュース
情報技術演習Ⅰ 人文学研究のための情報技術入門 2017/06/08
情報技術演習Ⅰ 人文学研究のための情報技術入門 2017/05/11
コーディングパターンの あいまい検索の提案と実装
環境教育関係の素材作り 島田 篤.
基礎技術ー3 : Webページの標準規格について
構造的類似性を持つ半構造化文書における頻度分析
QRコードを用いた演習用紙の効率的な電子コンテンツ化
常設チャット トピック フィードを作成してアクティビティをフォローする Lync 2013 クイック リファレンス
Googleマップを活用した 生物調査データベースの構築
情報技術演習Ⅰ 人文学研究のための情報技術入門 2016/05/26
情報技術演習Ⅰ 人文学研究のための情報技術入門 2017/04/13
情報技術演習Ⅰ 人文学研究のための情報技術入門 2015/04/09
知識ベースの試作計画 ●●●研究所 ●●●技術部 稲本□□ 1997年1月.
医療科学B演習のおさらい 杏林大学医学図書館 医療科学B.
情報処理の概念 #0 概説 / 2002 (秋) 一般教育研究センター 安田豊.
Presentation transcript:

Smart-GS による手稿解析 ── その実際 林 晋 京都大学大学院文学研究科 現代文化学系、情報・史料学教授

SMART-GS というツール 手書き史料の研究支援に特化して作られたツール GPL2 ライセンスで提供 に実用例 の詳しい紹介がある。ただし、かなり古いバージョンに基づく。 開発は京大文、情報・史料学専修 画像ベースの検索ではこだて未来大学寺沢研究室の検索エンジンをもちいており チューンもしてもらっている。 構築中でほぼ完成しているネット上協働のプラットフォームは、NII相原研究 室との共同研究。 現在までに、林が把握しているもので、三つの歴史研究の応用され、4つ 目の準備中: 数学史「ヒルベルト数学手帳研究」(林) 政治史「倉富勇三郎日記研究」(京大文現代史永井和教授のグループ) 思想史「田辺元史料研究」(林、田辺元史料研究会) 政治史「内海忠司日記」(近大、近藤他) 2

歴史資料研究の革命 (1/3) この 10 年程で、手書き文書、印刷物を問わず、 歴史資料の研究に革命的が起きている。 最大の要因はデジタル文書、特に画像文書=画 像ドキュメント:つまり、画像としての文書。 それを作るためのデジカメやスキャナ、それを保存す る HDD, SSD などの高性能化と廉価化。 その前提としての PC の高性能・廉価・軽量化。 そして、そういうデータを容易に地球の裏側に まで届けることができる WEB/ インターネットの 存在。 ブロードバンド:これがないと大量の画像文書は容易 には送れない。容易でないものはないのと同じ。 3

歴史資料研究の革命 (2/3) 6-7 年前の林のケース 現代数学の方向を示したといわれる 世紀の大数 学者 D. ヒルベルトの日記研究のために、 A3 用紙が入 る特別大きいバッグを買い数百枚の A3 マイクロフィ ルム・ハードコピーを常に持ち歩く。 ハードコピーを時系列でならべて分析するためツール : 史料を並べる長い折り畳み式テーブル 2 台(自宅用も買った) 移動しながら史料を見るための車輪付きスツール 拡大してみるための台付ルーペ ポストイット、 4 色ボールペン …. 4

歴史資料研究の革命 (3/3) しかし、今は、これのすべてが obsolete に! テーブルはミーティングや面接用に転用(自宅のは困 っている …. ) 車輪付きスツールはお客さんが多いときに自分が座る 老眼が進んだので台付ルーペは重宝 (^^) ポストイット、 4 色ボールペンは、いずれにせよ本や 論文を読むときに使う これらの替りに使うようになったのが: PC+ マルチデスプレイ:ワイドディスプレイ 3 台 SMART-GS 5

それはこんな感じ 6 ヒルベルト研究をやっていた 5 年ほど前のデスク トップのキャプチャ画像 左の4つのウィンドウが SMART-GS 残りが Göttinger Digitalisierungszentrum のアーカイ ブ Wikipedia のヒルベルトの記事 20 世紀初頭の独英辞典の電子化版

講義・演習でも 現在は講義や演習も SMART-GS で行うことが増えてい る。 特に、京都学派の哲学者田辺元の手書き文書を翻刻・分 析する演習では、2組のプロジェクタとスクリーン、 SMART-GS を使いデスクトップ環境を再現。 今年度前期担当した2回生向け英書購読では、教科書を 自炊し SMART-GS でマークアップと解説を書き、学生 のレジュメを Acrobat で表示(ここがまだまだの部分。 PDF も SMART-GS で扱いたいのだが、まだできない) 。後で学生が見れるように SMART-GS 資料 (gsx ファイル )を HTML 出力し整形しブログに貼った。便利!!!! 7

どうしてこんなことが起きた か 林のヒルベルト日記研究では、日付がついてい ない断片的なメモの 10 年分ほどに、1,2年の 誤差で記述時期を同定することが求められた。 これにより、それまでのヒルベルト観、数学基礎論史 観が大きく覆った(興味のある方は、岩波文庫「不完 全性定理」の長ーい解説をご覧下さい)。 このために日付と関連するテキストのさまざま な部分を見つけ出してマークアップし、それに 投稿や執筆の時期がわかる論文や、時期が知ら れている歴史的できごとをリンクしていき、不 等式の方程式を解くようにして時期を割り出し た。 8

実例 9 付箋 ポストイッ ト 書き込み 下線 等

印刷物の事例で何をしているの か分析してみる 10 Bookmark by PostIt Flag Underline Marginal note

マークアップのリンク 11 A region marked up by the brace Brace Marginal note A line linking the region and the note

1. このようなアノテーシ ョンが、印刷・手書き 、の区別無く、文献画 像に対して行える 2. アノテーションだけを 分離し、保存・コピー ・修正・公開などがで きる。 3. 印刷物だけでなく、こ のような手書き文書で も 全文検索ができる。 12 ポストイ ットでブ ックマー クとメモ 下線により 領域を指定 メモメモ 余白のメモと領域 をリンクし関係づ ける矢印 マイクロフィルムを焼いたハードコピーに 行った実際のアノテーション。これを電子的 に行える

SMART-GS の基本的機能 HTML テキストエディタ。当然、マークアッ プ機能は使える 画像ドキュメント(ドキュメントの画像)の マークアップ 画像ドキュメント、 HTML テキストのマーク アップ間のリンク 画像ドキュメントの画像の類似性による検索 つまり、 HTML テキストエディタの機能を、 画像ドキュメントに拡張したものが SMART- GS 13

SMART-GS のマークアップ方式 14 マークアップな どの情報は 文献 画像とは分離さ れており、 gsx-file という 別のファイルに 格納されている。 =+ 文献画像

SMART-GS の画像検索方式 公立はこだて未来大学寺沢憲吾准教授が開発 した画像検索エンジン DscSearch を使用。 DscSearch を基礎に次の様な機能を追加して 、手書き文書検索を実用的にしている: 分割並列検索による高速化と大規模データ対応 DscSearch が出力する結果の候補から、正しいも のをユーザーが選び、それらのどれかに似ている ものを再度検索することにより、手書きの「ブレ 」の問題を解決する芋づる式検索 15

開発の動機 先に述べたヒルベルト日記研究は極めて複雑な作業を必 要とし、ハードコピーや情報カード・ノートなどを使っ ての作業は極めて困難だった。 林が神戸大工学部のソフトウェア工学者だったころ、林 研究室で SMART というツールを開発していたが、この ヒルベルト日記研究の作業は、システムが満たすべき大 量の条件から SMART を使ってシステムのモデルを作り あげていく作業と酷似していた。 そこで SMART 様な歴史研究用ツールがあれば、作業が 簡単になるはず、というのが最初の発想。 そのため、新システムを SMART-GS と命名。 GS = geschichtliche Studie = 歴史研究 ( 独 ) 16

SMART-GS の実用例 1/2 1. ヒルベルト日記研究は開発が終了する前に、ほ ぼ完成。実際には、あまり使われなかったが、 ひとつ残っていた重要な問題が、 SMART-GS の 画像検索を利用して 30 分ほどで解けた。 2. 京大文、現代史、永井和教授のグループが原敬 日記に相当するほどの重要史料とされる倉富勇 三郎日記の翻刻プロジェクト(科研費基盤 A ) に SMART-GS を使用。この研究の中で協働翻刻 の方法が生まれた。 17

SMART-GS の実用例 2/2 3. 林がヒルベルト日記研究の後に始めた、京都学派の哲学 者田辺元の講義準備メモの分析などに応用。協働翻刻の テクニックを、さらに洗練させて利用、 SMART-GS を そのために改良するなどして、約半世紀読めなかった、 同史料の解読に成功しつつある(科研費萌芽)。その結 果、田辺哲学の理解が変わりつつある。皆さんがダウン ロードされた SMART-GS に入っているサンプルはその 一部。 4. 同研究のスピンオフ、京都学派アーカイブで、京大文図 書館の西田幾多郎の全手書き原稿、二千数百枚余を十数 秒で検索できる SMART-GS を一般公開。 5. 近畿大学現代政治史の近藤正巳教授のグループによる科 研費研究(基盤 C )で採用。 18

SMART-GS による田辺元史料研 究、京都学派アーカイブ その内、田辺元史料研究の最新の情況 この史料の厄介さ: 弟子にも読めないほどの悪筆(講義のための推敲メモ) 内容が難解:田辺哲学は西田哲学なみに難解で知られる 様々な哲学理論:アリストテレス、ハイデガー、シェーラー、 etc. 多言語による哲学などの用語:日本語、独語、仏語、英語、ラテン語、古代 ギリシャ語など。 田辺は哲学以外の知識も豊富:現在は使われていない数学・物理学の記法が 田辺哲学の核心と関係していたりする。 この研究で SMART-GS は共同作業のツールになっている : 上の様な複雑性 に一人の研究者が対処するのは無理。田辺元史料研究会の中に、様々な能 力を持つ人がいるから読めていることが、実際の翻刻作業を観察すると分 かる。 この部分は久木田さんが説明。 この成果は京都学派アーカイブ で公開されつつある 19

SMART-GS の現在の姿 1/2 次の機能を併せ持つツール 1. 画像ビューワ 2. HTMLエディタ 3. 寺沢氏の画像検索エンジン用のフロントエン ド 20

SMART-GS の現在の姿 2/2 実用的な理由 1. 画像検索以外は情報技術として目新しいものはなく 、既存の技術が手書き史料ベースの歴史研究用にチ ューンし統合されている。これが大きな差を生む。 例えば画像へのアノテーションでは … PDF, HTML はテキストが主で画像は副⇔史料研究の中心は史 料画像 PDF,HTMLは既存情報の発信用⇔史料研究は情報を作 り出すこと 2. 色々な機能強化がされている。 史料画像への行概念の導入 1対多リンクを可能とする、独自のリンク方式 様々なアノテーション方式と、それらのハンドリングのための機能 21

例えばアノテーションとリンク では HTMLなどではリンク用のアノテーション、たとえば 、アンカーを置くには、タグのID(名称)を決めなく てはいけない。 SMART-GS はユーザー名と作成時間でIDを自動生成 する。 1. 史料にマーカーでしるしをつける、ペンで線を引くような感覚 でマークアップができるので歴史研究の思考が乱されない。 リンクはマークアップの対として、オブジェクトとして 保管・管理される。 1. 1対多のリンクが可能 2. リンクのグラフは常に保持されているので一括処理がしやすい たとえば、自分を指しているリンクのリストが簡単に得られる。 LocalView ただし、管理は難しくなる。たとえば、 undo が厄介でまだ作って ない。 22

SMART-GS の近未来の姿 HCPサーバをハブとするグループウェア:ほぼ完成。 久木田さんが説明。 バージョン管理システム:ほぼ完成。久木田さんが説明 WEB上の画像に直接アノテーション、リンクをあてる ことができるツール:今年度中に作る予定。 OCR との連携。 手書き文書 OCR としての利用。(手書き検索の正解の場 所にユーザーが示した正解を一斉に書き込む。) HTML 出力機能の強化。特に教育用に。 リアルタイム協働作業を支援するツール:これからの最 大課題 ⇒ ここから久木田さんが説明。 23