Presentation is loading. Please wait.

Presentation is loading. Please wait.

1 データベースの構築 慶應義塾大学 DMC 機構専任講師 大久保 成 日本における『百科全書』パリ版デジタルアーカイブ共同研究の現状.

Similar presentations


Presentation on theme: "1 データベースの構築 慶應義塾大学 DMC 機構専任講師 大久保 成 日本における『百科全書』パリ版デジタルアーカイブ共同研究の現状."— Presentation transcript:

1 1 データベースの構築 慶應義塾大学 DMC 機構専任講師 大久保 成 日本における『百科全書』パリ版デジタルアーカイブ共同研究の現状

2 2 まずは現物をご覧ください http://kdde.dmc.keio.ac.jp/index.ht ml

3 3 従来のアーカイブ系コンテンツ の特徴 独自型 – 電子辞書など – データとインターフェースが一体化 – コンテンツごとの独自性を発揮させやすい – 他形態への応用が難しい 汎用型 – 図書館システムなど – データは分野を超えて収蔵可能だが、イン ターフェースが貧弱

4 4 最近の傾向 「収蔵庫」と「展示場」の分 離 – ウェブコンテンツのデータベース化 – 汎用的なデータを格納しつつ、個別 のインタフェースを用意 – データベース部分は汎用性を高める – インターフェース部分は個別性を高 める

5 5 KDDE の基本システム データベース部分 –PostgreSQL –PHP –UTF-8 インターフェース部分 –Logosware 社の Flipper を利用 –Macromedia (現 Adobe 社) Flash の 応用

6 6 Flipper 部分の作成 DMC 機構の貴重書撮影技術 を活用 –RAW データで撮影 – 14.6 MB(4922×3328 pixel) JPEG に変換後、 Flipper へ取 り込み

7 7 データベース構築にあたり PostgreSQL を活用 – フリー(無料) – 多言語処理が得意 IT 業界での「国際化」というのは「日 本語化」程度の意味しか持たないこと が多いが、 PostgreSQL は真の意味での マルチリンガルな仕様になっている (複数の文字セットを任意に変換可能 な仕様) ただし、 Unicode 上のギリシア文字と Shift-JIS 上のギリシア文字(全角)は 違う文字で扱われるなど、文字コード に対する一定の理解は必要

8 8 データベース構築にあたり データベースの基礎的考え方 – テーブル=エクセルの表 – レコード=エクセルの行 – フィールド=エクセルの列 「ひとつのセル」に「ひとつ の情報」

9 9 「ひとつの情報」とは? e.g. 「 49a-53b 」 – 「49ページ」の「左段落」から「始ま り」、「53ページ」の「右段落」で「終 わる」 –6 つの情報 e.g. 「 101a 」 – 「101ページ」の「左段落」から「始ま り」、「101ページ」の「右段落」で 「終わる」 「見た目がひとつの情報」であ っても、複数の情報を含有して いる 構造を明らかにしないといけな い SQL でいうところの「第2正規 化」

10 10 どこまで分割するか? 細かく分ければよいか? –→NO – どのレベルで検索をかけたいかによ る – 機械的には決められない – 「 ART DES ESPRITS, ou ART ANGÉLIQUE 」で「 ART ANGÉLIQUE 」が単独で検索され る必要がある場合は、「別名フィー ルド」などを作り、検索の対象とす る

11 11 どこまで分割するか? e.g. 「 *ARCHANGEL 」 2つの情報が含まれている – 「*」:ディドロが執筆した – 「 ARCHANGEL 」という項目 「 DIDEROT 」というフィールド を作り、「*」が付いた項目に フラグを立てた – 検索すると以下のような順序で処理される – 「前方一致で検索」 → 「 DIDEROT フィール ドが On か Off か?」 → 「 On の場合、*+項 目名で表示」 – 研究者からみて違和感のないようなインタ ーフェースの工夫が必要

12 12 どこまでを「同じ内容」とす るか 「包摂」という問題 – 「 Géog. 」と「 Géog r. 」は同じか否か? – SQLでいうところの第一正規化 今回は「分類項目(現代表 記)」でのみ検索可能にした – 「 Géographie 」のみが検索語に指定可能 – 「品詞と性」については 今回は正規化を 見送り 「 adj. 「 adject. 」「 adjectif 」はそれぞ れ別の項目として検索される

13 13 今後の課題 メニューなどの多言語化 – トップページのみ日英仏から選択可 能 正規化 – 入力ルールの整理と徹底化 ユーザ管理 – 誰でも修正可能な状態 ウェブ上での研究コミュニテ ィつくり

14 (参考)フィールド一覧( basic ) フィールド 名 フィールド形式内容 idtext レコード ID entrytext 項目名 diderotcharactervarying(1) 「ディドロマーク」 tomecharactervarying(2) 巻数 stpagetext 開始ページ stcoltext 開始ページの段落 edpagetext 終了ページ edcoltext 終了ページの段落 genretext 性と名 des_oritext 分類項目(オリジナル表記 ) des00text 分類項目(現代表記) des01text 分類項目(現代表記) des02text 分類項目(現代表記) des03text 分類項目(現代表記) des04text 分類項目(現代表記) des05text 分類項目(現代表記) des06Text 分類項目(現代表記) des07Text 分類項目(現代表記) des08Text 分類項目(現代表記) des09text 分類項目(現代表記) des10text 分類項目(現代表記) des11text 分類項目(現代表記) des12text 分類項目(現代表記) lengthtext 長さ attribtext 執筆者同定 schwabtext Schwab 番号 ts timestampwithouttimezon e レコードのタイムスタン プ

15 (参考)フィールド一覧( flipper ) フィールド名フィールド形式内容 stpagetext 開始ページ flipperinteger Flipperにおけるページ数(第一巻の場合、実物の 1 ページは Flipper で は 72 ページ) dirtext Flipperを呼び出すためのファイルのディレクトリ名とファイル名 tstimestamp レコードのタイムスタンプ

16 (参考)ページ遷移(ユーザから見える範囲の み) index.html トップページ index.html トップページ search.php 検索語入力 search.php 検索語入力 list.php 結果一覧 list.php 結果一覧 allinfo.php 項目のメタデータ allinfo.php 項目のメタデータ book115.php Flipper の呼出 book115.php Flipper の呼出 update_list.php 修正用ページ update_list.php 修正用ページ (別ウィンドウで 開く)

17 (参考)ファイル一覧(ルートディレクトリ) allinfo.php 指定項目の全メタデータ表示 attrib.php 執筆者同定一覧を生成( search.php で利用) common.css 表示ページに共通のデザインを CSS で指定 des_nor.php 分類項目(現代表記)一覧を生成( search.php で利用) genre.php 性・名の一覧を生成( search.php で利用) img 【ディレクトリ】ページに共通の画像部品を格納 index.html トップページ kdde1_flipper 【ディレクトリ】 Flipper データを格納 language.php 表示言語の対訳一覧 length.php 長さの一覧生成( search.php で利用) list.php 検索結果表示 MYDB.php データベース接続のための共通部品 search.php 検索ページ stpage.php 開始ページ一覧を生成(ローマ数字なども含まれるため、処理が必要) tome.php 巻数一覧を生成 update.php 修正用の命令をデータベースに送信( update_list.php から呼出) update_list.php 修正用ページ


Download ppt "1 データベースの構築 慶應義塾大学 DMC 機構専任講師 大久保 成 日本における『百科全書』パリ版デジタルアーカイブ共同研究の現状."

Similar presentations


Ads by Google