2014 年 GBIF 研究集会資料 群馬県立自然史博物館 大森威宏 GBIF 用データ生成作業の実際 - 2 つのデータベースをつなぐもの-

Slides:



Advertisements
Similar presentations
1 プリミティブ Web サービスの 入出力データに関する一考察 2005 年 3 月 21 日 松江工業高等専門学校 情報工学科 奈良先端科学技術大学院大学 情報科学研究科 越田高志 電子情報通信学会 2005年総合 大会.
Advertisements

1 ようこそ ! 以下を参考に音声設定を行ってください 1. バーの一番上にある赤い 矢印のボタンをクリックして 広げます 。 2. Settings ( 設定 ) を選択します 。 3. デバイスを選択してください 。 4. しゃべってみましょう.
仕事に活かせる! 即効 生物多様性情報ツール 国立科学博物館 動物研究部 JBIF ワーキンググループ 神保 宇嗣.
オープン&ビッグデータ活用・地方創生推進機構 事務局 オープン&ビッグデータ活用・地方創生推進機構 評価版ツールの状況報告 平成26年度第3回 技術委員会 資料3-1.
1 通信教育学部 コンピュータ演習 Excel の書式設定と関数 授業ページ「コンピュータ演習(通信教育学 部)」を 開いてください。提出課題の一覧が掲載されてい ます。
データベースの基礎知識 ACEESS の基本操作. データベースの基礎知識 データベース  特定のテーマや目的に毎のデータの集合体 データベースソフトウェア  データベースを作成、管理するソフトウェアの総 称 Oracle(Oracle) IBM(DB2) Microsoft(SQL Server)
Jw_cad 基本操作( 5 ) 文字入力 2011/11/23 SystemKOMACO Jw_cad 基本操作( 5 ) Ver.1 1.
コンピュータと情報 第10回 Excel を使ってみる. Excel の起動 ① 「スタート」ボタンをク リック ② すべてのプログラムにマ ウスカーソルをあわせる ③ 「 Microsoft Office 」 → 「 Microsoft Excel 2003 」 にマウスをあわせて,ク リック ④.
コンピュータ演習 Excel 入門 岡田孝・山下雅啓 Excel の機能は膨大 その中のごく一部を紹介 表計算機能 – データの入力、表の作成、計算など グラフ機能 – 棒グラフ、円グラフなどグラフ作成 データベース機能 – 並べ替え(ソート)、検索、抽出など マクロ機能 – VBA で自動化したマクロを作成可能.
学事予算の支出状況表作成に 係る業務の効率化 教学部 高輪教学課 加藤美博. 目 次 ①背景 ②財務情報システムの現状 ③これまでの取り組み ④新たな改善事項 ⑤効果.
7-1.WEKOコンテンツ 一括登録 マニュアル Version2.5
S-Netへの植物標本の登録 帯広百年記念館の事例
4.ユーザー登録マニュアル              Version 年6月10日 国立情報学研究所.
WagbyR6.5 Update 14 PPT版 更新情報
HG/PscanServシリーズ Acrobatとなにが違うのか?
合同会社IT政策調査研究所 All Rights Reserved.
Web-EDI方式 シナリオ1 [実験番号] : 実験タイトル 1 :標準類の評価
1/16 卒業研究中間発表 D2553  佐藤佳代子.
Shimatterシステムの 初期モデルの正規化
Excel による データベース入門 Ver /9.
「サイボウズ Office on cybozu.com」 すぐできるBOOK -ワークフロー 編 -
オンライン登記申請マニュアル 【第4段階】 オンライン登記申請編
JavaによるCAI学習ソフトウェアの開発
法人e名刺 ブログ運用マニュアル 社外秘 目次 □ブログ運用ルール
博物館情報横断検索 その役割と課題 小町祐史(松下電送システム) 山田 篤 (京都高度技術研究所) 今門政記(インフォコム)
WagbyR6.5 Update 12 PPT版 更新情報
The Beatles (1967): Strawberry Fields Forever
2.JAIRO Cloudの手続きと最新機能 Version 1.1
15分でわかる RefWorks 基本操作.
文献管理ソフトRefWorksの利用.
情報処理 第13回.
管理画面操作マニュアル <ユーティリティ> 第8版 改訂 株式会社アクア 1.
地理情報システム論演習 地理情報システム論演習
プログラム実行履歴を用いたトランザクションファンクション抽出手法
推奨データセットに関する主な指摘事項への対応内容一覧(1)
市町村等から電話照会等を行う場合の対応について
管理画面操作マニュアル <サイト管理(1)> 基本設定 第9版 改訂 株式会社アクア 1.
「ユーザー設定リスト」の作成と削除 ◎ 新しい「リスト」の作成法
情報処理A 第?回 Excelを使ってみる.
アウトバウンド業務 ガイダンス Ver.7 アウトバウンド業務について、作業フローを具体的な事例別にご説明します。
アウトバウンド業務 ガイダンス Ver.7 アウトバウンド業務について、作業フローを具体的な事例別にご説明します。
○ ○ ○ こんな場合にお勧め 機能概要 SAP ERP伝票/マスタ入力をExcelを使って簡単に実現 Excel入力テンプレート
対応可否 スキル一覧 株式会社エージェント 2015年10月7日 Ver.1.0.
エクセル(6)の目次 「ユーザー設定リスト」の作成と削除 「入力規則」での「リスト」 ユーザー定義による表示形式
実行時情報に基づく OSカーネルのコンフィグ最小化
知識情報演習Ⅲ(後半第3回) 辻 慶太
【e-Rad】担当者用 平成24年度公募(三次) 新規公募(三次)設定 操作説明 (3月29日修正版)
加工工程決定支援システム 電子情報通信学会 2010年総合大会 2010年3月18日 松江工業高等専門学校  情報工学科 越田 高志.
クイックガイド <キーワードによる検索方法>
No.3 No3.電子筐体製品 コメント 使用機能 一覧 従来課題 課題解決策 3D IGESを利用した IGES 「IGES読込み設定」
テーブル設計を後から変更 現場で使える小技のご紹介 株式会社ジーワンシステム 生島 勘富(イクシマ サダヨシ)
すぐできるBOOK -かんたんSFA編-.
7-3. 移行データ登録簡易マニュアル Version 1.0
中国の日系企業に最適のシステム 御社の業務に最適な3つの理由 初期投資なしで すぐに始められる ITに詳しい 担当者不要 何度でも 変更可能.
管理画面操作マニュアル <物件情報> 第5版 改訂 株式会社アクア 1.
データベース設計 第6回 DBMSの機能と操作方法(3) フォームとレポート
JAIRO Cloudの手続きと最新機能 Version 1.0
知識情報演習Ⅲ(後半第3回) 辻 慶太
FAQへの掲載文面 1/2 Q1-14: 過去に作成したAISデータを活用すべく、AISデータをコンバートして利用しております。成分情報画面でエラーチェックすると、「用途(材質)と分類記号(材質)の組み合わせが正しくありません」とエラーが発生します。どうしたら良いですか。 A: 現在のAISツールやchemSHERPAではこのような入力はできませんが、過去のAISツールVer.4.0より前では可能だったことによります。
BCP対応システムについて 横浜ゴム㈱ グローバル調達本部.
情報処理 第13回.
JAIRO Cloudの手続きと最新機能 Version 1.0
Googleマップを活用した 生物調査データベースの構築
JCC画面 (JCCリスト) QRZ等検索 ・名前、・ゾーン、GL ・IOTA、マネージャ カントリーリスト検索 道の駅、温泉地検索
生産工程管理支援 GUIシステム 電子情報通信学会 2014年総合大会 2014年3月19日 松江工業高等専門学校  情報工学科 越田 高志.
プログラムの一時停止時に 将来の実行情報を提供するデバッガ
地理情報システム論 第6回 GISによる処理技法 GIS入門(2)
募集ページ作成マニュアル 準備 募集画面作成 コンタクトフォームの作成(コンタクトフォームとは何か説明) 応募フォームの作成 リンク付け
地理情報コンテンツ・データベースコンテンツ新規作成
Presentation transcript:

2014 年 GBIF 研究集会資料 群馬県立自然史博物館 大森威宏 GBIF 用データ生成作業の実際 - 2 つのデータベースをつなぐもの-

群馬県立自然史博物館の概要 Welcome to Gunma Museum of Natural History 所在地:群馬県富岡市 上黒岩 開館: 1997 年 10 月 年間入館者: 15 ~ 18 万人 学芸係: 9 名(次長含む) 次長 1 名 生物系 6 名 地学系 2 名 群馬県 長野県

群馬県立自然史博物館の収蔵システム 1997 第一次システ ム ↓ 2004 第二次システ ム ↓ 2007 第三次システ ム 館独自のシステム 富士通 Musetheque Ver.2 をカスタマイズ 富士通 Musetheque Ver.3 をカスタマイズ ビジュアルな収蔵紹介に主眼 「備品管理機能」にもウエイト 学名情報については弱点があった 合わせて入力項目の見直し 学名辞書の搭載可能化 エラーチェック機能の搭載 2 次システムを踏襲するが 入力・修正の効率化と画面の大幅修正 群馬県立自然史博物館の収蔵システム

動物と植物・菌類で項目を分ける ・命名規約自体が異なる ・菌類や着生・寄生植物の「基質・寄主」、動物の 「性」など 採集記録フィールドは極力細分化 → 「エクセルはセルを結合するより分割する方が 面倒」 収蔵システムの入力フィールドと配置 2 次システムでの収蔵システム項目決定の方針 結果的に収蔵システムの項目は Darwin core にほ ぼ対応していた しかし、当館収蔵システムと S-Net/GBIF の項目の配列や、形式には微妙な差異がある。 (例) ・英文表記と和文表記の順序 ・「採集日」のはじめ・おわり、「海抜・水深」の最小・最大 群馬県立自然史博物館の収蔵システム

群馬自然史博でのデータ変換作業の実 際 S-Net/GBIF 公開データ選択の選択 (収蔵システムからのダウンロード) ↓ フィールド選択・結合・削除 ↓ 入力項目のチェック・形式変換 ↓ データ生成ツールによるチェック・ ファイル完成 ↓ 入力情報・ RDB 情報の最終確認 各資料担当 データ整理員(委託) GBIF 担当 各資料担当 GBIF 担当 統括: GBIF 担当 それでは変換作業の流れと、学名情報・採集情報の変換作業の実際を順に説明します。 GBIF 担当

データ変換に伴う再配列作業の実 際 群馬自然史博でのデータ変換作業の実際 収蔵システムからのエクスポートファイルから ①不要なフィールドを削除し、②フィールドの No. を割り振りソート、③ S-Net/GBIF 側に 固有なフィールドを挿入の順で形を整える 一見面倒だが、これで変換ツールの項目指定が非常に楽になる。 変換作業は入力項目の編集後を推奨している(収蔵データの修正が楽)。

採用する分類体系と学 名 学名情報の 入力と注意事項 収蔵システムで登録された分類体系と生物名 =登録時点での分類体系と生物名 群馬自然史博でのデータ変換作業の実際 運用開始から 16 年・・・ → 分類学的取扱の変更、命名規約の変更、・・・ しかし過去にさかのぼって分類情報のアップデートは難しい 入力ミスへの対応 → 大半の分類群では辞書によるミスチェックとゆらぎ防止 しかし 1 次システムでは辞書はなく、入力ミスはそのまま 生物名・分類情報のミス・不統一の発見は 人材派遣会社から委託されたデータ変換作業員では実質無理。 : GBIF 担当から各資料担当に照会し、修正している。

植物学名と変換ツール の悩み 学名情報の 入力と注意事項 群馬自然史博でのデータ変換作業の実際 「種以下の分類群」の煩わしさと命名者の問 題? 雑種式への不対応 学名著者の小・ 2 世の f. に対する変換ツールの反 応 ・群馬自然史の場合、亜種・変種・品種のフィールドを分けているが・・・ 2 次システム以降のデータは収蔵システムの学名フィールドと 1 対 1 対応。 ・しかたがないので、たとえば grypoceras x V. kusanoana も種に対応するものと 割り切って考えるしかないが・・・ ・ L. f. や Hook. f. などの f. を品種を示す f. と間違えて分割してしまう。 収蔵システムからのエクスポートファイルの f. をいったん fil. に置換し、 ツールにかけた後に f. に戻す方法もあるが・・・ → 品種の f. まで置換するおそれがあり、 1 点ずつ確認が必要。

地名入力にまつわる問題 点 産地情報の チェックと変 換 地名の変遷への対応 群馬自然史博でのデータ変換作業の実際 運用開始から 16 年・・・ → 町村合併とそれに伴う町域変更の確認が大きなネック 英文表記の不統一への対応 資料担当内で統一が図られていればいいと割り切っているが・・・ 次の場合は注意が必要 ・外国人にわからない自然地名、施設名(そのままローマ字に直しただけ のもの) ・ Native でなければわからない地形表現 fen 、 mire 、 bog は(下手したら swamp も marsh も)湿原 渓谷も valley 、 stream 、 glen 国交省や JR の表記ほか、観光庁が指針で示した英語表記がベースラインになる?

標高・水深(附:日付) への対応 産地情報の チェックと変 換 Darwin core の標高・水深・日付の表記 群馬自然史博でのデータ変換作業の実際 最小値・最大値両方を記入する形式である。 → しかし収蔵システムのこれらのフィールドは 1 項目 標高・水深に幅がある場合の収蔵システムの対処法: ① 「その他住所」に m in alt. のように記入する。 ②「採集に関する備考」に記入する。 対処法は資料担当によってまちまちである。 日付の幅に対する対処法 →2 次システムは不明部分 * でエクスポートされるようになった。 ところが! 1 次システムでは日付不明に対するルールがなく、 00 、 99 、空白が混在 これが今も変換ツールエラーのもとになっている。

収蔵システムからの緯度経度出力 収蔵システム緯度経度へ の対応 産地情報の チェックと変 換 群馬自然史博でのデータ変換作業の実際 入力フィールドは緯度・経度別だがエクスポート形式は結合されてし まう! 変換作業が終わった後に電子地図・地名からのマッチング作業を行う

知ると知らないで大違い-変換作業に役立つ Exel 関数 「照合する」 =IF(An=A(n+1),“ 削除 ”,“ 必要 ”): 標本番号でソート後標本番号重複チェック =VLOOKUP( 検索元, 検索列はじめ : 検索列おわり,2,FALSE) : 学名辞書とともに市町村合併情報、地名読みの辞書化もできる 「分ける」 =MID( 照合元, 抽出開始字数, 抽出字数 ) 「合わせる」 =CONCATENATE( 番地, 番地, ・・・ ) : = 番地 & 番地 & 番地 & ・・・も同様に 処理 群馬自然史博でのデータ変換作業の実際 基本操作は「照合する」 「分ける」 「合わせる」 注意:この関数はフィールドが定型でないと恐ろしい目に遭います 注意:英文フィールドで「, 」 と 直後の半角スペースを入れる場合、あらかじめ, の列を 用意します。

正解に近かった収蔵データベース システム移行の際に議論された項目と形式 : Windows95 の時代からデータベースの積極利用 :結果的にフィールドが Darwin Core に近いものであった → 研究現場で欲しい情報は概ね一致する 項目の「適正なレベルでの」細分化 :システム不定形フィールドの分離の難しさ:設計時の SE 提案 階層型辞書機能の追加 :入力の省力化のみならず誤入力・分類のゆらぎ防止 Summary 群馬県立自然史博物館のデータ変換作業の現状と課題

群馬自然史博におけるデータ変換作業の現実 前世紀のデータとの戦い? ( 笑 ) :古い学名・分類学的取扱、地名、日本測地系 : 1 次システムは生物名の入力ミスノーチェック ローマ字表記のゆれ、英語表現のチェック :担当によって統一されていない。 :館収蔵システムにマニュアルはない。 データ作業員の人材難 :県の中心から 1 時間、電車は 1 時間に 1 本、 最寄駅徒歩 30 分、標高差 60m の急勾配 館からマイカー 30 分圏内に大学はない。 Summary 群馬県立自然史博物館のデータ変換作業の現状と課題

収蔵データベースとその標準化-今後の課題 APG Ⅲ分類と学名の Global Standard への対応 :いつどこが音頭を取ってどれだけの機関が同調するか? 過去のデータのアップデートはどうする? → 自動変換ツールでもないと労多くしての危惧 Darwin core 2 への対応 :分野によっては現行に比べて必要性の薄い項目を増や すだ け? 特に測位方法・精度の入力は煩雑! 学芸職員間の意志の統一と引き継ぎ :公立博物館なるが故の人事異動 時として(来る者も去る者も) 不本意な異動 Summary 群馬県立自然史博物館のデータ変換作業の現状と課題