総務省オープンデータ実証実験等での取組 ~データカタログサイトの高度化に向けて~ 平成26年3月18日 総務省 情報流通行政局 IT総合戦略本部 電子行政オープンデータ実務者会議 第5回 データ・ワーキンググループ 提出資料 資料4 総務省オープンデータ実証実験等での取組 ~データカタログサイトの高度化に向けて~ 平成26年3月18日 総務省 情報流通行政局 情報流通振興課
(平成26年1月24日 第5回電子行政オープンデータ実務者会議 総務省提出資料) 1.オープンデータ戦略の第2ステージ に向けた10の具体的提案(抜粋) (平成26年1月24日 第5回電子行政オープンデータ実務者会議 総務省提出資料)
本格版データカタログサイトの機能・運用の在り方の検討 (1)カタログサイトの機能 本格版データカタログサイトの機能・運用の在り方の検討 (1)カタログサイトの機能 総務省で実施しているオープンデータ実証実験では、開発者向けサイトの構築、共通API(ボキャブラリを含む)の開発、統計情報・データカタログ実証における他のデータベースとの連携可能性の検証等、本格版データカタログサイトの機能・運用を検討する上で参考となる取組を実施。 提案②:開発者向けサイト (今年度末までに検討) ○ 民間によるアプリケーションの作成等、オープンデータの利活用を促進するため、単にデータを公開するだけではなく、開発者による開発のヒントとなる事項(API仕様、サンプルコード、データ一覧、利用規約、FAQ、フォーラム機能等)を掲載した「開発者向けサイト」を用意。 (参考)オープンデータ実証実験においては、全ての実証実験で開発者向けサイトを用意し、「オープンデータ・アプリコンテスト」で提供。 提案③:メタデータ (今年度末までに検討) ○ メタデータ項目を記述するボキャブラリは、データのマッシュアップを容易とするため、国際標準に準拠。 ○ また、メタデータ項目の値の作成作業を効率化する観点から、メタデータの値に関する一定の基準を設け、各府省の職員が各種データファイルを作成する際に、その基準に従いメタデータの値の記載も併せて行うようにする等、各府省の日常的な業務プロセスの中にメタデータ作成作業を位置付け。 ⇒ 「二次利用の促進のための府省のデータ公開に関する基本的考え方(ガイドライン)」(平成25年6月25日 各府省情報化統括責任者(CIO)連絡会議決定)の改訂。 ○ あわせて、そのメタデータの値を効率的にデータカタログに登録する方法についても検討。 (参考)オープンデータ実証実験では、メタデータを記述するために利用するボキャブラリは、広く流通しているものを取り入れつつ、追加で必要なボキャブラリを追加定義する方針を採用。また、オープンデータ流通推進コンソーシアムにおいて、職員向けのマニュアルの作成に向け検討中。 提案④:API (今年度末までに検討) ○ 民間によるアプリケーションの作成等、オープンデータの利活用を促進するため、単にデータを公開するだけでなく、アプリケーションから必要なデータを自動的に取得できるよう、API(Application Programming Interface)を用意。 ○ マッシュアップを想定し、そのAPIの仕様は共通化。 (参考)オープンデータ実証実験においては、全ての実証実験でAPIを用意し、「オープンデータ・アプリコンテスト」で提供。 提案⑤:データカタログサイトと他のデータベースとの連携 (今年度末までに検討) ○ 既存データベースが存在する場合には、当該データベースのデータをカタログサイトに掲載する方法のほか、既存データベースとカタログサイトに共通のAPIを用意し、開発者が共通の問い合わせ方式によりデータ取得可能な環境を用意する方法も考慮。 (参考)オープンデータ実証実験においては、統計情報・デタカタログ実証において、次世代統計利用システムとデータカタログサイトに共通APIを用意。 2
本格版データカタログサイトの機能・運用の在り方の検討 (2)掲載データの拡大 本格版データカタログサイトの機能・運用の在り方の検討 (2)掲載データの拡大 継続的に発展のためには、前頁のデータカタログサイトの機能向上だけでなく、掲載データの拡大に係る取組も必要。 提案⑥:掲載データの量的拡大 (今年度から検討開始。来年度以降も継続検討) ■利用者ニーズを反映したデータの拡大 ○ 今後、利用者のニーズを把握し、ニーズの高いデータを優先的に追加掲載。 (参考)現在のデータカタログサイト試行版は、重点5分野(白書、防災・減災情報、地理空間情報、人の移動に関する情報、予算・決算・調達情報)のデータを中心に約9,400のデータセットが掲載。 人の移動に 関する情報 予算・決算・調達情報 白書 防災・減災情報 地理空間情報 ニーズの反映 提案⑦:掲載データの質的拡大 (今年度から検討開始。来年度以降に本格検討) ○ 数値データのCSV化等を促すとともに、将来的には、RDF(Resource Description Framework)といったより機械判読性の高い形式の採用を視野に入れて取組を推進。 (参考)現在のデータカタログサイト試行版は、既存のデータを各府省から収集したため、データ形式としては、PDFが約半数を占める等、必ずしも機械判読可能なものとはなっていない。オープンデータ実証実験では、RDFモデルを採用。 掲載データの拡大 ■Tim Berners-Leeの5star 提案⑧:各府省のコストの低減 (今年度から検討開始。来年度以降に本格検討) ○ 継続運用性確保のため、誰がどのくらいの頻度でデータカタログサイトのデータを更新するのか等の運用ルールを策定。 ○ メタデータの値を効率的にデータカタログに登録する方法の検討(前頁)、職員向けマニュアルの作成等、各府省の作業負担をできるだけ下げる取組も必要。 (参考)データカタログサイト試行版の構築にあたっては、内閣官房からの作業依頼に応じて、各府省が手作業でメタデータを登録。オープンデータ流通推進コンソーシアムにおいて、職員向けのマニュアル(技術・利用ルール)の作成に向け検討中。 【出典】5★オープンデータ(http://5stardata.info/ja/) ■オープンデータの好循環 オープンデータ化 のメリットの可視化 (ベストプラクティス作り) 提案⑨:メリットの可視化 好循環 (今年度から検討開始。来年度以降に本格検討) ○ アプリケーションコンテストや民間と連携したビジネスモデルの構築等を通じて、データ提供者である各府省が、オープンデータ化のメリットを実感できるようにする取組も実施。 (参考)データカタログサイト試行版のデータも対象となっている「オープンデータ・アプリコンテスト」を開催中(主催:総務省・オープンデータ流通推進コンソーシアム)。 オープンデータ化 の継続・拡大 オープンデータ化 のメリットの実感 (→ニーズの顕在化)
2.オープンデータ実証実験における取組
(1)開発者向けサイト(提案②関係) ○ 平成24年度に実施した公共交通オープンデータ実証では、開発者向けサイト(API仕様、サンプルコード、データ一覧、利用規約、FAQ、フォーラム機能等を掲載)を公開した上で、アプリケーション開発を一般公募したところ、わずか3週間で16のアプリケーションが開発された。 ○ 本年度は、全ての実証実験において、「開発者向けサイト」を用意し、「オープンデータ・アプリコンテスト」で提供。 ○ 「オープンデータ・アプリコンテスト」には、短期間(データ提供開始から応募締切まで40日間~17日間)ながら、92件の応募あり。 ■統計情報・データカタログ実証の開発者向けサイトの例 【データ一覧】 ・ 本実証で利用できるデータ一覧を掲載 【API仕様・サンプルコード】 ・ アプリケーションを開発する際に必要となる、データのアクセス仕様 及びその利用方法をイメージ可能なサンプルコードを掲載 ・ 統計情報・データカタログ実証では、SPARQL準拠のAPIを提供 【フォーラム機能】 ・ 開発者間の意見交換機能を提供 5
(2)統計情報・データカタログ実証における取組(提案④・⑤関係) ○ 統計情報・データカタログ実証では、共通のAPIにより、既存のデータベースである次世代統計利用システムと、政府データカタログサイト試行版「DATA.GO.JP」とを連携させ、データのマッシュアップが可能となる環境を実現。 ○ 政府データカタログサイト試行版「DATA.GO.JP」については、CKAN APIが標準で提供していないSPARQL準拠のAPIを、情報流通連携基盤システムにより実現し、オープンデータ・アプリコンテスト等で公開。 ○ これにより、アプリケーション開発者は、政府データカタログサイト試行版「DATA.GO.JP」に格納されているメタデータに対して、(1) 複数の条件で検索を行い、(2) 検索結果から特定の項目のみを取得する、というような高度なクエリを発行可能。 -例えば、(1)「省」が作成し、かつ、タイトルが「平成」で始まるデータセットを検索し、(2)その「URL」と「省名」を10件取得する、といったことが可能。 ○ なお、今後、データ自体をRDFにすれば(提案⑦)、データの中身の高度な検索も可能となる。 アプリケーション 共通のクエリ (SPARQL準拠クエリ) 共通のレスポンス (SPARQL準拠レスポンス) 情報流通連携基盤共通API 次世代統計利用システムAPI用 クエリ レスポンス データカタログAPI用 クエリ キャッシュDB※ レスポンス 次世代統計利用システムAPI データカタログCKAN API 統計情報 データカタログ情報 ※今回の実証では、データカタログのメタデータを一旦キャッシュ用のRDFデータベースに取り込み、同期した上で、これを利用してSPARQL準拠のクエリを処理している。 6
3.オープンデータ流通推進コンソーシアム (技術委員会)における取組
3.オープンデータ流通推進コンソーシアム技術委員会における取組(提案③・④・⑥・⑦・⑧関係) 平成24年度 (赤文字箇所は提言関係箇所) ①オープンデータ化のための技術ガイド ・オープンデータ化に取り組もうとする公的機関や民間組織の職員が、保管しているデータをオープンデータ化するために必要な技術的事項の解説 ・対象は、表形式データ、文書データ、地理情報データ、リアルタイムデータ ②情報流通連携基盤共通APIの外部仕様書(平成24年度版) ①及び②については、「二次利用の促進のための府省のデータ公開に関する基本的考え方(ガイドライン)」(平成25年6月25日 各府省情報化統括責任者(CIO)連絡会議決定)に反映済み。 ③については、公表し、意見募集(Call for Comment)を実施済み。 平成25年度 ○オープンデータ化のための技術ガイドの精査 ・RFC4180(※1)やSimple Data Format(※2)等を踏まえた技術ガイドの精査 ⇒ 必要な部分は、「二次利用の促進のための府省のデータ公開に関する基本的考え方(ガイドライン)」(平成25年6月25日 各府省情報化統括責任者(CIO)連絡会議決定)の改訂につなげる。 ○情報流通連携基盤共通APIの外部仕様書の精査 ・実証実験の結果等を踏まえたAPI・ボキャブラリの精査 ○周辺ツールの検討・開発 ・メタデータを自動的にデータカタログに追加する手法 ・情報流通連携基盤ボキャブラリの管理システムの構築 等 ○オープンデータ評価指標の検討 ・オープンデータを評価する指標として、Open Data Certificate (Open Data Institute)の拡張を検討中 ⇒ 本日のデータWG参考資料3を参照。 テータを提供する各府省のコストの低減(提言⑧関係) 機械判読性の高いRDFモデル・API規格を定義(提言④・⑦関係) テータを提供する各府省のコストの低減(提言③・⑧関係) 評価の実施は、PDCAサイクルを回し、オープンデータの量的・質的拡大を図っていく上で重要(提言⑥・⑦関係)。 (※1) Common Format and MIME Type for Comma-Separated Values (CSV) Files. RFC4180. http://www.ietf.org/rfc/rfc4180.txt (※2) http://dataprotocols.org/simple-data-format/ (※3) 技術ガイド等の詳細については、第2回技術委員会(平成26年2月14日)の資料を参照(http://www.opendata.gr.jp/committee/technical/documents.php) 8