慶應大学メディアセンター本部 入江 伸 Irie@mita.lib.keio.ac.jp Z39.50 KOSMOSIIへの実装と課題 慶應大学メディアセンター本部 入江 伸 Irie@mita.lib.keio.ac.jp
Z39.50とは? 北米の標準規格:ANSI/NISO Z39.50-1995, Information Retrieval (Z39.50): Application Service Definition and Protocol Specification. 国際規格:ISO 23950:1998, Information and documentation - Information retrieval (Z39.50) - Application service definition and protocol specification. 開発:ZIG - Z39.50 Implementors Group Z39.50の現在のバージョン ・アメリカの標準 ANSI/NISO Z39.50-1995 情報検索(Z39.50)・・・アプリケーションサービスとプロトコル種 ・国際標準 ISO 23950:1998年に情報と文章?情報検索(Z39.50)?・・・アプリケーションサービスの定義とプロトコル種 現在公開されているのは、1995年に溯るANSI/NISO基準のV3 V3は、ヨーロッパで利用されている一般的なものだが、アメリカでは、より初期のV2を使っている。 その公式標準のモトは、LC(米国議会図書館)による Z39.50MaintenanceAgency である。 ZIG(Z39.50 Implementors Group)として知られる使用者や開発者の非公式グループを含めて、開発がなされている。 ZIG: ZIGは、メーリングリストや一年に2~3回開かれる会合(最近では、1999年8月にストックホルムで開かれた)によって発展している。 これらの会合は、全て公開されている。次回は、2000年1月にテキサス州San Antonioで開かれる予定。
何のために? 横断検索(同じインターフェースで) 分散しているデータベースを 異なるデータベースを データタイプ 博物館 目録規則 ソフトウエア プラットフォーム 博物館 図書館 資料館 検索要求
Facilities、構成要素 Application Service Definition Initialization (初期化) Search (検索) Retrieval (返戻) Result-set-delete (結果集合の削除) Browse (拾い読み) Sort (並び) Access Control (アクセス制御) Accounting/Resource Control (アカウント/情報源 制御) Explain (詳細) Extended Service (拡張サービス) Termination (終了) Application Service Definition
Services、サービス Init(初期化) Search(検索) Present(返戻) Scan(通覧) Sort(並び順の変更) Close(終了)
Protocol、対話の規則 Client-Server model (クライアント・サーバー) Query Formation (検索式) Origin - Target Query Formation (検索式) type-1 query Reverse Polish Notation (逆ポーランド記法) Attribute Sets (属性集合) bib-1(書誌),GILS(米国政府文書),CIMI(博物館) Response Records (返戻レコード) MARC,SUTRS,GILS,GRS-1 APPENDIX II - Z39.50 Object Registries Z39.50 makes extensive use of registries for various types of objects that are used for interoperability with the protocol. These are referred to via object identifiers which are used as parameters in the various protocol requests and responses that move between client and server. This Appendix summaries three of the major registries - Query Types, Attribute Sets & Schemas, and Record Syntaxes. Query Types The standard at present specifies six query types: (1) "Type 0" - designated "private", allowing two systems to use a private, mutually agreed upon query format (2) "Type 1" - queries are expressed by individual search terms, each with a set of attributes. Terms may be combined/linked by boolean operators. Terms and operators are expressed in Reverse Polish Notation. (3) "Type 2" - specified by ISO 8777 - Commands for Interactive Text Searching (4) "Type 100" - specified by ANSI Z39.58 - Common Command Language for Online Interactive Information Retrieval (5) "Type 101" - extension of type-1 query for proximity searching (6) "Type 102" - ranked list query Of these, Z39.50 fully specifies and mandates support of the Type-1 query (2). Currently under review, (7)Type SQL" - SQL query Attribute Sets and Schemas The attributes (or access points) are associated with search queries are published within an Attribute Set, defining the attribute semantics for a given domain, ie a virtual database representation of that domain. For example, the Bib-1 attribute set was developed for the bibliographic community, to provide a common, abstract model by which to view differing library systems for the purpose of searching and retrieving information in standard and mutually understandable terms. Attribute Sets can be logically divided into two types, domain and facility specific - domain specific being directly related to attributes associated with individual communities, whilst facility specific being essential for implementing certain Z39.50 facilities. Each specific domain also has an associated Schema for retrieving a subsequent selection of elements from the virtual database. Some of the attribute sets supported at present are: Domain Specific: Bib-1 - Bibliographic GILS - Government Information Locator Service STAS - Scientific and Technical DL - Digital Library Collections CIMI - Museum Collection Information GEO - Digital Geospatial Metadata etc… Z39.50 facility specific: CCL-1 - Common Command Language Exp-1 - for use with an Explain database Ext-1 - for use with an Extended Service database Response Record Syntaxes The protocol distinguishes two types of response records that may occur from the server: database and diagnostic records. Both record types may be returned in several formats, and like attribute sets are also registered. Database: SUTRS - Simple Unstructured Text Record Syntax (text only) GRS1 - Generic Record Syntax, to return records with structure OPAC - Online Public Access Catalogue Summary - Bibliographic Summary syntax MARC formats - USMARC, UNIMARC, UKMARC, and CANMARC Explain - Server Information syntax Extended - Extended Services record syntax Under review, SQL-RS - SQL record syntax supporting SQL3 datatypes Diagnostic: error formats - bib-1, diag-1 resource report - resource-1, resource-2 access control - prompt-1, des-1, krb-1
Attribute set bib-1(Search) Use ... Relation less than less than or equal Position first in field first in subfeild Structure phrase word ... Truncation right truncation Completeness complete subfeild
Use attribute set (bib-1) Use Value Personal name 1 Corporate name 2 Conference name 3 Title 4 Title series 5 Title uniform 6 ISBN 7 ISSN 8 … Use Value Author-name 1003 Any 1016 … Originから「Titleが“遺伝子”のものを検索しなさい」という要求が来た場合、Targetで受け取る情報は、、、、 Attribute-type=1 (Use) Attribute-value=4 (Title) query-string=遺伝子、、、
bib-1の実際 検索要求 タイトルが「遺伝子」かつ件名が「植物生理学」の本を探したい!! 検索式???インターフェース??マンマシーン? SELECT TITLE=遺伝子 AND SUBJECT=植物生理学 逆ポーランド記法で表現??? 遺伝子/4 植物生理学/21 AND APDU(Z39.50 application protocol data units)として表現? OID 1.2.840.10003.3.1,attributeType=1,attributeValue=4,term=遺伝子,attributeType=1,attributeValue=21,term=植物生理学,operator=AND…(実際はコード化情報のみ) BER(ISO 8825 Basic Encoding Rules)により符号化、バイナリイメージとしてターゲットへ….0101010001010100001001010001001001
KOSMOSへの実装 (1) Z39.50の仕様に、、、 対応させる??? Z39.50の実装とは??? KOSMOSの検索機能を
KOSMOSへの実装 (2) Z39.50 KOSMOS KOSMOSの検索機能とZ39.50 ブール演算 (AND,OR,AND-NOT) 前方一致 (検索語?) 完全一致 (検索語/) フレーズ ワード Z39.50 KOSMOS
KOSMOSへの実装 (3) KOSMOSのインデックス仕様とZ39.50 限定子へ展開 Z39.50 Origin WebOPAC 書名・誌名中の語=遺伝子 限定子へ展開 ET=遺伝子 TW=遺伝子 TP=遺伝子 RT=遺伝子 TS=遺伝子 Z39.50 Origin Attribute-type=1 (Use) Attribute-value=4 (Title) query-string=遺伝子 KOSMOS Index ET=遺伝子 RT=DNA TP=分子 PN=ワトソン IS=8987-0987 IB=0987678909 SW=生物学...
KOSMOSへの実装 (4) KOSMOSのレコード形式とZ39.50 Z39.50 Origin Z39.50 Target KOSMOS 要求 KOSMOS フォーマット SUTRS 返戻 Usmarc フォーマット 変換
KOSMOSへの実装 (5) Z39.50のKOSMOSへの実装とは、、、 1) Originの話すZ39.50の言葉をKOSMOSの言葉に翻訳。 2) KOSMOSでOriginの要求を処理。 3) 結果をZ39.50の言葉に翻訳し、Originへ返す。
Z39.50雑記 けれども Z39.50は、シンプル??? Z39.50は、新しい??? Z39.50は、完成されている??? いいえ、とても複雑です!!! データベース検索の手法が網羅されています! Z39.50は、新しい??? いいえ、とても古いです!!! 通信のインフラが未整備な時代の仕様です! Z39.50は、完成されている??? いいえ、未解決な部分があります!!! 多言語処理、Webベース(Stateless) けれども
Z39.50は、、、 分散した異種のデータベースに対し、同時に 検索を投げかけることができる、唯一効果的 な手段であり、幅広い利用者の要求を満た すものです!!! ただし、、、効果を発揮するためには、Z39.50に精通する必 要があります。 対抗馬としては、XML、RDF、とWebの技術を使った仕組 みが考えられますが、、、
Z39.50コミュニティー? いいえ、検索に関して、基本的なルールを合意、公開することが重要?? 各データベースがZ39.50Targetを実装すればいいだけ??? いいえ、検索に関して、基本的なルールを合意、公開することが重要??
合意すべきルールとは? 文字コード、日本語 国内、海外、ローマ字、カナ、漢字、、、 インデックス ワード、フレーズ、フルフレーズ、、、 正規化 ストップワード、ストップキャラクタ、、、 共通のデータフォーマット?メタフォーマット?マッピング?考える土台、土俵が必要?
参考文献 Library of Congress: Z39.50 Maintenance Agency http://lcweb.loc.gov/z3950/agency/ NISO: Z39.50 Resource Page http://www.niso.org/z3950.html Z39.50 for All (Paul Miller) Ariadne, Issue 21, September 1999) http://www.ariadne.ac.uk/issue21/z3950/intro.html インテック・ウェブ・アンド・ゲノム・インフォマティクス株式会社: Z39.50 Technical and Practical Information Home Page http://z3950.isl.intec.co.jp/
Z39.50ClientGateway Target Z39.50ClientGateway Web base Application Browser Z39.50 Origin Origin Origin Origin Http Origin Origin Origin Origin Origin Origin KOSMOSII Z39.50