English

SPARQLエンドポイントから取得できるデータについて ― 利活用スキーマ概説

1. 「記述情報」のURIと取得できるデータ形式

ジャパンサーチでは、登録されたメタデータの利活用、すなわち付加価値をもたらす二次利用を促進するために、多種多様なコンテンツの様々な形式のメタデータを共通の形式に変換し、Linked Open Dataとして提供しています。この「共通の形式」を「JPS利活用スキーマ(JPS-RDF)」と呼称し、JPS-RDFに基づくデータを「利活用データ」と呼称します。

ある一つのコンテンツについての利活用データの集合を、「記述情報」と言います。ジャパンサーチに登録された各コンテンツの「記述情報」には、https://jpsearch.go.jp/data/で始まる一意のURIが付与されます。

個別のコンテンツの記述情報は、ブラウザから記述情報のURIをリクエストすることによってHTML形式で確認できます。 また、拡張子により形式を指定することで、JSON-LD、RDF/XML、またはTurtle形式で取得することができます。

例:
https://jpsearch.go.jp/data/photo-00010_00558_0006
(リクエストの設定に応じた形式(ブラウザからの場合はHTML形式)の結果が得られる)
https://jpsearch.go.jp/data/photo-00010_00558_0006.json
(JSON-LD形式の結果が得られる。.jsonldでも同じ)
https://jpsearch.go.jp/data/photo-00010_00558_0006.rdf
(RDF/XML形式の結果が得られる。.xmlでも同じ)
https://jpsearch.go.jp/data/photo-00010_00558_0006.ttl
(Turtle形式の結果が得られる。)
(参考)「例」に示すコンテンツについての利活用データの集合をグラフで見る

外部のアプリケーションから、利活用データを任意の条件で検索して利用したい場合は、リンクトデータを利用するための標準言語であるSPARQLを用いて、SPARQLエンドポイントに問い合わせます。検索結果は、JSON、XML、Turtle等で取得できます。SPARQLをブラウザから利用しやすいEasySPARQLのインタフェースも用意しています。

2. データの変換と正規化

利活用データへの変換は、ジャパンサーチに提供されたメタデータのうち、APIによる提供に承諾が得られたものについて順次行なっています。2020年9月現在、ジャパンサーチと連携する 111 データベース中 45 データベースに由来する 約1800万件 のメタデータについて、利活用データに変換しています(約9億5千万トリプル)。

利活用データでは、各機関が登録したメタデータ(ソースデータ)に含まれる「時間(いつ)」や「場所(どこ)」、「人や組織の名称(だれ)」の値を、できるかぎり標準的な表現に置換(正規化)し、ジャパンサーチに登録されたコンテンツ群を対象として、網羅性の高い検索結果の取得や、より精緻な条件による検索を可能にしています。値にはすべてURIを与え、正規化できたものはLODハブ(ウェブ上で他のデータから多くリンクされているURI)とリンクするようにして、ジャパンサーチ上のデータもウェブ上の他のデータから参照されやすくしています。

また、コンテンツの種別(絵画、彫刻、標本など)や作品の内容(主題、被写体、題材など)についての値は、ソースデータに含まれる情報を生かして決定し、それを既存の分類体系や件名典拠の階層の中に位置づけるなど、コンテンツの発見機会を拡げるための工夫をしています。

本文書において、説明のために用いる用語の定義は、特記する場合を除きISO5127:20171*1Linked Data Glossary*2 、及び「デジタルアーカイブの構築・共有・活用ガイドライン」(平成29年4月デジタルアーカイブの連携に関する関係省庁等連絡会・実務者協議会)*3 に依ります。

3. JPS利活用スキーマのデータモデル

JPS利活用スキーマのデータモデルは、大きく「コンテンツ記述」と「アクセス・ソース情報」という2つの部分から構成されています。「コンテンツ記述」はさらに基本記述と構造化記述の2つの部分を持ち、「アクセス・ソース情報」は、コンテンツの利用に必要な情報(アクセス情報)とジャパンサーチにメタデータ提供した元データベースについての情報(ソース情報)の2つの部分を持ちます。これらの情報は、次の4グループのプロパティによって記述されています。

  1. 3-1 「基本記述プロパティ」
  2. 3-2 「構造化記述プロパティ」
  3. 3-3 「アクセス情報プロパティ」
  4. 3-4 「ソース情報プロパティ」

3-1. 基本記述プロパティ

基本記述プロパティは20個あり、登録されたコンテンツの名称や言語、主題(テーマ)など、コンテンツの検索に広く用いられる情報を提供しています。基本記述プロパティには、ウェブ上のコンテンツのマークアップ等に用いられるschema.orgの語彙を用い、幅広い利活用者にとって分かりやすいものとなることを目指しています。

なお、このほかにデータベースの追加に伴い、schema.orgが提供する語彙を補助的なプロパティに用いることがあります。

3-2. 構造化記述プロパティ

コンテンツに関係する「時間(いつ)」や「場所(どこで)」「人(だれが/だれを)」の情報、また、そのコンテンツが他のコンテンツの一部を構成する場合には「上位資料(何の一部か)」についての情報を、構造化して提供しています。構造化とは、ひとまとまりの情報を複数の要素に分解して表現することです。

たとえば、「人」であれば、その名称やそのローマ字表記とともに、その人がそのコンテンツにどのような関わり方をしたのか(「監督」なのか「出演」なのか)という役割の情報を、その人に関する情報の要素として提供します。「時間」であれば、年月日の情報とともに、何の時間か(「制作」された時間か「出土」した時間か)、またそれは、「何時代」と呼称される時期のものか、といった情報を提供しています。

詳細な情報は、検索結果から必要とするコンテンツを識別する際や、複合的な条件で絞り込みを行う際に有用です。

JPS利活用スキーマには、構造化記述プロパティが5つあり、それぞれ独自定義の語彙を用いています。独自に定義した語彙の接頭辞はjps:です。(サブプロパティにはschema.org等の既存語彙も用いられています。)

3-3. アクセス情報プロパティ

「アクセス情報プロパティ」は、コンテンツへのアクセスとその利用のための情報を構造化して提供しています。

ここでいう「コンテンツ」とは、「個々の文化・学術情報資源」のことでありデジタルコンテンツのほか、アナログの資料や作品も含んでいます。

たとえば、ある絵画についてであれば、その絵画を保管している機関のほか、その絵画のデジタル化画像のURLなどがアクセス情報プロパティの要素になります。

3-4. ソース情報プロパティ

「ソース情報プロパティ」では、ジャパンサーチが収集したメタデータ(ソースデータ)とその提供者についての情報を構造化して提供しています。

メタデータをジャパンサーチに提供する連携先システムのURLのほか、ジャパンサーチのシステム内に格納されているソースデータのURLなどが、ソース情報プロパティの要素になります。

4. 利活用データで使用する語彙の名前空間

ジャパンサーチで独自に定義する語彙の名前空間は以下のとおりです。

語彙(Vocabulary Title) 名前空間名(Namespace Name) 接頭辞(Prefix)
JPS独自語彙 https://jpsearch.go.jp/term/property# jps:

JPS独自語彙のほかに、使用する語彙の名前空間は以下のとおりです。

語彙(Vocabulary Title) 名前空間名(Namespace Name) 接頭辞(Prefix)
OWL Web Ontology Language http://www.w3.org/2002/07/owl# owl:
RDF Vocabulary http://www.w3.org/1999/02/22-rdf-syntax-ns# rdf:
RDF Schema http://www.w3.org/2000/01/rdf-schema# rdfs:
SKOS http://www.w3.org/2004/02/skos/core# skos:
Schema.org Vocabulary http://schema.org/ schema:

5. 参考情報