利活用データにおける正規化について
利活用データでは、各機関が登録したメタデータ(ソースデータ)に含まれる「時間(いつ)」「場所(どこ)」「人や組織の名称(だれ)」の情報をできるかぎり標準的な表現に置換(正規化)しています。ジャパンサーチにおける「正規化」とは、値を実体として定義し、URI(ASCII文字以外を含むので正確にはURIの拡張版の国際化資源識別子(IRI)だが、ここではわかりやすさのためURIとして説明)による表現に置換することです。正規化に当たっては、情報を要素に分解して構造化し、外部のLODハブ(国立国会図書館の典拠データ(Web NDL Authorities)やWikidata等ウェブ上で他のデータから多くリンクされているURI)のデータと同定し、関連付けています。これにより、利活用の幅が大きく広がることを目指しています。
1. 時間情報の正規化
時間に関する情報は、暦年を最小単位とする時間の範囲(期間)を実体として定義し、正規化しています。URIは、https://jpsearch.go.jp/entity/time/
の名前空間で一意に与えられます。
- 例:https://jpsearch.go.jp/entity/time/1861 (西暦1861年の1年間を範囲とする時間実体)
正規化の対象 | 西暦年(1年間、複数年間)、世紀、時代など、時間の範囲の実体。年を最小単位として正規化される。 |
---|---|
URI例 | |
正規化値のクラス | ジャパンサーチで定義する「type:Time 」。それに加えて、世紀の場合は「type:Century 」、時代の場合は「type:HistoricalEra 」。(「type:Century 」と「type:HistoricalEra 」は「type:Time 」のサブクラス。)
|
プロパティ | 各プロパティの説明の末尾の( )に値の型と[出現回数]を記載した。
|
正規化した実体を値に取り得るプロパティ |
|
参考. 元号の実体
元号を実体(ジャパンサーチで定義する「type:Time
」と「type:CalendarEra
」のインスタンスとなる実体)として定義し、西暦年の時間範囲の実体と関連付けています。これにより、その元号の時間範囲に含まれる時間情報を値に持つデータを検索することができます。
- 例:https://jpsearch.go.jp/entity/time/元禄 (元号「元禄」)
-
元号の正規化データを用いた検索例:プロパティパス「
schema:temporal
/schema:isPartOf
」を用いて、元号「元禄」の時間範囲に含まれる時間情報を値に持つデータを検索する検索(検索結果にリンク)年単位の実体と関連付けているため、元号の時間範囲に絞った検索ができます。
2. 場所情報の正規化
場所に関する情報は、国または都道府県、及び市郡レベルを単位とする空間の範囲を実体として定義し、正規化しています。URIは、https://jpsearch.go.jp/entity/place/
の名前空間で一意に与えられます。
正規化の対象 | 場所の情報が示す空間の範囲の実体。国、都道府県、市、郡のレベルで正規化される。日本の旧国名は複数都県に相当する場合には旧国名で正規化される。(旧国名が都道府県と1対1で対応する場合は旧国名ではなく都道府県で正規化される。) |
---|---|
URI例 | |
正規化値のクラス | ジャパンサーチで定義する「type:Place 」。それに加えて、国の場合は「type:Country 」。(「type:Country 」は「type:Place 」のサブクラス。)
|
プロパティ | 各プロパティの説明の末尾の( )に値の型と[出現回数]を記載した。
|
正規化した実体を値に取り得るプロパティ |
|
3. 人・組織情報の正規化
人や組織に関する情報は、国立国会図書館名称典拠にあるものはそのURIを用い、ないもののうち、出現頻度の高いものについては、コンテンツの作成への寄与者やコンテンツの主題・被写体になった人や組織を実体として定義し、正規化しています。URIは、https://jpsearch.go.jp/entity/chname/
の名前空間で一意に与えられます。
正規化の対象 | 人や組織(自治体等を含む)の名称が示す実体。 |
---|---|
URI例 | |
正規化値のクラス | ジャパンサーチで定義する「type:Agent 」。それに加えて、人の場合は「type:Person 」。(「type:Person 」は「type:Agent 」のサブクラス。)
|
プロパティ | 各プロパティの説明の末尾の( )に値の型と[出現回数]を記載した。
|
正規化した実体を値に取り得るプロパティ |
|
最終更新日: