Help:データについて
ウィキデータは人間と機械の双方が読み書きできる、フリーな知識ベースです。よく知られているウィキペディアと同じく、非営利組織ウィキメディア財団が運営するプロジェクトの一つです。財団のプロジェクトは重点的に取組んでいるものがそれぞれ異なり、例えば、ウィキペディアは百科事典、ウィキメディア・コモンズは画像やメディアファイルの提供、ウィクショナリーは言葉の定義や類義語等、語彙についての情報の提供にフォーカスしています。そしてウィキデータは、構造化データにフォーカスするプロジェクトです。
このページは、構造化データを分かりやすく紹介するために作成しています。すでに構造化データについてご存知で、具体的なウィキデータの使用方法や、ウィキデータへの貢献方法、自分のプロジェクトのデータをウィキデータに提供する方法をご覧になりたい場合には読み飛ばしてデータを繋げるに進んでください。
ウィキデータを理解する
構造化データとは、符号化方法やデータセット内でのデータ間の関係を、一定の方法で体系化して蓄積したデータのことです。
しかし、データとは何でしょうか?そしてなぜ、構造化データに注目するのでしょうか?
データの定義
これまでに、ビッグデータ、実験データ、オープンデータ、メタデータなどの用語を見聞きされたことがあるでしょう。
これらの用語にはそれぞれ少しずつ違う意味があります。そのいずれも、一般的なデータの理解と、私達の周囲の世界を記述して理解を発展させていく、データが持つ潜在的な力を元に組み立てられています。
抽象的には、データは情報に先行する概念と考えることができます。言い換えると、情報はデータから推論したり生成したりできるとも言えます。
このことは、データの本質が「物事」に関する単なる一連の「値」であるからと説明できます。値は、測定値や総量のように、数値または量で表せる場合と、記述や比較による質的な値をとる場合があります。例えば「8,848m」はエベレストの高さを表すデータの値であり、「赤」はある車の色を表すデータの値であると言えます。
既にお伝えした通り、情報はデータと同じものではなく、データを収集し、それを分析して得られるものです。例えば、「8,848」というデータは、それが山の高さであるということを知っていても、それ自体にはあまり意味のない数字です。「エベレストは8,848 mある世界で1番高い山です」という情報を伝えるためには、山の高さの標準的な計測方法を知り、それと同じ方法で他の全ての山の高さを調べる必要があります。データが構造化しておくと、構造化していないデータと比べて、データから情報を推論したり、新しい洞察や知識を得たり、事実を確立することがはるかに容易になります。このアイデアについては後ほど触れます。
データとは何か?
私達の周囲の全てはデータといえます。財務データ、生物学データ、ソーシャルデータなど、多数のデータ源が存在しています。このページにもデータは存在していて、例えば、ページに含まれる総単語数、作成日、最終更新日、話題と主題、ページビュー数、翻訳されている言語などが該当します。
あらゆるものが潜在的にデータ源である一方、記録されていないデータや、良く体系化されていないデータは存在しないも同然です。基盤となる構造がなければデータは無意味であり、有効な情報を提供することができません。
体系化とは、標準的な手法で、曖昧さなくカテゴリに分類できていることを意味しています。私達が構造化データという場合には、体系化し、カテゴリに分類したデータを指しています。
構造とは?
ウェブは構造が支配しています。ほとんどのウェブサイトはHTMLを使って作られています。HTMLはウェブページの基礎となり、構造をもたらすマークアップ言語です。
マークアップ言語はページ・コンテンツのタグ付けと説明のためにも使われ、その結果、検索エンジン、ボット、及びRSSフィードのようなアプリケーションが簡単に加工や理解をできます。例えば、<title>
で表されるタイトルは、機械にウェブサイトの名前が何であるかを伝えます。
ウィキデータは、ウェブページの構造と共通の要素をサポートする代わりに、ウィキペディアや他のウィキメディアプロジェクトに保存されている全ての情報の構造を提供します。ウィキデータは、ウィキデータを強化し、大量の構造化データを管理するように設計されたソフトウェアであるWikibaseによって拡張された他のウィキメディアプロジェクトと同様に、Mediawikiソフトウェアに基づいています。構造は、テーブルやリストのように、ウィキペディアや他のウィキメディアサイトページのコンテンツに直接追加されず、ウィキデータユーザーが必要とするマークアップ言語、データスキーマ、オブジェクト表記、またはその他の特別な構文の知識もありません。代わりに、データはユーザーフレンドリーな入力フォームを介してウィキデータに追加及び編集されます。
ウィキデータに蓄積されているデータは、あらゆるウィキメディアのサイトやその他の場所で、あらゆる種類の自動化された最新の一覧、表、その他の構造化ページの生成に利用できます。
山に関するデータ | ||
---|---|---|
山 | プロパティ | 値 |
Mount Everest | height | 8,848 m |
K2 | hauteur | 8,611 m |
Kanchenjunga | height | 8,586 m |
Lhotse | height | 27940 ft |
データを構造化する
構造の重要性の例として、表1をご覧ください。この表には、地球上で最も高い4つの山に対するデータを示しています。「世界で2番目に高い山の高さ」といった特定の情報を知りたい場合には、このデータから正しい値を知ることができるでしょう。しかしこのの表では、4つの山のうち3つだけが高さの値としてカテゴライズされたものを持ち、4つのうち3つだけがメートルでの値になっています。私達は高さとhauteur (フランス語で高さを表す)が同じものであり、メートルとフィート間の変換の方法について知っていますが、ボットやコンピュータ・プログラムといった機械は必ずしもそうではありません。
全ての基礎データが表現が異なっていても、それぞれが類似の方法で記録されていれば、2番目に高い山の高さという元の質問に答えるのが人間と機械のどちらにも容易になります。
データのモデリング
ウィキデータのような構造化データの集まりは、データモデルに従って体系化しています。データモデルは機械可読、つまりコンピュータにも理解できます。コンピュータは強力な道具である一方で、単純な推論が必要な場合には、私達人間ほど賢くはないことが良くあります。例えば、先程の例では、機械は明示的に教えない限り高さとhauteurが同じであることを知ることができません。
-
項目:地球
-
プロパティ:最も高い地点
-
値:エベレスト
山に関するデータ | ||
---|---|---|
山 | プロパティ | 値 |
Mount Everest | continent | Asia |
K2 | continent | Asia |
Kanchenjunga | continent | Asia |
Lhotse | continent | Asia |
データモデルは分析のニーズ、対象分野や概念的枠組み、システムの技術要件によって変化するものです。しかしながら通常、全てのデータモデルは、どのような種類のデータをサポートするシステムか、また、値どうしの関係をどのように理解し、表現するか、ということを規定するものです。例えば、データモデルによっては高さとhauteurをお互い同じものとして扱うようにしており、どちらを指定しても一つの概念を表現できたり、フィートでの測定値を登録すると自動的にメートルに変換したりします。ウィキデータのデータモデルは、ユーザーによるデータの追加や変更によって、その構造を変更できるようにしており、これによってデータモデルを変化に追従できるようにしています。これはまだ発展途上であり、日々新しいデータの種類が追加され続けています。
また、データモデルは本質的に、人間が扱う自然言語で表される形式を、機械が処理できる何らかの形式に変換します。例えば、日本語で以下のような表現を考えてみましょう:
- 「エベレストは、世界で一番高い山です」
これは生の表現であり、ウィキペディアや他のウィキメディアのプロジェクトサイトにある、構造化されていない形式での表現です。
ウィキデータでは、これを属性(プロパティ)と値のペアから成る文で表します。例えば、地球の場合は以下のような文で表現します。
Earth (Q2) (項目) → highest point (P610) (プロパティ) → Mount Everest (Q513) (値)
さらに、ウィキデータのエベレストの項目は以下のようにして山であることを表現します :
Mount Everest (Q513) (項目) → instance of (P31) (プロパティ) → mountain (Q8502) (値)
文の値には他の項目を使用します。ウィキデータでは全項目が独立したページを持つため、文によって項目同士が相互にリンクすることになります。さらに、ウィキデータでは機械可読な形式を採用しているため、この内部リンクによるデータ間の関連を使って新たな関連を機械で発見したり、関連を機械処理することができます。例えば、表2に、山についての新しいデータがあります。今回は大陸ごとの地理的な位置に関するもので、高さについては何も情報がありません。しかし、この大陸のデータが、山の高さのデータにリンクされていれば、私達は自信を持って、アジア大陸は世界最高峰の山の巣である、という結果を導き出すことができるでしょう。
データを繋げる
ウィキデータは、構造化データの収集であるだけでなく、「リンクトデータ」もサポートしています。リンクトデータとは構造化データを相互にリンクできるように公開する手法を指します。
これはボランティアがウィキデータに貢献したデータに、外部のデータセットやデータベース、ウィキメディアのプロジェクト外の多様で独創的なデータ源からリンクされることを意味しています。例えば現在、ウィキデータとグーグルブックス、Canmore (歴史的環境のスコットランドのデータベースの一つ)、バチカン図書館、OmegaWiki、MusicBrainzなど、多様なデータベースやデータ源と相互にリンクしています。
リンクトデータの原則や実践に従うことにより、ウィキデータは他のプロジェクトをサポートしたり、他のプロジェクトから利用してもらうことができます。
リンクトデータの原則
ウィキデータではリンクトデータ標準に基づいて、全項目に一意の識別子とURIsを用意しています。
ウィキデータは独自のデータモデルを使用していますが、その内容を、リンクトデータ向けに広く使われている標準形式であるRDFに出力することができるよう作成しています。 ウィキデータの用語の項目構成する「文」はプロパティと値のセットで構成されています。リンクトデータの概念に慣れている人は、項目はトリプルの主語にあたり、プロパティはトリプルの述語、値はトリプルの目的語に当たるものと理解できるでしょう。
しかしながら、ウィキデータの文は、出典や修飾子(詳細はHelp:Statements参照)のように、主語-述語-目的語以外の要素を含む場合があります。このため、ウィキデータのコンテンツをRDFの言語を使って完全に表現するのはやや複雑です。このあたりの試みの詳細は次の文書などで見ることができます "Introducing Wikidata to the Linked Data Web".
データの寄贈
ウィキデータに寄贈したいデータセットをお持ちの場合は、Wikidata:Data donationをご覧ください
データにアクセスする
ウィキデータ内のデータはCreative Commons Public Domain Dedication 1.0の下公開しており、データを自由に再利用することができます。データは商用、非商用を問わず、許諾をとることなく複製、改変、再配布、実行や実演に利用可能です。
ウィキデータのデータにプログラムでアクセスするさまざまな方法の詳細については、Wikidata:データへのアクセスをご覧ください。
関連項目
関連する情報を以下のページに掲載してあります。
以下は追加情報とガイドラインになります。
- 井戸端 - ウィキデータに関する、あらゆる事項についての議論
- Wikidata:Glossary - ここや他のヘルプページで使用されている用語の用語集
- Help:FAQ - よくある質問と、ウィキデータ・コミュニティによる回答
- Help:Contents - ウィキデータに関する解説を集めたヘルプ・ポータル