Jump to content

维基数据:下载数据库

From Wikidata
This page is a translated version of the page Wikidata:Database download and the translation is 100% complete.

维基数据将已有的内容提供给任何人下载。

请注意另有几个其它方法以访问结构化的维基数据内容,这可能不会提供一个完整的数据库转储。

数据库转储

目前提供多种数据导出格式。请注意,虽然JSON和RDF导出被视为稳定接口,但XML导出并非如此。稳定接口所使用的-{zh-hant:資料;zh-hans:数据;}格式变更须遵循稳定接口政策

JSON 傾印(建議)

包含所有维基数据实体列表于一个JSON数组的JSON转储可在 https://dumps.wikimedia.org/wikidatawiki/entities/ 找到。该数组中的实体并未按某特定顺序排序,例如Q2不一定紧接着Q1。这些会每周一次更新。

这是推荐的转储格式。有关维基数据实体的表示方式,请参阅JSON结构说明文档

提示:每个实体(数据实体或属性)都在JSON文件中的单独一行,所以文件可以逐行读取,并且每行都能单独解码为独立的JSON对象。

注意这些文件使用并行压缩,这可能导致某些解压缩工具无法可靠解压文件。如果你使用Windows你可以用Bzip2等。在*nix系统中,使用lbzip2可以并行解压缩Bzip2。pbzip2不是一个合适的选择,它不能对不是pbzip2创建的压缩文件并行解压缩。

您目前可通过种子下载一个相当新的备份文件。 wikidata-20240101-all.json.gz (130.53 GiB) 位于academictorrents.com ( magnet)

  • JsonDumpReader 是一个读取转储文件的PDP库。
  • gitlab.com/tozd/go/mediawiki 是一个处理维基百科和维基数据转储文件的Go库。
  • WDSub 是一个用于处理JSON Wikibase转储文件的Scala库,可以输入实体架构生成数据子集。
  • simple-wikidata-db 是一个JSON转储文件解析器,使用Python编写。
  • qwikidata 支持JSON转储文件,使用Python编写。

RDF转储

首先,采用TurtleNTriples格式的规范RDF导出文件可于 https://dumps.wikimedia.org/wikidatawiki/entities/ 目录下获取。映射关系详见此处说明。此类完整语句导出文件标记为all

其次,提供了所谓的真值”数据导出。这些导出采用NTriples格式,与完整导出格式相同,但仅包含最佳排名语句的直接值(即“truthy”、“wdt:”和“wdtn:”)。这也意味着它们包含限定符和引用等元数据。

-all导出文件包含维基数据中除顺序信息(如别名顺序、陈述顺序等)之外的所有实体信息,因该类信息无法在RDF中自然呈现。-truthy导出文件则将*最佳*陈述(即每个给定(主体,属性)对中最高级别的非弃用陈述)编码为单个RDF三元组(省略限定符和引用)。

Wikidata词位命名空间在TurtleNTriples格式的数据导出文件,均可通过添加lexemes后缀在同一位置找到。

要想获得RDF转储格式的更多信息请参考RDF转储格式。另请注意WDQS数据差异部分,该部分阐述了这些转储数据与WDQS在RDF格式上的差异。

部分RDF转储

WDumper是用于创建自定义Wikidata RDF转储的第三方工具。 实体和语句可能会被过滤。

XML 转储

维基数据完整的XML转储文件可以在 https://dumps.wikimedia.org/wikidatawiki/ 找到。

警告:XML转储文件中的JSON数据格式可能在未经通知的情况下更改,且不同版本的格式可能不一致。因此此数据应视为格式未知的二进制数据。强烈建议用JSON或RDF转储来得到标准的数据表示!

维基数据的增量转储(或新增/变更转储)同样可供下载。这些转储包含在过去24小时内新增的内容,以减少下载整个数据库转储的必要。这些转储会显著地小于整个数据库转储。

这些转储可在 https://dumps.wikimedia.org/other/incr/wikidatawiki/ 查閱。

舊的 JSON 與 RDF 轉儲

可以在Internet Archive (Q461)上找到旧的RDF和JSON转储:

数据模型

数据模型可以在此处查阅。该数据模型描述了维基数据的基本结构。

数据库纲要

有关数据库架构的概述,请参见本页。(这不是Wikidata中数据的架构。)

许可协议

这些数据库可以用于个人或商业用途,备份或脱机使用。所有来自“主要”、“属性”、“词位”,以及“实体模式”命名空间的结构化数据均在知识共享CC0协议条款之下可用。其他名字空间的文本在知识共享 署名-相同方式共享协议条款之下可用;附加条款亦可能应用。多媒体项目和其他内容在其他协议之下提供,其详情页面有详细说明。

另请参阅