维基数据:下载数据库

维基数据将已有的内容提供给任何人下载。
请注意另有几个其它方法以访问结构化的维基数据内容,这可能不会提供一个完整的数据库转储。
数据库转储
目前提供多种数据导出格式。请注意,虽然JSON和RDF导出被视为稳定接口,但XML导出并非如此。稳定接口所使用的-{zh-hant:資料;zh-hans:数据;}格式变更须遵循稳定接口政策。
JSON 傾印(建議)
包含所有维基数据实体列表于一个JSON数组的JSON转储可在 https://dumps.wikimedia.org/wikidatawiki/entities/ 找到。该数组中的实体并未按某特定顺序排序,例如Q2不一定紧接着Q1。这些会每周一次更新。
这是推荐的转储格式。有关维基数据实体的表示方式,请参阅JSON结构说明文档。
提示:每个实体(数据实体或属性)都在JSON文件中的单独一行,所以文件可以逐行读取,并且每行都能单独解码为独立的JSON对象。
注意这些文件使用并行压缩,这可能导致某些解压缩工具无法可靠解压文件。如果你使用Windows你可以用Bzip2等。在*nix系统中,使用lbzip2可以并行解压缩Bzip2。pbzip2不是一个合适的选择,它不能对不是pbzip2创建的压缩文件并行解压缩。
您目前可通过种子下载一个相当新的备份文件。
wikidata-20240101-all.json.gz (130.53 GiB) 位于academictorrents.com (
magnet)
- JsonDumpReader 是一个读取转储文件的PDP库。
- gitlab.com/tozd/go/mediawiki 是一个处理维基百科和维基数据转储文件的Go库。
- WDSub 是一个用于处理JSON Wikibase转储文件的Scala库,可以输入实体架构生成数据子集。
- simple-wikidata-db 是一个JSON转储文件解析器,使用Python编写。
- qwikidata 支持JSON转储文件,使用Python编写。
RDF转储
首先,采用Turtle和NTriples格式的规范RDF导出文件可于 https://dumps.wikimedia.org/wikidatawiki/entities/ 目录下获取。映射关系详见此处说明。此类完整语句导出文件标记为all。
其次,提供了所谓的真值”数据导出。这些导出采用NTriples格式,与完整导出格式相同,但仅包含最佳排名语句的直接值(即“truthy”、“wdt:”和“wdtn:”)。这也意味着它们不包含限定符和引用等元数据。
-all导出文件包含维基数据中除顺序信息(如别名顺序、陈述顺序等)之外的所有实体信息,因该类信息无法在RDF中自然呈现。-truthy导出文件则将*最佳*陈述(即每个给定(主体,属性)对中最高级别的非弃用陈述)编码为单个RDF三元组(省略限定符和引用)。
Wikidata词位命名空间在Turtle和NTriples格式的数据导出文件,均可通过添加lexemes后缀在同一位置找到。
要想获得RDF转储格式的更多信息请参考RDF转储格式。另请注意WDQS数据差异部分,该部分阐述了这些转储数据与WDQS在RDF格式上的差异。
部分RDF转储
WDumper是用于创建自定义Wikidata RDF转储的第三方工具。 实体和语句可能会被过滤。
XML 转储
维基数据完整的XML转储文件可以在 https://dumps.wikimedia.org/wikidatawiki/ 找到。
警告:XML转储文件中的JSON数据格式可能在未经通知的情况下更改,且不同版本的格式可能不一致。因此此数据应视为格式未知的二进制数据。强烈建议用JSON或RDF转储来得到标准的数据表示!
维基数据的增量转储(或新增/变更转储)同样可供下载。这些转储包含在过去24小时内新增的内容,以减少下载整个数据库转储的必要。这些转储会显著地小于整个数据库转储。
这些转储可在 https://dumps.wikimedia.org/other/incr/wikidatawiki/ 查閱。
舊的 JSON 與 RDF 轉儲
可以在Internet Archive (Q461)上找到旧的RDF和JSON转储:
数据模型
数据模型可以在此处查阅。该数据模型描述了维基数据的基本结构。
数据库纲要
有关数据库架构的概述,请参见本页。(这不是Wikidata中数据的架构。)
许可协议
这些数据库可以用于个人或商业用途,备份或脱机使用。所有来自“主要”、“属性”、“词位”,以及“实体模式”命名空间的结构化数据均在知识共享CC0协议条款之下可用。其他名字空间的文本在知识共享 署名-相同方式共享协议条款之下可用;附加条款亦可能应用。多媒体项目和其他内容在其他协议之下提供,其详情页面有详细说明。
另请参阅
- 维基百科:大数据
- 有关获取单个条目RDF的说明,请参阅数据访问页面。
- 维基数据库REST API