跳转到内容

维基百科:数据库下载

本页使用了标题或全文手工转换
维基百科,自由的百科全书

维基百科提供所有完整内容的电子档案(称为“数据库转储文件”)给有兴趣的使用者。这些资料可以被重复使用,当作镜像站点,或是个人使用,或是资料备份,或是分析。所有维基百科文章都在知识共享 署名-相同方式共享 4.0协议下发布,图片以及其他档案则可能以其他的许可证发布,详情参见Wikipedia:版权信息

文章下载

[编辑]

数据库转储文件,也可特指名为 *-pages-articles.xml.bz2 的文件,大约每周更新一次。此文件包含了当前版本的条目、模板、图片描述及基本的元页面(不包括讨论页和用户页)。这已经可以满足绝大多数需求了,如有特殊需求,请根据压缩文件的描述下载。

(※)注意,不同语言的条目内容不一定相同,欢迎您协助翻译不完善的条目或提出翻译请求

图片及其他档案

[编辑]

图片(以及其他的档案)的许可证不一定是以知识共享 署名-相同方式共享 3.0协议发布,将维基百科上属于合理使用的图片或档案使用在别的用途上可能是违法的。维基百科要求使用者在上传图片时必须标明版权资讯,这些资讯也可以在下载页面取得。

总而言之,你如果要使用这些图片及档案,你必须自行判断,并负起相关责任。

自2007年5月17日之后,维基百科不再开放这些图片及档案的BitTorrent(BT)下载。

档案过大的问题

[编辑]

由于维基百科的资料量庞大,在下载时可能会遇到一些问题:

下载软体的限制
下载软体可能会有单一档案最大2GB或4GB的限制,如果遇到问题,可以试著用:
档案系统对单一档案大小的限制
对于维基百科的档案大小而言,一般比较容易遇到问题的是FAT
  • FAT16:单一档案大小的限制是2GB。(在Windows MEWindows NT可以支援到4GB)
  • FAT32/VFAT:4GB。

除此之外,建议您使用MD5检查下载的档案是否有损毁。另外下载维基数据库时请尽量不要使用多线程下载工具以减轻维基服务器的负担。

压缩文档的解压缩

[编辑]

电子档案使用了bzip2gz或7-zip压缩。解压方式如下:

  • Microsoft Windows用户可以使用带有GUI的7-Zip解压缩上述两种文件格式。如果需要命令行工具,可以安装cygwin,或者使用google搜索"windows cli bzip2"找解决方案。
  • Mac OS X的使用者可以透过系统内的bzip2套件解压缩。或安装p7-zip。
  • GNU/Linux用户可直接在命令行下使用bzip2gzip命令进行解压缩。或安装p7-zip。

要注意旧版的bzip2套件可能没有办法处理超过2GB的档案。

处理转储文件

[编辑]

数据库转储文件有xml格式的和sql格式的,sql可直接导入数据库。 xml格式需要解析后导入数据库。部分节点需要原样保留空格,请选择支持保留空格的xml解析器进行处理,以免丢失信息。

外部链接提供了一些已有的解析器实现以及wiki标记语言的格式说明,可以作为自制解析器的参考。 当然,中文帮助也是必不可少的。

关于建立维基镜像的操作,可以参考外部链接,或使用Google搜索了解详细步骤。
如果要取得运行维基百科的软件,请参见Wikipedia:MediaWiki

您可以取得Mediawiki数据库的schema。数据库的布局请参考外部链接。

外部链接

[编辑]