标签:page org 有一个 hub latest rac 维基百科 解压 直接
1. 下载维基百科数据:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2
2. 去Github上下载Wikipedia Extractor,直接下载zip即可
3. 解压,进入目录可以看到有一个setup.py
使用python setup.py install 进行安装
4. 安装后使用wikiextractor -b 3000M -o extracted\ zhwiki-latest-pages-articles.xml.bz2进行处理即可
标签:page org 有一个 hub latest rac 维基百科 解压 直接
原文地址:https://www.cnblogs.com/dongshuaishuai/p/14607978.html