标签:.com int ref com 代码 统计信息 html 需要 数据
一些重要的链接:
zhwiki-latest-pages-articles.xml.bz2
这个文件选择了 Gensim 这个主题工具包进行数据预处理。
python -m gensim.scripts.segment_wiki -f zhwiki-latest-pages-articles.xml.bz2 | gzip > zhwiki-latest.json.gz
然后就转换成了可被 Python 直接读取的 json 文档。
from smart_open import smart_open
import json
x = 0
for line in smart_open(‘zhwiki-latest.json.gz‘):
article = json.loads(line)
print("Article title: %s" % article[‘title‘])
for section_title, section_text in zip(article[‘section_titles‘], article[‘section_texts‘]):
print("Section title: %s" % section_title)
print("Section text: %s" % section_text)
x += 1
if x == 5:
break
运行如上代码可以输出中文维基中的前 5 篇文档。
没写。
标签:.com int ref com 代码 统计信息 html 需要 数据
原文地址:http://www.cnblogs.com/nlp-in-shell/p/7894719.html