标签:
BagOfWords:
1. 见上一篇jieba分词。
2. 见上篇,读取分词后文件
3. 统计词频并表示成向量:
sklearn工具包方法:
from sklearn.feature_extraction.text import CountVectorizer as cv bows = cv(min_df=2,max_df =10) #词频两次以上,最多10次
标签:
原文地址:http://www.cnblogs.com/250apples/p/5609965.html