python —— 文本特征提取 CountVectorize

时间：2018-08-20 16:37:53 阅读：151 评论：0 收藏：0 [点我收藏+]

CountVectorize

来自：python学习文本特征提取(二) CountVectorizer TfidfVectorizer 中文处理 - CSDN博客

https://blog.csdn.net/shuihupo/article/details/80930801

参数表	作用
stop_words	停用词表；自定义停用词表
token_pattern	过滤规则；

CountVectorizer是通过fit_transform函数将文本中的词语转换为词频矩阵，矩阵元素a[i][j] 表示j词在第i个文本下的词频。即各个词语出现的次数，通过get_feature_names()可看到所有文本的关键字，通过toarray()可看到词频矩阵的结果。

方法表	作用
fit_transform(X)	拟合模型，并返回文本矩阵

原文地址：https://www.cnblogs.com/yxh-amysear/p/9506047.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行