码迷,mamicode.com
首页 > 编程语言 > 详细

Python中计算TF-IDF(scikit-learn)

时间:2018-10-24 17:49:22      阅读:372      评论:0      收藏:0      [点我收藏+]

标签:fit   name   form   权重   simple   clear   install   nbsp   sci   

scikit-learn包下有计算TF-IDF的api,其效果也很不错。首先得安装Scikit-clearn

Scikit-learn 依赖:

  • Python (>= 2.7 or >= 3.4),
  • NumPy (>= 1.8.2),
  • SciPy (>= 0.13.3).
pip install scikit-learn

 

计算TF-IDF

  scikit-learn包进行TF-IDF分词权重计算主要用到了两个类:CountVectorizer和TfidfTransformer。其中

  CountVectorizer是通过fit_transform函数将文本中的词语转换为词频矩阵,矩阵元素a[i][j] 表示j词在第i个文本下的词频。即各个词语出现的次数,通过get_feature_names()可看到所有文本的关键字,通过toarray()可看到词频矩阵的结果。

 

Python中计算TF-IDF(scikit-learn)

标签:fit   name   form   权重   simple   clear   install   nbsp   sci   

原文地址:https://www.cnblogs.com/yhll/p/9844573.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!