TF-IDF介绍 TF-IDF是NLP中一种常用的统计方法,用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度,通常用于提取文本的特征,即关键词。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。 在NLP中,TF-IDF的计算公式如下: ...
分类:
其他好文 时间:
2019-09-02 15:44:17
阅读次数:
98
Google的新闻是自动分类而产生的,但是计算机只懂算法,是看不懂我们人类的新闻。若是人为地一个新闻一个新闻地划分又会浪费不必要的人力、物理。由此,我们设计出一个算法,帮助我们利用计算机,自动地划分每天数量庞大地新闻。 算法涉及的方面不多:TF-IDF算法、余弦定理 看过的TF-IDF算法写的比较详 ...
分类:
其他好文 时间:
2019-09-01 22:05:20
阅读次数:
94
今日完成 还是找论文,看论文,中文的英文的,资料很少,基本上没有这类型的论文,看到了有关cnn分类案件的,cnn本身就可以做特征提取,在想可以不可以用cnn代替bpnn,这样就省去了特征提取的环节了。还是没有做特征提取,正则表达式或TF-IDF啥的,明天一定写。 明日计划 写TF-IDF,先尝试用B ...
分类:
其他好文 时间:
2019-08-22 22:06:44
阅读次数:
81
定义: 特征选择是一个「降维」的过程,是一个去掉无关特征,保留相关特征的过程。从所有特征集中选取最好的一个特征子集。 特征提取是一个将机器学习算法不能识别出来的原始数据转变成可以识别到数据特征的过程。没有「筛选」的操作,不需要考虑特征是否有用,所以并不能称其为降维。 通过实例理解,以文本分类为例: ...
分类:
其他好文 时间:
2019-08-18 23:38:42
阅读次数:
122
在做文本分类聚类的任务时,常常需要从文本中提取特征,提取出对学习有价值的分类,而不是把所有的词都用上,那样会造成维度灾难。因此一些词对分类的作用不大,比如“的、是、在、了”等停用词。这里介绍三种常用的特征选择方法: 无监督方法: TF IDF 监督方法: 卡方 信息增益 互信息 一、TF IDF 一 ...
分类:
其他好文 时间:
2019-08-04 13:32:31
阅读次数:
119
实现之前,我们要事先说明一些问题: 我们用Redis对数据进行持久化,存两种形式的MAP: key值为term,value值为含有该term的urlkey值为url,value值为map,记录term及在文章中出现的次数总的计算公式如下: 1.计算词频TF这里通过给出url地址,获取搜索词term在 ...
分类:
编程语言 时间:
2019-06-29 12:41:17
阅读次数:
168
最近在研究sample之间的similarity,以便更好地进行clustering,一下是相关资料 TF-IDF与余弦相似性的应用(一):自动提取关键词 TF-IDF与余弦相似性的应用(二):找出相似文章 相似度(距离计算)汇总 常用的相似度计算方法原理及实现 机器学习中的相似性度量 大量短文本聚 ...
分类:
其他好文 时间:
2019-06-11 11:19:49
阅读次数:
125
上一篇博客用词袋模型,包括词频矩阵、Tf-Idf矩阵、LSA和n-gram构造文本特征,做了Kaggle上的电影评论情感分类题。 这篇博客还是关于文本特征工程的,用词嵌入的方法来构造文本特征,也就是用word2vec词向量和glove词向量进行文本表示,训练随机森林分类器。 一、训练word2vec ...
分类:
其他好文 时间:
2019-05-19 18:10:28
阅读次数:
149
1、TF-IDF算法介绍 TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。 TF-IDF是一种统计方法,用以评估一 ...
分类:
编程语言 时间:
2019-04-23 19:15:58
阅读次数:
230
1. text-rank基于的pagerank: 这个通俗易懂 https://www.letiantian.me/2014-06-10-pagerank/ 这个从矩阵层面讲解 https://zhuanlan.zhihu.com/p/32276862 2.tf-idf: https://zhuan ...
分类:
其他好文 时间:
2019-04-23 12:32:12
阅读次数:
156