#coding:utf-8import jiebaimport jieba.analyse #计算tf-idf需要调用此模块jieba.analysestopkey=[line.strip().decode('utf-8') for line in open('stopkey.txt').re...
分类:
其他好文 时间:
2015-12-02 20:35:57
阅读次数:
237
潜在语义分析通过矢量语义空间来分析文档和词的关系。基本假设:如果两个词多次出现在同个文档中,则两个词在语义上具有相似性。LSA使用大量文本构成矩阵,每行表示一个词,一列表示一个文档,矩阵元素可以是词频或TF-IDF,然后使奇异值分解SVD进行矩阵降维,得到原矩阵的近似,此时两个词的相似性可通过其向量...
分类:
其他好文 时间:
2015-11-12 13:31:10
阅读次数:
415
http://www.ruanyifeng.com/blog/2013/03/tf-idf.html作者:阮一峰日期:2013年3月15日这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extractio...
分类:
其他好文 时间:
2015-10-13 13:47:06
阅读次数:
145
结合之前对TF-IDF算法的分析,本文采用python对算法加以实现,并结合k-means算法实现简单的文本聚类。
分类:
编程语言 时间:
2015-09-21 01:20:14
阅读次数:
242
本文就TF-IDF算法的主要思想,步骤和应用做了简单介绍,并简要说明了其优缺点,
分类:
编程语言 时间:
2015-09-09 00:53:26
阅读次数:
315
TF-IDF(termfrequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随著它在文件中出现的次数成正比增加,但同时会随著.....
分类:
其他好文 时间:
2015-09-01 16:36:39
阅读次数:
305
转自: http://lutaf.com/210.htm Lucene在进行关键词查询的时候,默认用TF-IDF算法来计算关键词和文档的相关性,用这个数据排序 TF:词频,IDF:逆向文档频率,TF-IDF是一种统计方法,或者被称为向量空间模型,名字听起来很复杂,但是它其实只包含了两个简单规则 某个...
分类:
Web程序 时间:
2015-08-30 19:09:12
阅读次数:
166
英文分词的算法和原理 根据文档相关性计算公式 TF-IDF:http://lutaf.com/210.htm BM25:http://lutaf.com/211.htm 分词质量对于基于词频的相关性计算是无比重要的 英文(西方语言)语言的基本单位就是单词,所以分词...
分类:
编程语言 时间:
2015-08-17 06:35:08
阅读次数:
273
为了搞清楚elastic search背后是如何计算文档搜索时候的相关度,我决定自己做实验去探索
这篇博客讲得还不错
http://blog.csdn.net/dm_vincent/article/details/42099063
而博客本身也只是翻译了官方文档
https://www.elastic.co/guide/en/elasticsearch/guide/current/scori...
分类:
其他好文 时间:
2015-08-13 01:12:19
阅读次数:
216
前言:
本系列是在作者学习《机器学习系统设计》([美] WilliRichert)过程中的思考与实践,全书通过Python从数据处理,到特征工程,再到模型选择,把机器学习解决问题的过程一一呈现。书中设计的源代码和数据集已上传到我的资源:http://download.csdn.net/detail/solomon1558/8971649
第3章通过词袋模型+K均值聚类实现...
分类:
其他好文 时间:
2015-08-12 23:40:54
阅读次数:
206