码迷,mamicode.com
首页 >  
搜索关键字:tf-idf    ( 251个结果
[Elasticsearch] 全文搜索 (一) - 基础概念和match查询
翻译自官方指南的全文搜索一章。 全文搜索(Full Text Search) 现在我们已经讨论了搜索结构化数据的一些简单用例,是时候开始探索全文搜索了 - 如何在全文字段中搜索来找到最相关的文档。 对于全文搜索而言,最重要的两个方面是: 相关度(Relevance) 查询的结果按照它们对查询本身的相关度进行排序的能力,相关度可以通过TF/IDF,参见什么是相关...
分类:其他好文   时间:2014-12-03 10:31:26    阅读次数:313
MapReduce ---- TD-IDF
1、TF-IDF TF-IDF(term frequency/inverse document frequency) 的概念被公认为信息检索中最重要的发明。描述单个term与特定document的相关性。 TF(Term Frequency): 表示一个term与某个document的相关性。公.....
分类:其他好文   时间:2014-12-01 11:23:06    阅读次数:251
TF-IDF
TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与文本挖掘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它...
分类:其他好文   时间:2014-11-29 22:52:21    阅读次数:315
tf-idf hadoop map reduce
package com.jumei.robot.mapreduce.tfidf;import java.io.IOException;import java.util.Collection;import java.util.Comparator;import java.util.Map.Entry;...
分类:其他好文   时间:2014-11-28 21:15:21    阅读次数:475
基础知识《二》
目录:一 计算两个字符串之间的相似度二、TF-IDF与余弦相似性的应用(二):找出相似文章一 计算两个字符串之间的相似度本文转载自cscmaker(1)余弦相似性 通过测量两个向量之间的角的余弦值来度量它们之间的相似性。0度角的余弦值是1,而其他任何角度的余弦值都不大于1;并且其最小值是-1。从而两...
分类:其他好文   时间:2014-11-27 21:47:42    阅读次数:304
TF-IDF算法及其编程实现
TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,因特网上的搜寻引擎还会使用基于连结分析的评级方法,以确定文件在搜寻结果...
分类:编程语言   时间:2014-11-15 11:31:57    阅读次数:363
搜索相关知识
1,TF-IDF (Term Frequence - Inverse Document Frequency)这个算法用来评价一个词(Term)对整个文档的重要程度,它只考虑了两个因素:(1) 这个词条在本文档中出现的次数是否高 (2) 这个词在所有文档中出现的次数是否高。算法的思想很容易搞懂:在本文...
分类:其他好文   时间:2014-11-02 23:49:24    阅读次数:398
基于KNN的newsgroup 18828文本分类器的Python实现
还是同前一篇作为学习入门。1. KNN算法描述:step1: 文本向量化表示,计算特征词的TF-IDF值step2: 新文本到达后,根据特征词确定文本的向量step3 : 在训练文本集中选出与新文本向量最相近的k个文本向量,相似度度量采用“余弦相似度”,根据实验测试的结果调整k值,此次选择20ste...
分类:编程语言   时间:2014-10-23 12:14:28    阅读次数:403
TextRank算法提取关键词的Java实现
谈起自动摘要算法,常见的并且最易实现的当属TF-IDF,但是感觉TF-IDF效果一般,不如TextRank好。TextRank是在Google的PageRank算法启发下,针对文本里的句子设计的权重算法,目标是自动摘要。它利用投票的原理,让每一个单词给它的邻居(术语称窗口)投赞成票,票的权重取决于自...
分类:编程语言   时间:2014-10-14 13:31:48    阅读次数:189
推荐系统学习(2)——基于TF-IDF的改进
使用用户打标签次数*物品打标签次数做乘积的算法虽然简单,但是会造成热门物品推荐的情况。物品标签的权重是物品打过该标签的次数,用户标签的权重是用户使用过该标签的次数,从而导致个性化的推荐降低,而造成热门推荐。 运用TF-IDF的思想可以对算法进行改进。TF-IDF(term frequemcy-inverse documnet frequency)是一种用于资讯检索和文本挖掘的加权技术。用来评估一...
分类:其他好文   时间:2014-10-09 01:49:57    阅读次数:250
251条   上一页 1 ... 22 23 24 25 26 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!