笔者寄语:本文大多内容来自未出版的《数据挖掘之道》的情感分析章节。本书中总结情感分析算法主要分为两种:词典型+监督算法型。
监督算法型主要分别以下几个步骤:
构建训练+测试集+特征提取(TFIDF算法)+K层交叉验证。
一、TFIDF算法指标的简介
监督式算法需要把非结构化的文本信息转化为结构化的一些指标,这个算法提供了以下的一些指标,在这简单叙述:
TF = 某词在文章中出现的...
分类:
编程语言 时间:
2016-05-03 18:22:39
阅读次数:
1410
一、RS介绍 1.显示评分:直接从用户来 隐式评分:从用户活动推测得到的 2.预测是偏好的估计,是预测缺失值,推荐是从其他用户推荐项目,是推荐感兴趣的项目。 3.协同表示利用其它用户的数据 二、欢迎来到本课程 1.TFIDF:overlap 重叠 2.taxonomy:分类研究 3.roadmap: ...
分类:
其他好文 时间:
2016-04-11 12:11:42
阅读次数:
146
建立文本数据数学描述的过程分为三个步骤:文本预处理、建立向量空间模型和优化文本向量。文本预处理主要采用分词、停用词过滤等技术将原始的文本字符串转化为词条串或者特点的符号串。文本预处理之后,每一个文本的词条串被进一步转换为一个文本向量,向量的每一维对应一个词条,其值反映的是这个词条与这个文本之间的相似度。相似度有很多不同的计算方法,所以优化文本向量就是采用最为合适的计算方法来规范化文本向量,使其能更好...
分类:
其他好文 时间:
2016-03-29 10:48:22
阅读次数:
314
tf–idf算法python代码实现这是我写的一个tf-idf的核心部分的代码,没有完整实现,当然剩下的事情就非常简单了,我们知道tfidf=tf*idf,所以可以分别计算tf和idf值在相乘,首先我们创建一个简单的语料库,作为例子,只有四句话,每句表示一个文档copus=['我正在学习计算机','...
分类:
编程语言 时间:
2015-12-23 22:58:21
阅读次数:
220
TFIDF实际上是:TF * IDF,TF词频(Term Frequency),IDF逆向文件频率(Inverse Document Frequency)。TF表示词条在文档d中出现的频率。IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。T...
分类:
其他好文 时间:
2015-12-05 21:02:43
阅读次数:
219
为每个类加上词云,效果如下:前后两图为有类名和无类名:放大后效果:在用户一开始看代码时,应该不显示类名,让用户快速根据找出感兴趣的类。词云的优先级有几种考虑1.以tfidf为优先级,如图2.以类的半径为优先级,如图当前的一个设想,能不能把几个相邻的类公共关键词合成一个?如图中的UI,能不能合并成一个...
分类:
其他好文 时间:
2015-06-24 09:17:11
阅读次数:
113
参考:http://www.cnblogs.com/ywl925/p/3275878.html这个模型主要用于信息检索,但它的思想用于图像也未尝不可。TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类...
分类:
其他好文 时间:
2015-05-18 16:00:33
阅读次数:
110
运用mapreduce计算文档中每个单词的tfidf值...
分类:
其他好文 时间:
2015-03-19 14:51:32
阅读次数:
205
转自:http://blog.csdn.net/liuxuejiang158blog/article/details/31360765?utm_source=tuicool 在文本处理中,TF-IDF可以说是一个简单粗暴的东西。它可以用作特征抽取,关键词筛选等。 以网页搜索“核能的应...
分类:
其他好文 时间:
2015-02-03 21:07:54
阅读次数:
2058
学习排序算法简介
学习排序(Learning to Rank, LTR)是一类基于机器学习方法的排序算法。
传统经典的模型,例如基于TFIDF特征的VSM模型,很难融入多种特征,也就是除了TFIDF特征之外,就无法融入其他种类的特征了。
而机器学习的方法很容易融合多种特征,而且有成熟深厚的理论基础,参数也是通过迭代计算出来的,有一套成熟理论来解决稀疏、过拟合等问题。
LTR方法大致可以分成三类:
1) Pointwise 单文档方法
2) Pairwise 文档对方法...
分类:
编程语言 时间:
2014-12-24 10:01:56
阅读次数:
350