当你的分类模型有数百个或数千个特征,由于是文本分类的情况下,许多(如果不是大多数)的特点是低信息量的,这是一个不错的选择。这些特征对所有类都是通用的,因此在分类过程中作出很小贡献。个别是无害的,但汇总的话,低信息量的特征会降低性能。
通过消除噪声数据给你的模型清晰度,这样就去除了低信息量特征。它可以把你从过拟合和维数灾难中救出来。当你只使用更高的信息特征,可以提高性能,同时也降低了模型的大小...
分类:
其他好文 时间:
2014-07-19 11:22:54
阅读次数:
507
情感分析正成为研究和社交媒体分析的热点领域,尤其是在用户评论和微博上。它是文本挖掘的一种特殊情况,一般关注在识别正反观点上,虽然它常不很准确,它仍然是有用的。为简单起见(因为训练数据容易获取),我将重点放在2个可能的情感分类:积极的和消极的。
NLTK 朴素贝叶斯分类
NLTK附带了所有你需要的情感分析的入手的东西:一份带有分为POS和NEG类别的电影评论语料,以及一些可训练分类器。我...
分类:
其他好文 时间:
2014-07-19 02:14:25
阅读次数:
338
论文出处:http://www.cs.utexas.edu/~ml/papers/libra-sigir-wkshp-99.pdf引言这篇文章里面将会详细介绍基于多项式贝叶斯的内容推荐算法的符号以及术语,公式推导以及核心思想,学习如何从文本分类的角度来实现物品推荐。详细了解算法过程后,你应该可以利用...
分类:
其他好文 时间:
2014-07-16 21:28:49
阅读次数:
230
http://www.blogjava.net/zhenandaci/推荐这个博客,博主真的很厉害,把基础的用到的文本分类方法都写上了!比较推荐的文章:文本分类入门(十)特征选择算法之开方检验文本分类入门(番外篇)特征选择与特征权重计算的区别其他都同样很好!!
分类:
其他好文 时间:
2014-07-14 23:06:52
阅读次数:
235
原理
在分类(classification)问题中,常常需要把一个事物分到某个类别。一个事物具有很多属性,把它的众多属性看做一个向量,即x=(x1,x2,x3,…,xn),用x这个向量来代表这个事物。类别也是有很多种,用集合Y=y1,y2,…ym表示。如果x属于y1类别,就可以给x打上y1标签,意思是说x属于y1类别。这就是所谓的分类(Classification)。
x的集合记为X,...
分类:
其他好文 时间:
2014-07-08 13:55:28
阅读次数:
327
情感识别,主要就是正和负的识别,偶尔也有中性。类别比较少,所以相对于广义的文本分类来说,看起来要简单很多,特别是很多词汇都有很强的倾向性。当然这是针对某一特定的领域。一般的话,情感识别主要用于商品评论,因为不同的商品会有不同的术语之类的专门的某一词汇,所以如果将某一领域的数据集上学到的模型应用在另一个领域的话,可能效果会不很理想。
Stephan Raaijmakers等的这篇文章[1]提出的是...
分类:
其他好文 时间:
2014-06-15 14:15:35
阅读次数:
183
有别于LSA (Latent Semantic Analysis), 下列文章提出一种ESA (Explicit Semantic Analysis), 并介绍如何使用ESA来进行语义相关性和文本分类工作。 文章的基本思路其实也很简单,就是基于wikipedia网站内容,生成每一个曾经出现在wikipedia文章中的单词的语义表示。 每个单词的语义表示是一个高维向量, 而对应的每一个维就是wiki...
分类:
其他好文 时间:
2014-06-15 10:10:32
阅读次数:
190
本文介绍了朴素贝叶斯分类方法,还以文本分类为例,给出了一个具体应用的例子。
分类:
其他好文 时间:
2014-06-07 23:31:16
阅读次数:
469
背景&目标:
1、sport.tar 是体育类的文章,一共有10个类别;
用这些原始材料构造一个体育类的文本分类器,并测试对比bayes和cbayes的效果;
记录分类器的构造过程和测试结果。
2、user-sport.tar 是用户浏览的文章,每个文件夹对应一个用户;
利用上题构造的文本分类器,计算每个用户浏览各类文章的占比;
记录计算过程和结果。...
分类:
其他好文 时间:
2014-05-09 14:03:40
阅读次数:
408
能够将热爱的技术应用于实际生活生产中,是做技术人员向往和乐之不疲的事。
现将前期手里面的一个项目做一个大致的总结,与大家一起分享、交流、进步。项目现在正在线上运行,项目名——基于Hadoop的数据分析综合管理平台。
项目流程整体比较清晰,爬取数据(txt文本)-->数据清洗-->文本模型训练-->文本分类-...
分类:
其他好文 时间:
2014-05-04 00:22:05
阅读次数:
476