码迷,mamicode.com
首页 >  
搜索关键字:文本挖掘    ( 132个结果
降维中的特征选择(转)
在数据挖掘过程中,高维数据是非常棘手的研究对象。特别是在文本挖掘、图像处理和基因数据分析中,维度过高使很多学习器无法工作或效率降低,所以降维也是数据预处理过程的一项必要任务。降维大致有两大类别,一类是从原始维度中提取新的维度,例如主成分分析或因子分析,再或者是奇异值分解或是多维标度分析。另一类是从原...
分类:其他好文   时间:2014-09-17 11:52:32    阅读次数:928
Hadoop大数据零基础高端实战培训系列配文本挖掘项目
《Hadoop大数据零基础高端实战培训系列配文本挖掘项目(七大亮点、十大目标)》 课程讲师:迪伦 课程分类:大数据 适合人群:初级 课时数量:230课时 用到技术:部署Hadoop集群 涉及项目:京东商城、百度、阿里巴巴 咨询QQ:1609173918下载地址: 链接:http://pan.baid...
分类:其他好文   时间:2014-09-09 23:03:29    阅读次数:418
Hadoop大数据零基础高端实战培训系列配文本挖掘项目
《Hadoop大数据零基础高端实战培训系列配文本挖掘项目(七大亮点、十大目标)》 课程讲师:迪伦 课程分类:大数据 适合人群:初级 课时数量:230课时 用到技术:部署Hadoop集群 涉及项目:京东商城、百度、阿里巴巴 咨询QQ:1609173918 下载地址: 链接:http://pan.bai...
分类:其他好文   时间:2014-09-09 15:14:18    阅读次数:316
利用贝叶斯分类器进行文本挖掘---笔记
1.调用庖丁分词器,分词grid@server01:~/data$hadoopjarmrtokenize.jartokenize.TokenizeDriver/home/grid/data/lesson8/home/grid/output/sportwords14/08/3121:59:33INFOinput.FileInputFormat:Totalinputpathstoprocess:10205.....14/08/3122:05:25INFOmapred.JobClient:Map..
分类:其他好文   时间:2014-09-01 15:48:44    阅读次数:296
经典的观点挖掘算法(文本挖掘系列)
最近阅读了美国伊利诺伊大学教授刘兵的一篇关于观点挖掘的KDD论文(Mining and Summarizing Customer Reviews),其观点挖掘算法非常经典,特此做记录,互相探讨。...
分类:其他好文   时间:2014-08-31 12:00:01    阅读次数:701
Hadoop的word co-occurrence实现
WordCo-occurrence一直不知道该怎么正确翻译,单词相似度?还是共生单词?还是单词的共生矩阵?这在统计里面是很常用的文本处理算法,用来度量一组文档集中所有出现频率最接近的词组.嗯,其实是上下文词组,不是单词.算是一个比较常用的算法,可以衍生出其他的统计算法.能用来做推荐,因..
分类:其他好文   时间:2014-08-24 19:31:03    阅读次数:205
Weka学习 -- StringToWordVector 源码学习(1)
在文本分类和聚类种,都会对文本进行切词分词,然后转化为向量,最后求其TFIDF值,余弦相似性等。 本文将介绍了WEKA源码中StringToWordVector中的源码知识,自己也可以基于这个类构建符合自己需求的StringToWordVector类。...
分类:其他好文   时间:2014-07-22 23:58:49    阅读次数:640
文本分类之情感分析 – 朴素贝叶斯分类器
情感分析正成为研究和社交媒体分析的热点领域,尤其是在用户评论和微博上。它是文本挖掘的一种特殊情况,一般关注在识别正反观点上,虽然它常不很准确,它仍然是有用的。为简单起见(因为训练数据容易获取),我将重点放在2个可能的情感分类:积极的和消极的。 NLTK 朴素贝叶斯分类 NLTK附带了所有你需要的情感分析的入手的东西:一份带有分为POS和NEG类别的电影评论语料,以及一些可训练分类器。我...
分类:其他好文   时间:2014-07-19 02:14:25    阅读次数:338
思路总结-----对微博情感分析的的挖掘
一朋友由于工作需要,准备对新浪微博进行相关的抓取挖掘。特别是情感分析这一块,便于他后期的实验实践。实际上,文本挖掘及分析在未来都会产生较大的效果。举一个简单的例子,现在地铁里的每个人每天都会去刷新自己的人人好友圈,微信好友消息。而这些消息大部分是基于文本的..
分类:其他好文   时间:2014-07-14 12:06:40    阅读次数:227
中文分词实践(基于R语言)
背景:分析用户在世界杯期间讨论最多的话题。 思路:把用户关于世界杯的帖子拉下来,然后做中文分词+词频统计,最后将统计结果简单做个标签云,效果如下 后续:中文分词是中文信息处理的基础,分词之后,其实还有特别多有趣的文本挖掘工作可以做,也是个知识发现的过程,以后有机会再学习下。...
分类:其他好文   时间:2014-07-13 18:53:55    阅读次数:367
132条   上一页 1 ... 11 12 13 14 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!