码迷,mamicode.com
首页 >  
搜索关键字:文本挖掘    ( 132个结果
机器学习知识体系
那几年,我学习机器学习的主要内容: 1.机器学习基本导论,机器学习入门了解; 2.线性回归与Logistic。xx业绩预测系统,智能交互统计系统等; 3.岭回归,Lasso,变量选择技术。维度的技巧等技术; 4.降维技术。xx指标设计,具体规范; 5.线性分类器,Knn算法,朴素贝叶斯分类器,文本挖掘。XX智能垃圾消息,垃圾邮件判断,评论智能分析,智能监控统计预警系统呀。 6.决策树,组合提升算...
分类:其他好文   时间:2015-03-20 14:27:55    阅读次数:168
R语言做文本挖掘Part5
Part5情感分析   这是这个系列里面最后一篇文章了,其实这里文本挖掘每一个部分单拎出来都是值得深究和仔细研究的,我还处于初级研究阶段,用R里面现成的算法,来实现自己的需求,当然还参考了众多网友的智慧结晶,所以也想把我的收获总结出来分享给大家,希望也能像我一样在看大家的分享时得到自己的启发。 网上翻了下中文文本情感分析的一些文章,再回想了一下我自己做情感分析的方法,觉得我的想法真的是简单粗...
分类:编程语言   时间:2015-03-19 18:28:25    阅读次数:247
R语言做文本挖掘Part4
Part4文本分类 Part3文本聚类里讲到过,分类跟聚类的简单差异。所以要做分类我们需要先整理出一个训练集,也就是已经有明确分类的文本;测试集,可以就用训练集来替代;预测集,就是未分类的文本,是分类方法最后的应用实现。 1.       数据准备 训练集准备是一个很繁琐的功能,暂时没发现什么省力的办法,根据文本内容去手动整理。这里还是使用的某品牌的官微数据,根据微博内容,我将它微博...
分类:编程语言   时间:2015-03-18 18:08:26    阅读次数:468
Eclipse下C++调用NLPIR分词系统
最近在研究文本挖掘,对于中文文本,首先要进行分词,那么就用到了NLPIR分词系统。总结了一下网上的资料:下面介绍一下如何用C++调用NLPIR分词系统:step 1:下载最新版的NLPIR分词系统:http://ictclas.nlpir.org/。解压后如下图:step 2:打开IDE(我用的是e...
分类:编程语言   时间:2015-03-16 16:21:42    阅读次数:172
R语言做文本挖掘 Part1
Part1安装依赖包 R语言中中文分析的软件包是Rwordseg,Rwordseg软件包依赖rJava包,rJava需要本机中有安装Java。   第一步是安装Java,请安装JDK,JRE不行。请对应机型,下载安装32位的JDK。机器里已经有JDK的也请改成32位的,不然没办法使用Rwordseg,尝试使用过64位的,不可行。 下载地址: http://www.oracle.com/t...
分类:编程语言   时间:2015-03-05 17:09:42    阅读次数:378
【文本挖掘】模拟退火英文分词
大概原理是找到文本中重复项最多的文本作为词典,代价函数为词典的累计词长和文本分词数之和,迭代找到代价函数最小值所对应的词典和分词结果。方法简单,跑出来的结果也挺有意思。 1 from random import randint 2 3 4 def segment(text,segs): 5 ...
分类:其他好文   时间:2015-02-15 14:56:37    阅读次数:155
【文本挖掘】词性标注记法
ICTCLAS 汉语词性标注集汉语文本词性标注标记集Ag 形语素 形容词性语素。形容词代码为a,语素代码g前面置以A。a 形容词 取英语形容词adjective的第1个字母。ad 副形词 直接作状语的形容词。形容词代码a和副词代码d并在一起。an 名形词 具有名词功能的形容词。形容词代码a和名词代码...
分类:其他好文   时间:2015-02-10 18:37:34    阅读次数:214
Hadoop大数据零基础高端实战培训视频
《Hadoop大数据零基础高端实战培训系列配文本挖掘项目(七大亮点、十大目标)》  课程讲师:迪伦  课程分类:大数据  适合人群:初级  课时数量: 300课时  用到技术:部署Hadoop集群  涉及项目:京东商城、百度、阿里巴巴  咨询QQ:779591710  下载地址:  链接:http://pan.baidu.com/share/link?shareid=32...
分类:其他好文   时间:2015-01-26 12:00:17    阅读次数:229
Hadoop大数据零基础高端实战培训视频
《Hadoop大数据零基础高端实战培训系列配文本挖掘项目(七大亮点、十大目标)》 课程讲师:迪伦 课程分类:大数据 适合人群:初级 课时数量: 300课时 用到技术:部署Hadoop集群 涉及项目:京东商城、百度、阿里巴巴 咨询QQ:779591710 下载地址: 链接:http://pan.bai...
分类:其他好文   时间:2015-01-26 11:31:26    阅读次数:153
JGibbLDA、GibbsLDA++问题解决
LDA(Latent Dirichlet Allocation)主题模型是一种用统计进行文本挖掘的方法,它是pLSA(概率潜在语义分析)主题模型基础上加上贝叶斯框架而得到的模型。目前已应用于自然语言处理、计算机视觉、机器学习、信息检索等领域,得到了广泛关注。 LDA模型网上有多个开源代码,...
分类:其他好文   时间:2015-01-14 15:31:05    阅读次数:308
132条   上一页 1 ... 9 10 11 12 13 14 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!