那几年,我学习机器学习的主要内容:
1.机器学习基本导论,机器学习入门了解;
2.线性回归与Logistic。xx业绩预测系统,智能交互统计系统等;
3.岭回归,Lasso,变量选择技术。维度的技巧等技术;
4.降维技术。xx指标设计,具体规范;
5.线性分类器,Knn算法,朴素贝叶斯分类器,文本挖掘。XX智能垃圾消息,垃圾邮件判断,评论智能分析,智能监控统计预警系统呀。
6.决策树,组合提升算...
分类:
其他好文 时间:
2015-03-20 14:27:55
阅读次数:
168
Part5情感分析
这是这个系列里面最后一篇文章了,其实这里文本挖掘每一个部分单拎出来都是值得深究和仔细研究的,我还处于初级研究阶段,用R里面现成的算法,来实现自己的需求,当然还参考了众多网友的智慧结晶,所以也想把我的收获总结出来分享给大家,希望也能像我一样在看大家的分享时得到自己的启发。
网上翻了下中文文本情感分析的一些文章,再回想了一下我自己做情感分析的方法,觉得我的想法真的是简单粗...
分类:
编程语言 时间:
2015-03-19 18:28:25
阅读次数:
247
Part4文本分类
Part3文本聚类里讲到过,分类跟聚类的简单差异。所以要做分类我们需要先整理出一个训练集,也就是已经有明确分类的文本;测试集,可以就用训练集来替代;预测集,就是未分类的文本,是分类方法最后的应用实现。
1. 数据准备
训练集准备是一个很繁琐的功能,暂时没发现什么省力的办法,根据文本内容去手动整理。这里还是使用的某品牌的官微数据,根据微博内容,我将它微博...
分类:
编程语言 时间:
2015-03-18 18:08:26
阅读次数:
468
最近在研究文本挖掘,对于中文文本,首先要进行分词,那么就用到了NLPIR分词系统。总结了一下网上的资料:下面介绍一下如何用C++调用NLPIR分词系统:step 1:下载最新版的NLPIR分词系统:http://ictclas.nlpir.org/。解压后如下图:step 2:打开IDE(我用的是e...
分类:
编程语言 时间:
2015-03-16 16:21:42
阅读次数:
172
Part1安装依赖包
R语言中中文分析的软件包是Rwordseg,Rwordseg软件包依赖rJava包,rJava需要本机中有安装Java。
第一步是安装Java,请安装JDK,JRE不行。请对应机型,下载安装32位的JDK。机器里已经有JDK的也请改成32位的,不然没办法使用Rwordseg,尝试使用过64位的,不可行。
下载地址:
http://www.oracle.com/t...
分类:
编程语言 时间:
2015-03-05 17:09:42
阅读次数:
378
大概原理是找到文本中重复项最多的文本作为词典,代价函数为词典的累计词长和文本分词数之和,迭代找到代价函数最小值所对应的词典和分词结果。方法简单,跑出来的结果也挺有意思。 1 from random import randint 2 3 4 def segment(text,segs): 5 ...
分类:
其他好文 时间:
2015-02-15 14:56:37
阅读次数:
155
ICTCLAS 汉语词性标注集汉语文本词性标注标记集Ag 形语素 形容词性语素。形容词代码为a,语素代码g前面置以A。a 形容词 取英语形容词adjective的第1个字母。ad 副形词 直接作状语的形容词。形容词代码a和副词代码d并在一起。an 名形词 具有名词功能的形容词。形容词代码a和名词代码...
分类:
其他好文 时间:
2015-02-10 18:37:34
阅读次数:
214
《Hadoop大数据零基础高端实战培训系列配文本挖掘项目(七大亮点、十大目标)》
课程讲师:迪伦
课程分类:大数据
适合人群:初级
课时数量: 300课时
用到技术:部署Hadoop集群
涉及项目:京东商城、百度、阿里巴巴
咨询QQ:779591710
下载地址:
链接:http://pan.baidu.com/share/link?shareid=32...
分类:
其他好文 时间:
2015-01-26 12:00:17
阅读次数:
229
《Hadoop大数据零基础高端实战培训系列配文本挖掘项目(七大亮点、十大目标)》 课程讲师:迪伦 课程分类:大数据 适合人群:初级 课时数量: 300课时 用到技术:部署Hadoop集群 涉及项目:京东商城、百度、阿里巴巴 咨询QQ:779591710 下载地址: 链接:http://pan.bai...
分类:
其他好文 时间:
2015-01-26 11:31:26
阅读次数:
153
LDA(Latent Dirichlet Allocation)主题模型是一种用统计进行文本挖掘的方法,它是pLSA(概率潜在语义分析)主题模型基础上加上贝叶斯框架而得到的模型。目前已应用于自然语言处理、计算机视觉、机器学习、信息检索等领域,得到了广泛关注。 LDA模型网上有多个开源代码,...
分类:
其他好文 时间:
2015-01-14 15:31:05
阅读次数:
308