http://webkdd.org/course/ http://www.icst.pku.edu.cn/lcwm/course/WebDataMining/ http://www.icst.pku.edu.cn/course/uml/uml.htm http://www.icst.pku.edu. ...
分类:
其他好文 时间:
2016-08-29 01:50:00
阅读次数:
536
欢迎转载,请注明出处!https://gii16.github.io/javascript/2016/07/29/learnfromjquery.html 欢迎交流,可去笔者博客园中评论:http://www.cnblogs.com/Gii16/p/5721020.html 笔者的老板是做文本挖掘研 ...
分类:
Web程序 时间:
2016-07-31 17:32:43
阅读次数:
211
MLE,MAP,EM 和 point estimation 之间的关系是怎样的 和点估计相对应的是区间估计,这个一般入门的统计教材里都会讲。直观说,点估计一般就是要找概率密度曲线上值最大的那个点,区间估计则要寻找该曲线上满足某种条件的一个曲线段。 最大似然和最大后验是最常用的两种点估计方法。以最简单 ...
分类:
其他好文 时间:
2016-06-23 22:02:53
阅读次数:
358
文本挖掘介绍 文本挖掘:“自动化或半自动化处理文本的过程”,包含了文档聚类、文档分类、自然语言处理、文本变化分析及网络挖掘等领域内容。对于文本处理过程首先需要有分析的语料(text corpus),然后根据这些语料建立半结构化的文本库(text database)。最后生成包含语频的结构化的词条—— ...
分类:
其他好文 时间:
2016-05-11 01:26:11
阅读次数:
397
笔者寄语:2013年末,Google发布的 word2vec工具引起了一帮人的热捧,大家几乎都认为它是深度学习在自然语言领域的一项了不起的应用,各种欢呼“深度学习在自然语言领域开始发力 了”。
基于word2vec现在还出现了doc2vec,word2vec相比传统,考虑单词上下文的语义;但是doc2vec不仅考虑了单词上下文的语义,还考虑了单词在段落中的顺序。
———————————...
分类:
编程语言 时间:
2016-05-06 15:22:52
阅读次数:
4972
分类:分类的意义 传统意义下的分类:生物物种预测:天气预报决策:yes or no分类的传统模型分类(判别分析)与聚类有什么差别?有监督学习,无监督学习,半监督学习 常见分类模型与算法 线性判别法距离判别法贝叶斯分类器决策树支持向量机(SVM)神经网络 文本挖掘典型场景 网页自动分类垃圾邮件判断评论 ...
分类:
编程语言 时间:
2016-04-23 18:12:03
阅读次数:
221
LIME: 模型是否值得信任? 我们在建立模型的时候,经常会思考我们的模型是不是够稳定,会不会出现样本偏差效应, p>>N时候会不会过拟合? 我们检查模型稳定,我们进行一些cross-validation来看看各项评估指标方差大不大。 可是如果样本一开始因为采样偏差导致样本有偏,导致模型和实际情况有差异,这个就不太好评估了。同样,p>>N也会有类似的问题,尤其在文本挖掘领域。一般情况,如果特征不是很多的话,尤其像logistic regression这样的model,我们会把模型权重给打印出来看看,看看训...
分类:
其他好文 时间:
2016-04-11 12:27:20
阅读次数:
229
文本挖掘的paper没找到统一的benchmark,只好自己跑程序,走过路过的前辈如果知道20newsgroups或者其它好用的公共数据集的分类(最好要所有类分类结果,全部或取部分特征无所谓)麻烦留言告知下现在的benchmark,万谢! 嗯,说正文。20newsgroups官网上给出了3个数据集, ...
分类:
其他好文 时间:
2016-04-05 13:58:41
阅读次数:
263
特征选择指的是按照一定的规则从原来的特征集合中选择出一小部分最为有效的特征。通过特征选择,一些和任务无关或是冗余的特征被删除,从而提高数据处理的效率。
文本数据的特征选择研究的重点就是用来衡量单词重要性的评估函数,其过程就是首先根据这个评估函数来给每一个单词计算出一个重要性的值,然后根据预先设定好的阈值来选择出所有其值超过这个阈值的单词。
根据特征选择过程与后续数据挖掘算法的关联,特征选择方法可...
分类:
其他好文 时间:
2016-03-29 12:57:37
阅读次数:
289