自然语言处理
ScalaNLP—机器学习和数值计算库的套装
Breeze —Scala用的数值处理库
Chalk—自然语言处理库。
FACTORIE—可部署的概率建模工具包,用Scala实现的软件库。为用户提供简洁的语言来创建关系因素图,评估参数并进行推断。
数据分析/数据可视化
MLlib in Apache Spark—Spark下的分布式机器学...
分类:
其他好文 时间:
2014-07-29 13:01:37
阅读次数:
372
1、大数据、数据库、数理统计、数据分析、数据挖掘 中国统计网:http://www.itongji.cn/ 统计之都:http://cos.name/ 火光摇曳:http://www.flickering.cn/ 统计211:http://www.tj211.com/port...
分类:
Web程序 时间:
2014-07-29 12:05:56
阅读次数:
285
算法简介
NBC是应用最广的分类算法之一。朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。
算法假设
给定目标值时属性之间互相条件独立。
算法输入
训练数据 T={(x1,y1),(x2,y2),……,(xn,yn)}
待分类数据x0=(x0(1),x0(2),……,x0(n)...
分类:
其他好文 时间:
2014-07-28 16:17:13
阅读次数:
412
I am using pybrain on my Linuxmint 13 x86_64 PC.As what it is described: PyBrain is a modular Machine Learning Library for Python. Its goal is to offe...
分类:
编程语言 时间:
2014-07-28 11:33:00
阅读次数:
292
【小记】:大胆尝试才能突破,某个中医药大学有一批图片需要处理(ORC),然后进行数据挖掘。之前没有接触过ORC这个东西,但是还是应允了。在网上搜索一番,关于中文图片识别,最终敲定为基于微软的OneNote,其识别率相对较高。网上这个技术点的资料真心不多,后来于博客园找到一篇博文,但是那个程序还是bu...
分类:
数据库 时间:
2014-07-28 11:20:30
阅读次数:
381
在Eclipse中安装StatET插件
1.概述
众所周知,很多人进行数据挖掘最喜欢使用的语言是R语言,而可以选择的IDE确有很多种,例如Emacs + ESS,RStudio等等。
今天,我所写的是使用Eclipse + StatET来搭建R语言环境。
2.安装Eclipse
我使用的是Ubuntu13.10的系统,在 http://download.ec...
分类:
系统相关 时间:
2014-07-28 00:15:09
阅读次数:
385
拉普拉斯线性锐化滤波 LaplacianCalculates the Laplacian of an image.C++: void Laplacian(InputArray src, OutputArray dst, int ddepth, int ksize=1, double scale=1, double delta=0, int borderType=BORDER_DEFAULT )P...
分类:
编程语言 时间:
2014-07-28 00:05:59
阅读次数:
393
算法简介:
K-Means算法是输入聚类个数k,以及包含n个数据对象的数据库,输出满足方差最小标准的k个聚类。并使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中
对象相似度较小。
算法假设:
均方误差是计算群组分散度的最佳参数。
算法输入:
聚类个数k;...
分类:
其他好文 时间:
2014-07-28 00:03:39
阅读次数:
343
Apache Spark MLlib是Apache Spark体系中重要的一块拼图:提供了机器学习的模块。不过,目前对此网上介绍的文章不是很多。拿KMeans来说,网上有些文章提供了一些示例程序,而这些程序基本和Apache Spark 官网上的程序片断类似:在得到训练模型后,几乎都没有展示如何使用该模型、程序执行流程、结果展示以及举例测试数据等部分。笔者根据Apache Spark官网上的程序片断,写了一个完整的调用MLlib KMeans库的测试程序,并成功在Spark 1.0 + Yarn 2.2 的...
分类:
其他好文 时间:
2014-07-28 00:01:39
阅读次数:
343