Hadoop的核心处理模块是MapReduce,也是当前最流行的大数据处理架构之一。它能够将Hadoop数据存储无缝的融入到数据处理当中,使得它在操作上足够简单,功能上足够强大。MapReduce已经解决很多实际问题(从日志分析,到数据排序,到文本操作,到基于模式的搜索,到图像处理,到机器学习等等)...
分类:
其他好文 时间:
2014-05-27 00:14:28
阅读次数:
449
现在需要分析访问日志,怎么办?比如分析D:\Servers\Apache2.2\logs\access2014-05-22.loghttp://my.oschina.net/cart/针对这个问题特意开发了一款小工具分析Apache
日志,拆分字段成CSV文件并插入Mysql数据库分析<?php$d...
分类:
数据库 时间:
2014-05-26 21:24:45
阅读次数:
357
原题地址:https://oj.leetcode.com/problems/n-queens/题意:经典的N皇后问题。解题思路:这类型问题统称为递归回溯问题,也可以叫做对决策树的深度优先搜索(dfs)。N皇后问题有个技巧的关键在于棋盘的表示方法,这里使用一个数组就可以表达了。比如board=[1,
...
分类:
编程语言 时间:
2014-05-26 10:07:52
阅读次数:
274
FCM 算法用一个Job寻找cluster的中心点。在map的初始化节点,加载初始化(或上一轮迭代的结果)中心点。在map中计算point 和每一个簇的亲和度。在combiner计算同一个cluster的参数,该过程只能计算同一cluster的局部信息。在reduce中首先计算同一个cluster的全局参数,然后计算该cluster是否收敛,输出cluster。...
分类:
其他好文 时间:
2014-05-26 04:12:39
阅读次数:
302
Canopy有消除孤立点的作用,而K-means在这方面却无能为力。建立canopies之后,可以删除那些包含数据点数目较少的canopy,往往这些canopy是包含孤立点的。根据canopy内点的数目,来决定聚类中心数目k,这样效果比较好。...
分类:
其他好文 时间:
2014-05-26 03:21:30
阅读次数:
321
GML AdaBoost Matlab Toolbox是一款非常优秀的AdaBoost工具箱,内部实现了Real AdaBoost, Gentle AdaBoost和Modest AdaBoost三种方法。AdaBoost的训练和分类的结构都是相似的,可以参考前一篇《Boosting》,只简介一下GML。GML内部弱分类器使用的CART决策树。决策树的叶子表示决策,内部每个分支都是决策过程。从根部...
分类:
其他好文 时间:
2014-05-24 17:56:00
阅读次数:
375
在科学技术刚刚萌芽的时候,科学家Blaise Pascal和Von Leibniz就想到了有朝一日能够实现人工智能。即让机器拥有像人一样的智能。
机器学习是AI中一条重要的发展线,在工业界和学术界都异常火爆。企业、大学都在投入大量的资源来做机器学习方面的研究。最近,机器学习在很多任务上都有了重大的进步,达到或者超越了人类的水平(例如,交通标志的识别[1],ML达到了98.98%,已超越了人类)。...
分类:
其他好文 时间:
2014-05-23 02:10:44
阅读次数:
635
随着大数据时代的到来,我们越来越多的使用电子产品,使我们的活动信息被越来越多的收集起来。我们知道,机器学习的一大目标就是利用历史数据去预测未来,那么,我们的行为会不会被预测呢?...
分类:
其他好文 时间:
2014-05-22 22:43:12
阅读次数:
557
语音技术是研究用数字信号处理技术和机器学习方法对语音信号进行处理的一门学科。语音技术的目的:
得到某些参数以便高效传输或存储;或者是用于某种应用,如人工合成出语音、辨识出讲话者、识别出讲话内容、进行语音增强等。
语音编码:在保持可以接受的失真的情况下,采用尽可能少的比特数表示语音。脉冲编码调制(PC...
分类:
其他好文 时间:
2014-05-21 21:53:13
阅读次数:
320
//====================================================决策树的构造:构造决策树时,需要解决的第一个问题是,当前数据集上那个特征在划分数据是起决定性作用。为了找到决定性特征,我们必须使用某种度量来评估每个特征。完成评估之后,找到决定性特征,使用该特...
分类:
其他好文 时间:
2014-05-21 18:05:53
阅读次数:
343