张长水:大数据时代的机器学习 VS 传统机器学习
从机器学习角度看,“大数据”指的是数据量大,数据本身不够精确,数据混杂,数据自然产生。机器学习对大数据的处理的两个挑战:
数据量大导致计算困难
分布在不同服务器上的数据存在一定联系,这些数据基本上不满足“独立同分布”假设,传统的模型和算法很难适应。
大数据时代给机器学习带来新的机遇:
在某些应用条件下,高维空间中的局部数据变得稠密。这个现象可以为分类器的设计提供更丰富的信息。甚至使分类器在性能上接近理论极限性能。
大数据使样本空间原本“空旷”的区域出现样本,...
分类:
其他好文 时间:
2014-07-24 23:37:33
阅读次数:
370
当我们在生产线上用一台服务器来提供数据服务的时候,我会遇到如下的两个问题:1)一台服务器的性能不足以提供足够的能力服务于所有的网络请求。2)我们总是害怕我们的这台服务器停机,造成服务不可用或是数据丢失。于是我们不得不对我们的服务器进行扩展,加入更多的机器来分担性能上的问题,以及来解决单点故障问题。 ...
分类:
其他好文 时间:
2014-07-23 16:13:31
阅读次数:
306
REST架构风格是全新的针对Web应用的开发风格,是当今世界最成功的互联网超媒体分布式系统架构,它使得人们真正理解了Http协议本来面貌。随着 REST架构成为主流技术,一种全新的互联网网络应用开发的思维方式开始流行。REST是什么 REST是英文Representational State T.....
分类:
其他好文 时间:
2014-07-23 12:19:36
阅读次数:
639
对于刚接触大数据的用户来说,要想区分Hive与HBase是有一定难度的。本文将尝试从其各自的定义、特点、限制、应用场景等角度来进行分析,以作抛砖引玉之用。Hive是什么?Apache Hive是一个构建于Hadoop(分布式系统基础架构)顶层的数据仓库,注意这里不是数据库。Hive可以看作是用户编程...
分类:
其他好文 时间:
2014-07-22 22:45:54
阅读次数:
257
简单说,分布式是以缩短单个任务的执行时间来提升效率的,而集群则是通过提高单位时间内执行的任务数来提升效率。例如:如果一个任务由10个子任务组成,每个子任务单独执行需1小时,则在一台服务器上执行改任务需10小时。采用分布式方案,提供10台服务器,每台服务器只负责处理一个子任务,不考虑子任务间的依赖关系...
分类:
其他好文 时间:
2014-07-22 08:04:33
阅读次数:
144
zabbix是一个基于WEB界面的提供分布式 系统监视以及网络监视功能的企业级的开源解决方案。 zabbix能监视各种网络参数,保证 服务器系统的安全运营;并提供灵活的通知机制以让 系统管理员快速定位/解决存在的各种问...
分类:
其他好文 时间:
2014-07-21 10:12:55
阅读次数:
318
分布式系统的可靠、延时、一致性等问题是一般性问题,不局限于数据库,而Cassandra提供了一个很好的解决思路。 Cassandra号称能做到跨数据中心的数据库访问的高效访问,它的实现方式其实是把延时、吞吐量与一致性的权衡交给了用户来选择。Cassandra提供了两种访问级别: LOCAL_QUO....
分类:
数据库 时间:
2014-07-19 17:19:56
阅读次数:
362
??
本文介绍下分布式系统设计中的一些关键问题及解决思路:
数据的分布方式
副本的保存方式
副本的控制
节点状态监控
1)数据的分布方式
hash分布
用于key-value模型的存储系统中,数据库中的分表也可以使用这种方式。
利用hash函数将对象散列到不同的机器。
优点:
散列型号,分布均匀,实现简单。
缺点
可扩展性(scalability)不强,增加新的机...
分类:
其他好文 时间:
2014-07-19 02:31:15
阅读次数:
246
一、Zabbix基本概念1.zabbix是一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案。它能监视各种网络参数,保证服务器系统的安全运营;并提供柔软的通知机制以让系统管理员快速定位/解决存在的各种问题。zabbix由2部分构成,zabbixserver与zabbixagen..
分类:
其他好文 时间:
2014-07-15 11:03:07
阅读次数:
864
先简单的理解,以后补充:为了解决hadoop分布式系统的一致性问题 ,有很多人提出很多protocol,其中就有有名的Paxos算法(Latex作者提出,算法需要学习),但是Chubby并不是一个算法或者protocol,它是一项service,是一个lock service,这个service的实...
分类:
其他好文 时间:
2014-07-14 20:52:46
阅读次数:
250