码迷,mamicode.com
首页 > 其他好文 > 详细

《大数据技术原理与应用》学习

时间:2017-02-02 12:13:44      阅读:233      评论:0      收藏:0      [点我收藏+]

标签:技术   数据处理   回归   查询   通过   lan   数据库   共享   大数   

http://study.163.com/course/courseMain.htm?courseId=1002887002

先看了11章Spark

 

逻辑回归,需要迭代多,所以尤其适用Spark,100多倍

 

企业的应用:

1. 批量数据处理(数分钟与数小时,ETL),比如MapReduce

2. 基于历史数据的交互查询,比如Impala,Hive还不是

3. 实时数据流处理,比如Storm。比如返利的实时数据,以前通过数据库备库方式来处理,扩展性差。

 

而Spark提供了一站式解决。

 

一句话概括RDD,分布式内存的一个抽象概念,提供了一种高度受限的共享内存模型。

 

《大数据技术原理与应用》学习

标签:技术   数据处理   回归   查询   通过   lan   数据库   共享   大数   

原文地址:http://www.cnblogs.com/charlesblc/p/6360987.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!