码迷,mamicode.com
首页 > 其他好文 > 详细

大数据系列之三:大数据体系架构的重要里程碑

时间:2019-02-23 00:53:38      阅读:296      评论:0      收藏:0      [点我收藏+]

标签:bad   google   pcc   通过   高性能   成功   brothers   context   contex   

欧凯惯例:引子

世界上唯一不变的就是变化,大数据的架构也不例外。
这次变化的推动者,多是一些大的商业公司!
首发地址
---

Teradata 美国天睿

技术图片
Teradata这家公司其实挺陌生的,但这并不能让我们忽视其在大数据方面做出的贡献。简单一句描述这家公司的贡献就是:

2008年之前,这家公司以关系型为基础,硬刚大数据,之后意识到数据实在太大大复杂了,终究实现了对非关系型数据的支持。

具体它拿关系型作为对大数据的解决方案硬刚到什么程度呢?拿一个数据说来说明白了,直到2017年,它可以基于其关系型解决方案处理50PB级别的数据。(当然50PB在现在的大数据框架中都是毛毛雨了,不过这也从侧面反应出它对自己产品的自信与不舍)


LexisNexis

技术图片

2000年,这家公司用C++开发了一个分布式文件共享及数据存储查询框架,它可以在节点间处理结构化,半结构化和非结构化数据。2004年,它收购了Seisint,又在2008年收购了ChoicePoint,然后它基于二者的产品在2011年融合成了HPCC系统。HPCC是高性能计算集群的简称。还不错,HPCC是开源的。

其实在这里,我们就可以看到当下主流的大数据处理框架的雏形了,所以这家公司在大数据处理方面的贡献是很大的,这也得意于其管理者的眼光,通过买买买的策略实现技术的融合,推动时代的进步。


不值一提的欧洲核组织

技术图片

CERN欧洲核子研究组织,这里为什么要提到CERN呢?因为它和其它的一些物理实现组织在几十年内积累了大量的数据,而且这些数据相当的精密,随着计算机的发展,它们自然而然的选择了以超级计算机作为这些数据的处理工具。这里反应了大数据的一个侧面,即,假如数据非常精密且内部关系十分紧密,使用分布式并行处理可能并不方便,那只不能求助于超级计算机了,毕竟超级计算机『一个顶俩』。


牛逼哄哄的Google

技术图片

曾经丰田的广告那叫一个牛逼啊『车到山前必有路,有路必有丰田车』,现在,谷歌在互联网办就是这般存在,而且是完全有过之。

2004年,谷歌发布了类似于HPCC的MapReduce,它提出了一个并行处理模型并成功发布了基于此的大数据处理工具。MapReduce包含两个阶段:

  • Map阶段:将数据的查询进行拆分,然后将子查询分散到各个结点,各个结点并行处理各自的查询。
  • Reduce阶段:收集并行结点的相关结果然后再次进行分发。

技术图片

这种设计相当成功,所以后来Apache基于MapReduce框架创建了Hadoop这个开源项目。
2012年,Apache又创建了Spark项目,该项目旨在解决MapReduce中Map阶段后只能跟随Reduce阶段的局限,即可以按需配置多个操作。

大数据处理平台的6C共识

  • Connection(连接:传感器和网络传输)
  • Cloud(云:计算和数据点播)
  • Cyber(网络:模型与存储)
  • Content/Context(内容与背景:意义与内在关系)
  • Community(社区:分享与协作)
  • Customization(定制:个性化与价值)

欧凯惯例:小结

很明显,大数据技术的革新是需求驱动的,而主力就是当代的有实力的技术公司,这里不得不在点名一个谷歌,是真强啊。


大数据系列之三:大数据体系架构的重要里程碑

标签:bad   google   pcc   通过   高性能   成功   brothers   context   contex   

原文地址:https://www.cnblogs.com/ok-ai/p/10421288.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!