码迷,mamicode.com
首页 > 其他好文 > 详细

大数据运行流程

时间:2019-09-21 21:38:32      阅读:131      评论:0      收藏:0      [点我收藏+]

标签:内存   hdf   国内   lan   未来   全球   数据量   生物   进程   

大数据时代背景简介:

      最早提出大数据时代到来的是全球知名咨询公司麦肯锡, 大数据在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,

           却因为近年来互联网和信息行业的发展而引起人们关注。

                大数据作为云计算、互联网之后又IT行业又一大颠覆性的技术革命。云计算主要为数据资产提供了保管、访问的场所和渠道,

                    而数据才是真正有价值的资产。企业内部的经营信息、互联网世中的商品物流信息,

                         互联网世界中的人与人交互信息、位置信息等,其数量将远远超越现有企业IT架构和基础设施的承载能力,

                              实时性要求也将大大超越现有的计算能力。如何盘活这些数据资产,

                                  使其为国家治理、企业决策乃至个人生活服务,是大数据的核心议题,也是云计算内在的灵魂和必然的升级方向。

产生背景简述:

     进入2012年,大数据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量的大数据时代来临据,

并命名与之相关的技术发展与创新。

     它已经上过《纽约时报》《华尔街日报》的专栏封面,进入美国白宫官网的新闻,现身在国内一些互联网主题的讲座沙龙中,

甚至被嗅觉灵敏的国金证券、国泰君安、银河证券等写进了投资推荐报告。

     数据正在迅速膨胀并变大,它决定着企业的未来发展,虽然很多企业可能并没有意识到数据爆炸性增长带来问题的隐患,

但是随着时间的推移,人们将越来越多的意识到数据对企业的重要性。

     正如《纽约时报》2012年2月的一篇专栏中所称,“大数据”时代已经降临,在商业、经济及其他领域中,

决策将日益基于数据和分析而作出,而并非基于经验和直觉。

     哈佛大学社会学教授加里·金说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,

无论学术界、商界还是政府,所有领域都将开始这种进程。”

 

一:数据来源:

                          1.爬虫;2.异构数据源的整合(kettle)等。

 

二:存储:

                1.HDFS;2.hbase;3.hire等。

三:处理(计算):

                        (对数据进行筛选剔除,缩减数据量,减小内存占用)

                                Mapreduce和spark等。

四:再次存储:MASQL:

                  发展方向一: 形成三个方向的可视化:

                                                                             1.jzee方向实现;2.nodejs搭建系统; 3.python flask搭建。

 

                 发展方向二:机器学习、人工智能等。

 

         

 

大数据运行流程

标签:内存   hdf   国内   lan   未来   全球   数据量   生物   进程   

原文地址:https://www.cnblogs.com/xuezu2018/p/11564326.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!