码迷,mamicode.com
首页 > 其他好文 > 详细

大数据概述

时间:2018-09-16 15:52:59      阅读:134      评论:0      收藏:0      [点我收藏+]

标签:dfs   分布   网络架构   velocity   种类   区别   假设   电商   数据库管理   

大数据概述

题外话(提两个概念)

  1. 分布式:以缩短单个任务的执行时间来提高效率的。
  2. 集群:集群则是通过提高单位时间内执行的任务数来提高效率。

例如:
  如果一个任务由10个子任务组成,每个子任务单独执行需1小时,则在一台服务器上执行改任务需10小时。
  采用分布式方案,提供10台服务器,每台服务器只负责处理一个子任务,不考虑子任务间的依赖关系,执行完这个任务只需一个小时。(这种工作模式的一个典型代表就是Hadoop的Map/Reduce分布式计算模型)
  而采用集群方案,同样提供10台服务器,每台服务器都能独立处理这个任务。假设有10个任务同时到达,10个服务器将同时工作,10小后,10个任务同时完成,这样,整身来看,还是1小时内完成一个任务

集群提供了一下两个关建特性:

  1. 可扩展性
  2. 高可用性
    集群有两大能力保证了之前说的集群的两大特性
  3. 负载均衡
  4. 错误恢复
    实现集群具有两大技术:
  5. 内部通讯
  6. 集群地址

这里只是简单的介绍分布式和集群和区别,以及各自的定义。具体网上查找
区别:

  1. 分布式中的每一个节点,都可以做集群。 而集群并不一定就是分布式的
  2. 分布式的每一个节点,都完成不同的业务,一个节点垮了,那这个业务就不可访问了,
    有一个组织性,一台服务器垮了,其它的服务器可以顶上来。

4V特征:

? volume:量大

? 海量的数据模型

? variety:种类多

? 因为数据源很多,数据关联紧密

? velocity:速度

? 数据分析速度要快,才有使用价值。

? value:价值

? 数据挖掘,数据量越大,数据挖掘难度就越大,同时得到的价值也就越大

生活中的例子:

? 点球大战

? 电商买假货给谁

大数据要解决的问题:

? 如图:
技术分享图片

大数据涉及到的技术:

  1. 数据采集
  2. 数据存储
  3. 数据处理/分析/挖掘
  4. 可视化(前面都把数据采集存储并且处理好了,需要把数据展示给别人看)

大数据在技术架构上带来的挑战

  1. 对现有的数据库管理技术的挑战(即便是现在数据库有集群的概念,但是对TB级别的数据存储还是压力很大)

  2. 经典数据库技术并没有考虑数据的多类别(一般都是结构化的定义一张表,比如人的信息表,)

  3. 实时性的技术挑战(数据所产生的价值,是随着时间的流逝而大大降低的,所以越快处理越好,比如电商网站的一个实时的推送)

  4. 网络架构,数据中心,运维的挑战(每天产生的数据量是爆炸式的增长的,如何存储,运维很关键)

其他挑战

  1. 数据隐私
  2. 数据源的复杂多样

如何对大数据进行存储和分析

  1. 存储容量 -----》Google大数据技术 :GFS //对应hdfs
  2. 读写速度 -----》Google大数据技术 :BigTable //对应 hbase
  3. 计算效率 -----》Google大数据技术 :MapReduce //对应mapreduce
    。。。。。
    但是Google只有技术论文,没有开源代码。所以就有了hadoop

大数据概述

标签:dfs   分布   网络架构   velocity   种类   区别   假设   电商   数据库管理   

原文地址:https://www.cnblogs.com/liaozhilong/p/9655219.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!