标签:dfs 分布 网络架构 velocity 种类 区别 假设 电商 数据库管理
题外话(提两个概念)
例如:
如果一个任务由10个子任务组成,每个子任务单独执行需1小时,则在一台服务器上执行改任务需10小时。
采用分布式方案,提供10台服务器,每台服务器只负责处理一个子任务,不考虑子任务间的依赖关系,执行完这个任务只需一个小时。(这种工作模式的一个典型代表就是Hadoop的Map/Reduce分布式计算模型)
而采用集群方案,同样提供10台服务器,每台服务器都能独立处理这个任务。假设有10个任务同时到达,10个服务器将同时工作,10小后,10个任务同时完成,这样,整身来看,还是1小时内完成一个任务
集群提供了一下两个关建特性:
这里只是简单的介绍分布式和集群和区别,以及各自的定义。具体网上查找
区别:
? volume:量大
? 海量的数据模型
? variety:种类多
? 因为数据源很多,数据关联紧密
? velocity:速度
? 数据分析速度要快,才有使用价值。
? value:价值
? 数据挖掘,数据量越大,数据挖掘难度就越大,同时得到的价值也就越大
? 点球大战
? 电商买假货给谁
? 如图:
对现有的数据库管理技术的挑战(即便是现在数据库有集群的概念,但是对TB级别的数据存储还是压力很大)
经典数据库技术并没有考虑数据的多类别(一般都是结构化的定义一张表,比如人的信息表,)
实时性的技术挑战(数据所产生的价值,是随着时间的流逝而大大降低的,所以越快处理越好,比如电商网站的一个实时的推送)
网络架构,数据中心,运维的挑战(每天产生的数据量是爆炸式的增长的,如何存储,运维很关键)
标签:dfs 分布 网络架构 velocity 种类 区别 假设 电商 数据库管理
原文地址:https://www.cnblogs.com/liaozhilong/p/9655219.html