大数据扫盲

? 1. 假设DB的更新操作是同时写北京和广州的DB都成功才返回成功
在没有出现网络故障的时候，满足CA原则，C 即我的任何一个写入，更新操作成功并返回客户端完成后,分布式的所有节点在同一时间的数据完全一致， A 即我的读写操作都能够成功，但是当出现网络故障时，我不能同时保证CA，即P条件无法满足

? 2. 假设DB的更新操作是只写本地机房成功就返回，通过binlog/oplog回放方式同步至侧边机房
这种操作保证了在出现网络故障时,双边机房都是可以提供服务的，且读写操作都能成功，意味着他满足了AP ，但是它不满足C，因为更新操作返回成功后，双边机房的DB看到的数据会存在短暂不一致，且在网络故障时，不一致的时间差会很大（仅能保证最终一致性）

? 3. 假设DB的更新操作是同时写北京和广州的DB都成功才返回成功且网络故障时提供降级服务
降级服务，如停止写入，只提供读取功能，这样能保证数据是一致的，且网络故障时能提供服务，满足CP原则，但是他无法满足A可用性原则

选择权衡

通过上面的例子，我们得知，我们永远无法同时得到CAP这3个特性，那么我们怎么来权衡选择呢？
选择的关键点取决于业务场景

对于大多数互联网应用来说（如网易门户），因为机器数量庞大，部署节点分散，网络故障是常态，可用性是必须需要保证的，所以只有设置一致性来保证服务的AP，通常常见的高可用服务吹嘘5个9 6个9服务SLA稳定性就本都是放弃C选择AP

对于需要确保强一致性的场景，如银行，通常会权衡CA和CP模型，CA模型网络故障时完全不可用，CP模型具备部分可用性，实际的选择需要通过业务场景来权衡（并不是所有情况CP都好于CA，只能查看信息不能更新信息有时候从产品层面还不如直接拒绝服务）

ACID理论

Atomicity原子性、consistency一致性、isolation独立性、durability持久性

关系数据库采用这套模型，保证高可靠和强一致性。

BASE理论

Basically availible基本可用、soft state软状态、eventual consistency最终一致性

Base是通过牺牲一致性来获得高可用。目前的大部分NoSQL数据库都是base理论。

幂等性

数学中的幂等指的是如max(x,y)=x、and操作等等。

分布式系统中的幂等性指的是无论多少次调用，结果都是相同的。

因为在分布式系统中，有可能网络中断，造成通讯失败，幂等性非常重要。Zookeeper就是幂等性系统。

一致性协议

略

大数据常用的算法与数据结构
1. 布隆过滤器

假设服务器A是一个反垃圾邮件服务器，A维护了一个可疑IP列表，列表中包含了大量的可疑的 IP地址。服务器B是另一个反垃圾邮件服务器，B也维护了一个可疑IP列表，列表中包含了大量的可疑的IP地址。两台服务器只能通过互联网通信。有一天，服务器A需要确认自己的列表和服务器B的列表的相似度（即两者包含的相同的IP地址占所有IP地址的比例）。

首先，让我们来看看什么是Bloom Filter吧。初始状态时，Bloom Filter是一个包含m位的位数组，每一位都置为0。

技术分享

为了表达S={x1, x2,…,xn}这样一个n个元素的集合，Bloom Filter使用k个相互独立的哈希函数（Hash Function），它们分别将集合中的每个元素映射到{1,…,m}的范围中。对任意一个元素x，第i个哈希函数映射的位置hi(x)就会被置为 1（1≤i≤k）。注意，如果一个位置多次被置为1，那么只有第一次会起作用，后面几次将没有任何效果。如下图所示，我们可以所有的元素xk映射到位数组中。而m位的位数组就可以作为描述所有元素的简化版。

技术分享

在判断y是否属于这个集合时，我们对y应用k次哈希函数，如果所有hi(y)的位置都是1（1≤i≤k），那么我们就认为y是集合中的元素，否则就认为y不是集合中的元素。下图中y1就不是集合中的元素。y2或者属于这个集合，或者刚好是一个false positive。

技术分享

m的单位是bit，而n则是以元素个数为单位(准确的说是不同元素的个数，可以是字符串或者复制对象)。所以使用bloom filter内存上通常都是节省的。?

具有良好的时间和空间效率，尤其是空间效率极高。对于判断元素是否属于集合非常高效。比如google chrome使用它进行恶意url判断，网络爬虫使用它检查是否爬过特定的url，缓存数据等。如cassandra、hbase都采用了。

SkipList

对一棵查找树（search tree）进行查询/新增/删除等动作, 所花的时间与树的高度h 成比例, 并不与树的容量 n 成比例。如果可以让树维持矮矮胖胖的好身材, 也就是让h维持在O(lg n)左右, 完成上述工作就很省时间。能够一直维持好身材, 不因新增删除而长歪的搜寻树, 叫做balanced search tree（平衡树）。

构造平衡树，非常复杂。但是构造跳表非常简单，而且功能相同、效率相近。

跳表是一种随机化的数据结构，目前开源软件 Redis 和 LevelDB 都有用到它，

它的效率和红黑树以及 AVL 树不相上下，但跳表的原理相当简单，只要你能熟练操作链表，

就能轻松实现一个 SkipList。

有序表的搜索

考虑一个有序表：

从该有序表中搜索元素 < 23, 43, 59 > ，需要比较的次数分别为 < 2, 4, 6 >，总共比较的次数

为 2 + 4 + 6 = 12 次。有没有优化的算法吗?? 链表是有序的，但不能使用二分查找。类似二叉

搜索树，我们把一些节点提取出来，作为索引。得到如下结构：

这里我们把 < 14, 34, 50, 72 > 提取出来作为一级索引，这样搜索的时候就可以减少比较次数了。

我们还可以再从一级索引提取一些元素出来，作为二级索引，变成如下结构：

这里元素不多，体现不出优势，如果元素足够多，这种索引结构就能体现出优势来了。

这基本上就是跳表的核心思想，其实也是一种通过"空间来换取时间"的一个算法，通过在每个节点中增加了向前的指针，从而提升查找的效率。

跳表

下面的结构是就是跳表：

其中 -1 表示 INT_MIN，链表的最小值，1 表示 INT_MAX，链表的最大值。

跳表具有如下性质：

(1) 由很多层结构组成

(2) 每一层都是一个有序的链表

(3) 最底层(Level 1)的链表包含所有元素

(4) 如果一个元素出现在 Level i 的链表中，则它在 Level i 之下的链表也都会出现。

(5) 每个节点包含两个指针，一个指向同一链表中的下一个元素，一个指向下面一层的元素。

跳表的搜索

LSM树

LSM树的本质是将大量的随机写操作转换成批量的序列写，这样可以极大的提升磁盘数据写入速度，所以LSM树非常适合对写操作效率有高要求的应用场景。但是读效率有些低，可以通过bloom filter或者缓存优化读性能。

LSM(Log Structured Merge Trees)数据组织方式被应用于多种数据库，如LevelDB、HBase、Cassandra等，下面我们从为什么使用LSM、LSM的实现思路两方面介绍这种存储组织结构，完成对LSM的初步了解。

? ?

存储背景回顾

LSM相较B+树或其他索引存储实现方式，提供了更好的写性能。究其原因，我们先回顾磁盘相关的一点背景知识。

? ?

顺序操作磁盘的性能，较随机读写磁盘的性能高很多，我们实现数据库时，也是围绕磁盘的这点特性进行设计与优化。如果让写性能最优，最佳的实现方式就是日志型(Log/Journal)数据库，其以追加(Append)的方式写磁盘文件。

? ?

有得即有舍，万事万物存在权衡，带来最优写性能的同时，单纯的日志数据库读性能很差，为找到一条数据，不得不遍历数据记录，要实现范围查询(range)几乎不可能。为优化日志型数据库的读性能，实际应用中通常结合以下几种优化措施：

二分查找(Binary Search): 在一个数据文件中使用二分查找加速数据查找

哈希(Hash): 写入时通过哈希函数将数据放入不同的桶中，读取时通过哈希索引直接读取

B+树: 使用B+树作为数据组织存储形式，保持数据稳定有序

外部索引文件: 除数据本身按日志形式存储外，另对其单独建立索引加速读取，如之前介绍的《一种Bitcask存储模型的实现》

以上措施都很大程度提升了读性能(如二分查找将时间复杂度提升至O(log(N)))，但相应写性能也有折损，第一写数据时需要维护索引，这视索引的实现方式，最差情况下可能涉及随机的IO操作；第二如果用B+树等结构组织数据，写入涉及两次IO操作，先要将数据读出来再写入。

LSM存储结构

LSM存储实现思路与以上四种措施不太相同，其将随机写转化为顺序写，尽量保持日志型数据库的写性能优势，并提供相对较好的读性能。具体实现方式如下：

1. 当有写操作(或update操作)时，写入位于内存的buffer，内存中通过某种数据结构(如skiplist)保持key有序

2. 一般的实现也会将数据追加写到磁盘Log文件，以备必要时恢复

3. 内存中的数据定时或按固定大小地刷到磁盘，更新操作只不断地写到内存，并不更新磁盘上已有文件

4. 随着越来越多写操作，磁盘上积累的文件也越来越多，这些文件不可写且有序

5. 定时对文件进行合并操作(compaction)，消除冗余数据，减少文件数量

以上过程用图表示如下：

LSM存储结构的写操作，只需更新内存，内存中的数据以块数据形式刷到磁盘，是顺序的IO操作，另外磁盘文件定期的合并操作，也将带来磁盘IO操作。

LSM存储结构的读操作，先从内存数据开始访问，如果在内存中访问不到，再顺序从一个个磁盘文件中查找，由于文件本身有序，并且定期的合并减少了磁盘文件个数，因而查找过程相对较快速。

合并操作是LSM实现中重要的一环，LevelDB、Cassandra中，使用基于层级的合并方式(Levelled compaction)，生成第N层的时候，对N-1层的数据进行排序，使得每层内的数据文件之间都是有序的，但最高层除外，因为该层不断有数据文件产生，因而只是数据文件内部按key有序。

除最高层外，其他层文件间数据有序，这也加速了读过程，因为一个key对应的value只存在一个文件中。假设总共有N层，每层最多K个数据文件，最差的情况下，读操作先遍历K个文件，再遍历每层，共需要K+(N-1)次读盘操作。

总结

LSM存储框架实现的思路较简单，其先在内存中保存数据，再定时刷到磁盘，实现顺序IO操作，通过定期合并文件减少数据冗余；文件有序，保证读取操作相对快速。

我们需要结合实际的业务场景选择合适的存储实现，不存在万金油式的通用存储框架。LSM适用于写多、读相对少(或较多读取最新写入的数据，该部分数据存在内存中，不需要磁盘IO操作)的业务场景。

Merkle哈希树

Merkle哈希树校验方式为我们提供了一个很好的思路，它试图从校验信息获取及实际校验过程两个方面来改善上述问题。先说说什么是哈希树，以最简单的二叉方式为例，如下图所示，设某文件共13个数据块，我们可以将其padding到16(2的整数次方)个块(注意，padding的空白块仅用于辅助校验，而无需当作数据进行实际传输)，每个块均对应一个SHA1校验值，然后再对它们进行反复的两两哈希，直到得出一个唯一的根哈希值为止(root hash, H0)，这一计算过程便构成了一棵二元的Merkle哈希树，树中最底层的叶子节点(H15~H30)对应着数据块的实际哈希值，而那些内部节点 (H1~H14)我们则可以将其称为"路径哈希值"，它们构成了实际块哈希值与根哈希值H0之间的"校验路径"，比如，数据块8所对应的实际哈希值为 H23，则有：SHA1(((SHA1(SHA1(H23,H24),H12),H6),H1)应该等于H0。当然，我们也可以进一步采用n元哈希树来进行上述校验过程，其过程是类似的。

技术分享

采用Merkle哈希树校验方式能够极大地减小.torrent文件的尺寸，这是因为，一旦采用这种方式来校验数据块，那么便没有必要在.torrent文件中保存所有数据块的校验值了，其中仅需保存一个20字节的SHA1哈希值即可，即整个下载文件的根哈希值H0。想象一下一个3、 4GB的文件，其对应.torrent文件却只有100-200字节的样子？

数据通道
1. Log数据收集

通常设计是在各个日志服务器安装代理，通过代理收集数据。

数据总线

数据总线的作用是能够形成数据变化通知通道，当集中存储的数据源中的数据发生变化时，能尽快通知对数据变化敏感的相关应用或者系统构建，使得他们能尽快捕获这种数据变化。

近乎实时的数据扩散，如linkedIn的databus。

数据导入\导出

sqoop

集群资源管理与调度

在集群硬件上抽象出一个功能独立的集群资源管理系统。把所有资源当成一个整体，并对其他所有计算任务提供统一的资源管理与调度框架和接口。计算任务按需申请资源、释放资源。

好处：

集群整体资源利用率高；

可增加数据共享能力；

支持多类型计算框架和多版本计算模型。

核心包含三部分：资源组织模型、调度策略、任务组织模型。

设计中，通常有节点管理器，负责收集本节点的资源使用情况，汇报给资源收集器。并对分配给本节点的任务放入容器中执行。通用调度器包括资源收集器、资源池、任务池、调度策略。资源收集器负责接收各个节点管理器提交的各节点使用情况，并更新到资源池中。资源池维护者本集群最新的可用资源。任务池存放着待执行的各种任务。调度策略负责把任务取出分配可用的资源去执行任务。调度策略通常有FIFO、公平调度、能力调度等。

数据局部性，包括节点局部性优先、机架局部性优先、全局局部性优先。

抢占式调度、非抢占式调度，前者用于优先级调度，后者用于公平调度。

资源分配粒度，包括全分或不分式、增量满足式、资源储备式。资源分配可能出现任务饿死、死锁问题。

资源隔离方面通常采用容器技术，LXC是一种轻量级的内核虚拟化技术，LXC依赖于Linux内核的cgroups子系统。

典型的案例包括Mesos和Yarn。

分布式通信
1. 数据序列化和RPC

序列化与RPC主要用于网络中不同节点的进程直接的交互。

许多分布式系统都会在进程间进行信息交换。RPC就是这种技术。当A调用B进程时，A进程挂起，把参数传给B进程，B进程执行后把结果传给A进程。B进程结束，A进程继续执行。

数据序列化是为了保证高效的数据传输的，一般采用json或者xml格式，也有采用专门协议的。

常见的框架包括protocol buffer、thrift、avro。

消息队列

消息队列主要用于大规模分布式系统中，用于解除相互之间的功能耦合，这样可以减轻各个子系统之间的依赖，使得各个子系统可以独立演进、维护或者重用。这里的消息指的是数据传输的基本单位，可以是简单的字符串，也可以是复杂的对象。

常见的框架有ActiveMQ、ZeroMQ、RabiitMQ、Kafka等。

多播通讯

Gossip协议。应用于cassandra、bittorrent、s3等。还可以用于维护贮备数据的最终一致性以及负载均衡等领域。

大数据扫盲

标签：

原文地址：http://www.cnblogs.com/chaoren399/p/4684658.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行