证明与计算(5): 从加密哈希函数到一致性哈希

时间：2019-01-25 01:13:14 阅读：221 评论：0 收藏：0 [点我收藏+]

** 0x01 [哈希函数] vs [加密哈希函数]
** 0x02 [哈希碰撞] vs [生日问题]
** 0x03 [哈希表] vs [分布式哈希表]
** 0x04 [欧式距离] vs [三角不等式]
** 0x05 [异或距离] vs [前缀路由表]

0x01 [哈希函数] vs [加密哈希函数]

在哈希表计算索引的时候，我们需要一个哈希函数，通过hash(key)来计算key在哈希表里的index。这个地方的哈希函数只要尽量满足均匀分布，周期尽量大，计算速度又足够快等即可。而在密码学里用的比较多的，则是加密哈希函数。[加密哈希函数]，它需要尽量满足三个安全性质：

原像防御(Pre-Image resistance)：就是任意给一个hash值h，你很难破解出它的原像m，使得hash(m)=h，这个难度一般是NP难度的，也就是所谓的单向函数。
弱碰撞防御(Second pre-image resistance)：就是给定一个m1，你很难找到另一个m2，使得h(m1)=h(m2)。
强碰撞防御(Collision resistance)：就是你很难找到两个不同的m1和m2，使得h(m1)=h(m2)。
如果符合强碰撞防御，也就是会符合弱碰撞防御，但是不一定符合原像防御。如果只满足前2个，在密码学上是不安全的，一般加密哈希函数应该满足1，2，3。

常见的密码哈希函数有：

~~SHA1~~, SHA2(SHA-256,SHA-512), SHA3(SHA3-256, SHA3-512, Keccak-256, Keccak-512)
~~MD5~~
RIPEMD-160

其中，~~SHA-1~~因为已经在2005年可以被暴力找出碰撞，就不满足性质3，从而已经不再推荐使用了，现在常用的SHA-256,SHA-512都是属于SHA-2这个大类的，最新的则是SHA-3系列。~~MD5~~也已经在2004年就不满足强碰撞防御了，也不推荐作为密码哈希函数来用了。

加密哈希函数的使用场景，典型的有在SSL(Secure Sockets Layer)和数字签名(Digital Signature)上使用。

[1] Cryptographic hash function
[2] SHA-1
[3] SHA-2
[4] SHA-3
[5] MD5
[6] RIPEMD

0x02 [哈希碰撞] vs [生日问题]

一个哈希函数的取值空间是有限的，那么所有可能的结果个数是固定的，假设为D。那么，如果你能计算D+1次，自然一定有两个值发生碰撞。好在一般情况下，D都是很大的，有限算力的计算机在有生之年是没希望通过这个方式直接暴力计算出碰撞值。但是，如果我们退而求其次，只关心能否有50%的概率暴力计算出碰撞值呢？那么，你需要计算多少次后，才会有50%的概率发生碰撞？

这个问题，实际上叫做“生日问题”。在一个班级里有n个同学，每个同学的生日都只能是D=365天中的一天，那么班级里有两个人生日相同的概率P是多少呢？我们可以很容易计算出班级里所有人概率都不相同的概率P‘。计算方法是，依次计算第i个同学与前面(i-1)个同学生日都不相同的概率。那么：

第1个人与第0个人生日不相同的概率是1。
第2个人与第1个人生日不相同的概率是 364/365。
同理，第3个人与第2个人生日不相同的概率是363/365。
...
第n个人与前面n-1个人生日不相同的概率是(365-n+1)/365

从而，P‘=1x{364/365}x{363/365}x...x {(365-n+1)/365}，做一个简单变换后得到：

P‘= 1x{1-1/365}x{1-2/365}x...x {1-(n-1)/365}

这样，至少有2个人生日相同的概率P = 1-P‘。推广一下，把365替换为D，则有：

P‘= 1x{1-1/D}x{1-2/D}x...x {1- (n-1)/D }

对于哈希函数来说，一般D都是很大的，例如SHA-256，可能的D的取值有2^256个，那么这个时候1/D就很小，我们可以利用e^x的泰勒公式的性质来规约P‘。具体做法是：

做泰勒展开，e^x = 1+x+x^2/2+x^3/6+x^4/24+....
因此，当x很小的时候，e^x就可以直接用1+x来近似计算。
则，如果x=-i/D，由于D很大，-i/D就很小，从而可以直接用 e^{-i/D}=1-i/D 替换。

那么，就得到了如下的公式：
P‘= 1 x e^{-1/D} x e^{-2/D} ... x e^{-(n-1)/D}
= e^{-(1+2+...+n-1)/D}
= e^{ - n x (n-1)/2D }

进一步近似，用n^2代替 n x (n-1) 则有

P‘= e^{- n^2/2D }
P = 1-P‘ = 1-e^{-n^2/2D}

再次利用当x很小时 e^x=1+x 的近似公式，就得到最后的近似值：

P = 1-e^{-n^2/2D} = 1 - (1-n^2/2D) = n^2/2D

有了这个公式，如果反算：“班级有多少人时，至少有两个人生日相同的概率是50%”，或者“哈希函数计算多少次后，有两个值碰撞的概率是50%”，我们只需要反求n即可：

n = sqrt(2D x P)，把P=0.5带入，得 n = sqrt(D).

[1] Birthday problem
[2] 生日问题
[3] Birthday attack
[4] 生日攻击
[5] Collision attack

0x03 [哈希表] vs [分布式哈希表]

回头说两个跟哈希相关的数据结构。哈希表(Hash table)也称散列表，通过哈希函数把key映射到哈希表里的桶(bucket)的地址。由于哈希表的长度有限，通常哈希函数不可避免会发生碰撞，根据碰撞时的处理方式不同，哈希表分为两种：

开链法(Seperate Chaining)处理哈希碰撞。简单说把所有key碰撞的，用一个链表串起来，当然你也可以用二叉树串起来以进一步改进查询速度。
开放定址法(Open addressing, 又叫闭散列法，Closed hashing)。简单说遇到冲突时，直接通过规则在哈希表里找一个其他桶来用，例如使用线性探测法确定新位置：index=Hash（key）+ i

对于开链法哈希表，需要哈希函数满足均匀分布，也就是哈希函数会尽量把key均匀地映射到哈希桶上。而对于开放定址法，哈希函数还要尽量减少聚集(cluster)效应导致局部哈希桶太密集，因为这会导致插入和搜索到时间变大。

相对于只考虑单机程序的哈希表，分布式哈希表(Distrubuted hash table, DHT)则构建在P2P网络上。分布式哈希表由P2P网络的节点组成，每个节点都会维护好Key被映射到的节点信息，从而实现在P2P网络里对Key-Value进行添加、查找、删除的能力。一个好的DHT需要满足下面三个性质：

自治和去中心化(Autonomy and Decentralization)。节点之间的相互发现、加入、离开都不依赖于中心节点。
错误容忍性(Fault tolerance)。几点可以自由加入、离开、移除，而整个系统依然可用。
伸缩性(Scalability)。系统的效率不因节点的增加而减低，即使增加成千上万节点也是一样。

DHT的结构是怎样的呢？

首先从DHT的两个基本概念入手，是最佳的方式：

keyspace。例如要存储一个资源，资源的名字通过SHA-160做1次哈希，得到160-bit的key，所有这样的key构成了keyspace。
Overlay network。简单说就是一个P2P网络，但是这些P2P网络里的节点ID需要经过设计。

在理解DHT和通常的P2P网络有什么区别之前，先看下在DHT网络上会核心做的两个操作：

put(key,value)。动态查找到应该持有该key的Node，通过P2P网络把该key-value写入到那个Node。
get(key)。动态查找到应该持有该key到Node，通过P2P网络把那个key-value读出来。

上面，核心的两个动作是：

计算应该持有该key的Node
动态查找该Node

计算应该持有该key的Node有好多种算法，其中常见的一种做法就是使用一致性哈希。一致性哈希的核心做法是：

让Node的ID，和KeySpace中的Key，采用一致的格式和长度。
找到一种合适的距离计算函数D(distance)。
距离函数可以计算两个key之间的距离：D(key1,key2)。
距离函数也可以计算一个key和一个Node的ID之间的距离：D(key,ID)。
这种距离计算函数跟节点之间的物理距离没有关系。
根据距离，所有的key和所有ID之间就有一个排序关系: ...,ID(i),keyi1,...,keyim,ID(i+1)
所有排序在ID(i)和ID(i+1)之间的key，都归属于ID(i+1)。

而动态查找Node实际上就是一个贪心算法：

每个Node有一个路由表，路由表里包含了离自己从近到远的节点列表。
在路由表里查找key所在Node，
如果从路由表里直接到key所在的Node，就通过P2P网络与之通信。
否则从路由表里找到离key最近的Node，转发给那个离key最近的Node去查找。

具体关于如何“计算距离”，以及如何“设计路由表”，在Kademlia网络里有更具体的做法，下一次可以单独来讲。

[1] Hash table
[2] 哈希表
[2] Consistent hashing
[3] 一致性哈希
[4] Distributed hash table(DHT)
[5] Kademlia
[6] Overlay network

0x04 [欧式距离] vs [三角不等式]

理解分布式哈希表，首先需要理解分布式哈希表里是如何计算

两个Key之间的距离
Key和Node之间的距离

在介绍DHT里的距离之前，我们先看看欧几里得空间中的点是如何计算距离的。

在三维空间中，计算两个点之间的距离，叫做欧几里得距离。给定P1(x1,y1)，P2(x2,y2)，那么P1，P2之间的距离是sqrt(|x1-x2|^2+|y1-y2|^2)。对坐标差绝对值求平方和再开方，这个叫做2-范数距离。

有2-范数距离，当然也就有1-范数距离，公式是|x1-x2|+|y1-y2|。实际上1-范数距离也叫做“曼哈顿距离(Manhattan distance)”或者“出租车距离(Taxicab distance)”，简单说一辆出租车在曼哈顿里从一个点到另一个点，需要一直绕着格子建筑物走格子才能到达另一个点。
技术分享图片