为什么Hash函数 H(k) = k % m中 m 尽量不要为2的幂次也不是要是2^i -1

时间：2015-01-16 13:06:56 阅读：196 评论：0 收藏：0 [点我收藏+]

标签：hash

为什么Hash函数 H(k) = k % m中 m 尽量不要为2的幂次

下面的截屏来自CLRS的11章关于哈希函数的讨论

技术分享

之前我就一直困惑，为什么

When using the division method, we usually avoid certain values of m. For example, m should not be a power of 2, since ifm = 2^p , then H(k) is just the p lowest-order bits of k. Unless we know that all low-order p-bit patterns are equally likely, we are better off designing the hash function to depend on all the bits of the key.

-----------------------------------------------------------------------------------------------------------

为嘛就是尽量要避免 k%m中m不要是2的幂次呢？

如果2的i次幂 2^i = 10... .... 0 从1后面的第一个0开始到结束，一共有i个0

如果用k%m进行取余数操作，m = 2^i, 结果就是把k 截断保留低位的i位。这对于hash来说，是很“糟糕的特性”

问题的根结在于hash要有很好的特性，就是要避免碰撞，避免碰撞就要分布均匀的插入

直接的截断是很粗鲁的方式，无法保证插入数据能够均匀的分布于hash table中。

-----------------------------------------------------------------------------------------------------------

为嘛就是要避免k %m 中m不要是2幂次-1呢（2^i -1）？

对于不同的字符串S1 = “abcd” S2 = "adcb"

他们的hash值是相同的！但是他们是不同的字符串！他们会冲突！

怎么办呢？考虑字符串中的单个字符的顺序，对各个字符串进行加权，而加权的具体方式就是他们所处于字符串中的位。比方说字符串

S1 求值可以这样 ‘a‘*2^(0) + ‘b‘* (2^(1)) + ‘c‘ * (2^2) + ‘d‘ * (2^3)