宇宙安全声明:我和这个链接是一个人!并未抄袭。

1.定义

我们定义一个把字符串映射到整数的函数 𝑓,这个 𝑓 称为是 Hash 函数。

我们希望这个函数 𝑓 可以方便地帮我们判断两个字符串是否相等。

词汇“映射”

映射意为将一个集合中的任意元素和另一个集合中的元素一一对应。(请大佬指正)

2.思想

Hash 的核心思想在于,将输入映射到一个值域较小、可以方便比较的范围,也就是为了让两个字符串更加容易比较(感谢大佬yeyou26的指正)。 Warning 这里的「值域较小」在不同情况下意义不同。

3.性质

具体来说,哈希函数最重要的性质可以概括为下面两条:

1.在 Hash 函数值不一样的时候,两个字符串一定不一样;

2.在 Hash 函数值一样的时候,两个字符串不一定一样(但有大概率一样,且我们当然希望它们总是一样的)。

我们将 Hash 函数值一样但原字符串不一样的现象称为哈希碰撞。

引申:哈希碰撞

例子: 𝐾𝑖≠𝐾𝑗 𝐻𝑎𝑠ℎ(𝐾𝑖)=𝐻𝑎𝑠ℎ(𝐾𝑗) 该种现象称为哈希冲突或哈希碰撞。 把具有不同关键码而具有相同哈希地址的数据元素称为“同义词”。

如何计算哈希

Warning:以下数学表达式较多,但有通俗易懂的解释,不要慌张。

计算哈希我们通常采用的是多项式 Hash 的方法,但是本蒟蒻并不会使用第一种,故使用第二种。

公式:

𝑓(𝑥)=∑𝑖=1𝑙𝑠𝑖×𝑏𝑖−1(𝑚𝑜𝑑𝑚)

看公式,求和 [1,𝑙] 𝑠𝑖∗𝑏𝑖−1 ,所以xyz的哈希值为𝑥+𝑦𝑏+𝑧𝑏2

我们假设 𝑏 为 3,则有

当 𝑖 为 1 时,处理 'x',由于 𝑠𝑖×𝑏𝑖−1,而 𝑖=1,故值为 0;

当 𝑖 为 2 时,处理 'y',由于 𝑠𝑖×𝑏𝑖−1,而 𝑖=2,故值为 1;

当 𝑖 为 3 时,处理 'z',由于 𝑠𝑖×𝑏𝑖−1,而 𝑖=3,故值为 2;

1+2=3,所以该字符串哈希值为3。

当然,最后结果还要 𝑀𝑜𝑑(模)𝑀。

根据上方一次酣畅淋漓地推理,相信你已经看懂了过程,接下来讲述如何选择公式中的b与M

这里 𝑀 需要选择一个素数(至少要比最大的字符要大),𝑏 可以任意选择。因为如果 𝑀 不为素数,哈希碰撞(上文提到过)的可能性会大大提升。

Hash 的准确率

懒得写了qwq(bushi)

管他干嘛?

实现

效率低下但容易理解的版本

int gethash(string s)
int res=0;
for(int i=0;i<s.size();i++)
res = ((long long)res * B + s[i]) % M;
return res;

这个程序最关键的一步就是res = ((ll)res * B + s[i]) % M;套公式 当然我不是那种写显然的人,但剩下步骤真的很好理解!!!

3.哈希的改进

错误率 首先我们从碰撞率这一方面进行优化. 假定哈希函数将字符串随机地映射到大小为 M 的值域中,总共有 n 个不同的字符串,在随机数据下,若 𝑀=109+7,𝑛=106,未出现碰撞的概率是极低的。 解决方案: 进行字符串哈希时,经常会对两个大质数分别取模,这样的话哈希函数的值域就能扩大到两者之积,错误率就非常小了。

时间复杂度方面 单次计算一个字符串的哈希值复杂度是 𝑂(𝑛),其中 𝑛 为串长。一般采取的方法是对整个字符串先预处理出每个前缀的哈希值,将哈希值看成一个 𝑏 进制的数对 𝑀 取模的结果,这样的话每次就能快速求出子串的哈希了.