hash

发表于 2017-05-01 更新于 2022-05-28 分类于 algorithm 阅读次数： Waline：本文字数： 832 阅读时长 ≈ 1 分钟

Hash （哈希，或者散列）函数在计算机领域，尤其是数据快速查找领域，加密领域用的极广。

其作用是将一个大的数据集映射到一个小的数据集上面（这些小的数据集叫做哈希值，或者散列值）。

一个应用是Hash table（散列表，也叫哈希表），是根据哈希值 (Key value) 而直接进行访问的数据结构。
也就是说，它通过把哈希值映射到表中一个位置来访问记录，以加快查找的速度。下面是一个典型的 hash 函数 / 表示意图：

hash

哈希函数有以下两个特点：

如果两个散列值是不相同的（根据同一函数），那么这两个散列值的原始输入也是不相同的。
散列函数的输入和输出不是唯一对应关系的，如果两个散列值相同，两个输入值很可能是相同的。
但也可能不同，这种情况称为 “散列碰撞”（或者 “散列冲突”）。上图中，John Smith和Sandra Dee就存在hash冲突。

Hash一个应用就是对数据集分类，比如上图，Hash值为0的表示可能在A集合中，Hash值为2的表示B集合中，依次类推，
值为15的表示F集合中。但Hash冲突会在这里会导致严重的问题，对于一个未知的新值，其可能不属于上面任何一个集合，
但由于冲突，其Hash值和上面的某一个相同，导致误报（因为事先我们不可能做一个含有无限多项输入的完整的Hash表，
也就是原来的Hash函数不可能是完美的）。并且，hash冲突也会导致查找效率低下。

缺点：引用吴军博士的《数学之美》中所言，哈希表的空间效率还是不够高。
如果用哈希表存储一亿个垃圾邮件地址，每个email地址对应 8bytes, 而哈希表的存储效率一般只有50%，
因此一个email地址需要占用16bytes，一亿个email地址占用1.6GB，如果存储几十亿个email address则需要上百GB的内存。
除非是超级计算机，一般的服务器是无法存储的。

References:
[1] Hash_function
[2] 散列函数
[3] hash-and-bloom-filter
[4] 布隆过滤器 – 空间效率很高的数据结构