hash算法总结

什么是hash算法

将任意长度的二进制值串映射为固定长度的二进制值串，这个映射的规则就是哈希算法，而通过原始数据映射之后得到的二进制值串就是哈希值。散列函数，顾名思义，它是一个函数。我们可以把它定义成hash(key)，其中key表示元素的键值，hash(key)的值表示经过散列函数计算得到的散列值。
散列函数设计的基本要求：

散列函数计算得到的散列值是一个非负整数;
如果key1 = key2，那hash(key1) == hash(key2);
如果key1 ≠ key2，那hash(key1) ≠ hash(key2)。

散列冲突

1.开放寻址法

开放寻址法的核心思想是，如果出现了散列冲突，我们就重新探测一个空闲位置，将其插入。那如何重新探测新的位置呢?我先讲一个比较简单的探测方法，线性探测(Linear Probing)。
当我们往散列表中插入数据时，如果某个数据经过散列函数散列之后，存储位置已经被占用了，我们就从当前位置开始，依次往后查找，看是否有空闲位置，直到找到为止。
对于开放寻址冲突解决方法，除了线性探测方法之外，还有另外两种比较经典的探测方法，二次探测(Quadratic probing)和双重散列(Double hashing)
所谓二次探测，跟线性探测很像，线性探测每次探测的步长是1，那它探测的下标序列就是hash(key)+0，hash(key)+1，hash(key)+2……而二次探测探测的步长就变成了原来的“二次方”，也就是说，它探测的下标序列就是hash(key)+0，hash(key)+12，hash(key)+22……
所谓双重散列，意思就是不仅要使用一个散列函数。我们使用一组散列函数hash1(key)，hash2(key)，hash3(key)……我们先用第一个散列函数，如果计算得到的存储位置已经被占用，再用第二个散列函数，依次类推，直到找到空闲的存储位置。
不管采用哪种探测方法，当散列表中空闲位置不多的时候，散列冲突的概率就会大大提高。为了尽可能保证散列表的操作效率，一般情况下，我们会尽可能保证散列表中有一定比例的空闲槽位。我们用装载因子(load factor)来表示空位的多少。
装载因子的计算公式是: 散列表的装载因子=填入表中的元素个数/散列表的长度

2.链表法

链表法是一种更加常用的散列冲突解决办法，相比开放寻址法，它要简单很多。我们来看这个图，在散列表中，每个“桶(bucket)”或者“槽(slot)”会对应一条链表,所有散列值相同的元素我们都放到相同槽位对应的链表中。
实际上，这两个操作的时间复杂度跟链表的长度k成正比，也就是O(k)。对于散列比较均匀的散列函数来说，理论上讲，k=n/m，其中n表示散列中数据的个数,m表示散列表中“槽”的个数。

hash算法作用

（1）文件校验
　　我们比较熟悉的校验算法有奇偶校验和CRC校验，这2种校验并没有抗数据篡改的能力，它们一定程度上能检测并纠正数据传输中的信道误码，但却不能防止对数据的恶意破坏。MD5 Hash算法的“数字指纹”特性，使它成为目前应用最广泛的一种文件完整性校验和（Checksum）算法，不少Unix系统有提供计算md5 checksum的命令。
（2）数字签名
　　Hash 算法也是现代密码体系中的一个重要组成部分。由于非对称算法的运算速度较慢，所以在数字签名协议中，单向散列函数扮演了一个重要的角色。对 Hash 值，又称“数字摘要”进行数字签名，在统计上可以认为与对文件本身进行数字签名是等效的。而且这样的协议还有其他的优点。
（3）鉴权协议
如下的鉴权协议又被称作挑战–认证模式：在传输信道是可被侦听，但不可被篡改的情况下，这是一种简单而安全的方法。

hash算法设计注意事项

1.如何设计散列表
首先，散列函数的设计不能太复杂。过于复杂的散列函数，势必会消耗很多计算时间，也就间接的影响到散列表的性能。其次，散列函数生成的值要尽可能随机并且均匀分布，这样才能避免或者最小化散列冲突，而且即便出现冲突，散列到每个槽里的数据也会比较平均，不会出现某个槽内数据特别多的情况。
2.装载因子过大了怎么办?
对于没有频繁插入和删除的静态数据集合来说，我们很容易根据数据的特点、分布等，设计出完美的、极少冲突的散列函数，因为毕竟之前数据都是已知的。
对于动态散列表来说，数据集合是频繁变动的，我们事先无法预估将要加入的数据个数，所以我们也无法事先申请一个足够大的散列表。随着数据慢慢加入，装载因子就会慢慢变大。当装载因子大到一定程度之后，散列冲突就会变得不可接受。当散列表的装载因子超过某个阈值时，就需要进行扩容。装载因子阈值需要选择得当。如果太大，会导致冲突过多;如果太小，会导致内存浪费严重。
装载因子阈值的设置要权衡时间、空间复杂度。如果内存空间不紧张，对执行效率要求很高，可以降低负载因子的阈值;相反，如果内存空间紧张，对执行效率要求又不高，可以增加负载因子的值，甚至可以大于1。
3.总结
当数据量比较小、装载因子小的时候，适合采用开放寻址法。这也是Java中的ThreadLocalMap使用开放寻址法解决散列冲突的原因。
基于链表的散列冲突处理方法比较适合存储大对象、大数据量的散列表，而且，比起开放寻址法，它更加灵活，支持更多的优化策略，比如用红黑树代替链表。
4.工业级散列表举例分析
java中的hashmap：
1.初始大小
HashMap默认的初始大小是16，当然这个默认值是可以设置的，如果事先知道大概的数据量有多大，可以通过修改默认初始大小，减少动态扩容的次数，这样会大大提高HashMap的性能。
2.装载因子和动态扩容
最大装载因子默认是0.75，当HashMap中元素个数超过0.75*capacity(capacity表示散列表的容量)的时候，就会启动扩容，每次扩容都会扩容为原来的两倍大小。
3.散列冲突解决方法
HashMap底层采用链表法来解决冲突。即使负载因子和散列函数设计得再合理，也免不了会出现拉链过长的情况，一旦出现拉链过长，则会严重影响HashMap的性能。
于是，在JDK1.8版本中，为了对HashMap做进一步优化，我们引入了红黑树。而当链表长度太长(默认超过8)时，链表就转换为红黑树。我们可以利用红黑树快速增删改查的特点，提高HashMap的性能。当红黑树结点个数少于8个的时候，又会将红黑树转化为链表。因为在数据量较小的情况下，红黑树要维护平衡，比起链表来，性能上的优势并不明显。
4.散列函数

int hash(Object key) {
int h = key.hashCode();
} 
return (h ^ (h >>> 16)) & (capitity -1); //capicity表示散列表的大小
其中，hashCode()返回的是Java对象的hash code。比如String类型的对象的hashCode()就是下面这样:
public int hashCode() {
int var1 = this.hash;
if(var1 == 0 && this.value.length > 0) {
	char[] var2 = this.value;
	for(int var3 = 0; var3 < this.value.length; ++var3) {
		var1 = 31 * var1 + var2[var3];
	}
	this.hash = var1; 
}

return var1;

hash算法实现

/**
* Hash算法大全<br>
* 推荐使用FNV1算法
* @algorithm None
* @author Goodzzp 2006-11-20
* @lastEdit Goodzzp 2006-11-20
* @editDetail Create
*/
public class HashAlgorithms
{
  /**//**
  * 加法hash
  * @param key 字符串
  * @param prime 一个质数
  * @return hash结果
  */
  public static int additiveHash(String key, int prime)
  {
    int hash, i;
    for (hash = key.length(), i = 0; i < key.length(); i++)
      hash += key.charAt(i);
    return (hash % prime);
  }
  /**//**
  * 旋转hash
  * @param key 输入字符串
  * @param prime 质数
  * @return hash值
  */
  public static int rotatingHash(String key, int prime)
  {
    int hash, i;
    for (hash=key.length(), i=0; i<key.length(); ++i)
      hash = (hash<<4)^(hash>>28)^key.charAt(i);
    return (hash % prime);
    //  return (hash ^ (hash>>10) ^ (hash>>20));
  }
  // 替代：
  // 使用：hash = (hash ^ (hash>>10) ^ (hash>>20)) & mask;
  // 替代：hash %= prime;
  /**//**
  * MASK值，随便找一个值，最好是质数
  */
  static int M_MASK = 0x8765fed1;
  /**//**
  * 一次一个hash
  * @param key 输入字符串
  * @return 输出hash值
  */
  public static int oneByOneHash(String key)
  {
    int  hash, i;
    for (hash=0, i=0; i<key.length(); ++i)
    {
      hash += key.charAt(i);
      hash += (hash << 10);
      hash ^= (hash >> 6);
    }
    hash += (hash << 3);
    hash ^= (hash >> 11);
    hash += (hash << 15);
    //  return (hash & M_MASK);
    return hash;
  }
  /**//**
  * Bernstein's hash
  * @param key 输入字节数组
  * @param level 初始hash常量
  * @return 结果hash
  */
  public static int bernstein(String key)
  {
    int hash = 0;
    int i;
    for (i=0; i<key.length(); ++i) hash = 33*hash + key.charAt(i);
    return hash;
  }
  //
  /**///// Pearson's Hash
  // char pearson(char[]key, ub4 len, char tab[256])
  // {
  //  char hash;
  //  ub4 i;
  //  for (hash=len, i=0; i<len; ++i)
  //   hash=tab[hash^key[i]];
  //  return (hash);
  // }
  /**///// CRC Hashing，计算crc,具体代码见其他
  // ub4 crc(char *key, ub4 len, ub4 mask, ub4 tab[256])
  // {
  //  ub4 hash, i;
  //  for (hash=len, i=0; i<len; ++i)
  //   hash = (hash >> 8) ^ tab[(hash & 0xff) ^ key[i]];
  //  return (hash & mask);
  // }
  /**//**
  * Universal Hashing
  */
  public static int universal(char[]key, int mask, int[] tab)
  {
    int hash = key.length, i, len = key.length;
    for (i=0; i<(len<<3); i+=8)
    {
      char k = key[i>>3];
      if ((k&0x01) == 0) hash ^= tab[i+0];
      if ((k&0x02) == 0) hash ^= tab[i+1];
      if ((k&0x04) == 0) hash ^= tab[i+2];
      if ((k&0x08) == 0) hash ^= tab[i+3];
      if ((k&0x10) == 0) hash ^= tab[i+4];
      if ((k&0x20) == 0) hash ^= tab[i+5];
      if ((k&0x40) == 0) hash ^= tab[i+6];
      if ((k&0x80) == 0) hash ^= tab[i+7];
    }
    return (hash & mask);
  }
  /**//**
  * Zobrist Hashing
  */
  public static int zobrist( char[] key,int mask, int[][] tab)
  {
    int hash, i;
    for (hash=key.length, i=0; i<key.length; ++i)
      hash ^= tab[i][key[i]];
    return (hash & mask);
  }
  // LOOKUP3
  // 见Bob Jenkins(3).c文件
  // 32位FNV算法
  static int M_SHIFT = 0;
  /**//**
  * 32位的FNV算法
  * @param data 数组
  * @return int值
  */
  public static int FNVHash(byte[] data)
  {
    int hash = (int)2166136261L;
    for(byte b : data)
      hash = (hash * 16777619) ^ b;
    if (M_SHIFT == 0)
      return hash;
    return (hash ^ (hash >> M_SHIFT)) & M_MASK;
  }
  /**//**
  * 改进的32位FNV算法1
  * @param data 数组
  * @return int值
  */
  public static int FNVHash1(byte[] data)
  {
    final int p = 16777619;
    int hash = (int)2166136261L;
    for(byte b:data)
      hash = (hash ^ b) * p;
    hash += hash << 13;
    hash ^= hash >> 7;
    hash += hash << 3;
    hash ^= hash >> 17;
    hash += hash << 5;
    return hash;
  }
  /**//**
  * 改进的32位FNV算法1
  * @param data 字符串
  * @return int值
  */
  public static int FNVHash1(String data)
  {
    final int p = 16777619;
    int hash = (int)2166136261L;
    for(int i=0;i<data.length();i++)
      hash = (hash ^ data.charAt(i)) * p;
    hash += hash << 13;
    hash ^= hash >> 7;
    hash += hash << 3;
    hash ^= hash >> 17;
    hash += hash << 5;
    return hash;
  }
  /**//**
  * Thomas Wang的算法，整数hash
  */
  public static int intHash(int key)
  {
    key += ~(key << 15);
    key ^= (key >>> 10);
    key += (key << 3);
    key ^= (key >>> 6);
    key += ~(key << 11);
    key ^= (key >>> 16);
    return key;
  }
  /**//**
  * RS算法hash
  * @param str 字符串
  */
  public static int RSHash(String str)
  {
    int b  = 378551;
    int a  = 63689;
    int hash = 0;
    for(int i = 0; i < str.length(); i++)
    {
      hash = hash * a + str.charAt(i);
      a  = a * b;
    }
    return (hash & 0x7FFFFFFF);
  }
  /**//* End Of RS Hash Function */
  /**//**
  * JS算法
  */
  public static int JSHash(String str)
  {
    int hash = 1315423911;
    for(int i = 0; i < str.length(); i++)
    {
      hash ^= ((hash << 5) + str.charAt(i) + (hash >> 2));
    }
    return (hash & 0x7FFFFFFF);
  }
  /**//* End Of JS Hash Function */
  /**//**
  * PJW算法
  */
  public static int PJWHash(String str)
  {
    int BitsInUnsignedInt = 32;
    int ThreeQuarters   = (BitsInUnsignedInt * 3) / 4;
    int OneEighth     = BitsInUnsignedInt / 8;
    int HighBits     = 0xFFFFFFFF << (BitsInUnsignedInt - OneEighth);
    int hash       = 0;
    int test       = 0;
    for(int i = 0; i < str.length();i++)
    {
      hash = (hash << OneEighth) + str.charAt(i);
      if((test = hash & HighBits) != 0)
      {
        hash = (( hash ^ (test >> ThreeQuarters)) & (~HighBits));
      }
    }
    return (hash & 0x7FFFFFFF);
  }
  /**//* End Of P. J. Weinberger Hash Function */
  /**//**
  * ELF算法
  */
  public static int ELFHash(String str)
  {
    int hash = 0;
    int x  = 0;
    for(int i = 0; i < str.length(); i++)
    {
      hash = (hash << 4) + str.charAt(i);
      if((x = (int)(hash & 0xF0000000L)) != 0)
      {
        hash ^= (x >> 24);
        hash &= ~x;
      }
    }
    return (hash & 0x7FFFFFFF);
  }
  /**//* End Of ELF Hash Function */
  /**//**
  * BKDR算法
  */
  public static int BKDRHash(String str)
  {
    int seed = 131; // 31 131 1313 13131 131313 etc..
    int hash = 0;
    for(int i = 0; i < str.length(); i++)
    {
      hash = (hash * seed) + str.charAt(i);
    }
    return (hash & 0x7FFFFFFF);
  }
  /**//* End Of BKDR Hash Function */
  /**//**
  * SDBM算法
  */
  public static int SDBMHash(String str)
  {
    int hash = 0;
    for(int i = 0; i < str.length(); i++)
    {
      hash = str.charAt(i) + (hash << 6) + (hash << 16) - hash;
    }
    return (hash & 0x7FFFFFFF);
  }
  /**//* End Of SDBM Hash Function */
  /**//**
  * DJB算法
  */
  public static int DJBHash(String str)
  {
    int hash = 5381;
    for(int i = 0; i < str.length(); i++)
    {
      hash = ((hash << 5) + hash) + str.charAt(i);
    }
    return (hash & 0x7FFFFFFF);
  }
  /**//* End Of DJB Hash Function */
  /**//**
  * DEK算法
  */
  public static int DEKHash(String str)
  {
    int hash = str.length();
    for(int i = 0; i < str.length(); i++)
    {
      hash = ((hash << 5) ^ (hash >> 27)) ^ str.charAt(i);
    }
    return (hash & 0x7FFFFFFF);
  }
  /**//* End Of DEK Hash Function */
  /**//**
  * AP算法
  */
  public static int APHash(String str)
  {
    int hash = 0;
    for(int i = 0; i < str.length(); i++)
    {
      hash ^= ((i & 1) == 0) ? ( (hash << 7) ^ str.charAt(i) ^ (hash >> 3)) :
    (~((hash << 11) ^ str.charAt(i) ^ (hash >> 5)));
    }
    //    return (hash & 0x7FFFFFFF);
    return hash;
  }
  /**//* End Of AP Hash Function */
  /**//**
  * JAVA自己带的算法
  */
  public static int java(String str)
  {
    int h = 0;
    int off = 0;
    int len = str.length();
    for (int i = 0; i < len; i++)
    {
      h = 31 * h + str.charAt(off++);
    }
    return h;
  }
  /**//**
  * 混合hash算法，输出64位的值
  */
  public static long mixHash(String str)
  {
    long hash = str.hashCode();
    hash <<= 32;
    hash |= FNVHash1(str);
    return hash;
  }
}

参考文章

https://www.jb51.net/article/124819.htm