一致性哈希(Consistent Hashing)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://linuxstyle.blog.csdn.net/article/details/5774738

 

在大型web应用中,缓存可算是当今的一个标准开发配置了。在大规模的缓存应用中,应运而生了分布式缓存系统。分布式缓存系统的基本原理,大家也有所耳闻。key-value如何均匀的分散到集群中?说到此,最常规的方式莫过于hash取模的方式。比如集群中可用机器适量为N,那么key值为K的的数据请求很简单的应该路由到hash(K) mod N对应的机器。的确,这种结构是简单的,也是实用的。但是在一些高速发展的web系统中,这样的解决方案仍有些缺陷。随着系统访问压力的增长,缓存系统不得不通过增加机器节点的方式提高集群的相应速度和数据承载量。增加机器意味着按照hash取模的方式,在增加机器节点的这一时刻,大量的缓存命不中,缓存数据需要重新建立,甚至是进行整体的缓存数据迁移,瞬间会给DB带来极高的系统负载,设置导致DB服务器宕机。 那么就没有办法解决hash取模的方式带来的诟病吗?看下文。

一致性哈希(Consistent Hashing):

      选择具体的机器节点不在只依赖需要缓存数据的key的hash本身了,而是机器节点本身也进行了hash运算。


(1) hash机器节点


首先求出机器节点的hash值(怎么算机器节点的hash?ip可以作为hash的参数吧。。当然还有其他的方法了),然后将其分布到0~2^32的一个圆环上(顺时针分布)。如下图所示:

 

集群中有机器:A , B, C, D, E五台机器,通过一定的hash算法我们将其分布到如上图所示的环上。


(2)访问方式

如果有一个写入缓存的请求,其中Key值为K,计算器hash值Hash(K), Hash(K) 对应于图 – 1环中的某一个点,如果该点对应没有映射到具体的某一个机器节点,那么顺时针查找,直到第一次找到有映射机器的节点,该节点就是确定的目标节点,如果超过了2^32仍然找不到节点,则命中第一个机器节点。比如 Hash(K) 的值介于A~B之间,那么命中的机器节点应该是B节点(如上图 )。


(3)增加节点的处理

如上图 – 1,在原有集群的基础上欲增加一台机器F,增加过程如下:

计算机器节点的Hash值,将机器映射到环中的一个节点,如下图:

 

增加机器节点F之后,访问策略不改变,依然按照(2)中的方式访问,此时缓存命不中的情况依然不可避免,不能命中的数据是hash(K)在增加节点以前落在C~F之间的数据。尽管依然存在节点增加带来的命中问题,但是比较传统的 hash取模的方式,一致性hash已经将不命中的数据降到了最低。

 

Consistent Hashing最大限度地抑制了hash键的重新分布。另外要取得比较好的负载均衡的效果,往往在服务器数量比较少的时候需要增加虚拟节点来保证服务器能均匀的分布在圆环上。因为使用一般的hash方法,服务器的映射地点的分布非常不均匀。使用虚拟节点的思想,为每个物理节点(服务器)在圆上分配100~200个点。这样就能抑制分布不均匀,最大限度地减小服务器增减时的缓存重新分布。用户数据映射在虚拟节点上,就表示用户数据真正存储位置是在该虚拟节点代表的实际物理服务器上。
下面有一个图描述了需要为每台物理服务器增加的虚拟节点。


  

x轴表示的是需要为每台物理服务器扩展的虚拟节点倍数(scale),y轴是实际物理服务器数,可以看出,当物理服务器的数量很小时,需要更大的虚拟节点,反之则需要更少的节点,从图上可以看出,在物理服务器有10台时,差不多需要为每台服务器增加100~200个虚拟节点才能达到真正的负载均衡。

展开阅读全文

丰富你的hash知识: Consistent hashing

10-12

网站为了支撑更大的用户访问量,往往需要对用户访问的数据做cache,对于访问量特别大的门户网站,一般都提供专门的cache服务机群和负载均衡来专门处理缓存,负载均衡的算法很多,轮循算法、哈希算法、最少连接算法、响应速度算法等,hash算法是比较常用的一种,它的常用思想是先计算出一个hash值,然后使用 CRC余数算法将hash值和机器数mod后取余数,机器的编号可以是0到N-1(N是机器数),计算出的结果一一对应即可。rnrn 我们知道缓存最关键的就是命中率这个因素,如果命中率非常低,那么缓存也就失去了它的意义,因此实际生产环境中我们的一个重要目标就是提高缓存命中率。如上所述,采用一般的CRC取余的hash算法虽然能达到负载均衡的目的,但是它存在一个严重的问题,那就是如果我们其中一台服务器down掉,那么我们就需要在计算缓存过程中将这台服务器去掉,即N台服务器,目前就只有N-1台提供缓存服务,此时需要一个rehash过程,而reash得到的结果将导致正常的用户请求不能找到原来缓存数据的正确机器,其他N-1台服务器上的缓存数据将大量失效,此时所有的用户请求全部会集中到数据库上,严重可能导致整个生产环境挂掉.rnrn 举个例子,有5台服务器,他们编号分别是0(A),1(B),2(C),3(D),4(E) ,正常情况下,假设用户数据hash值为12,那么对应的数据应该缓存在12%5=2号服务器上,假设编号为3的服务器此时挂掉,那么将其移除后就得到一个新的0(A),1(B),2(C),3(E)(注:这里的编号3其实就是原来的4号服务器)服务器列表,此时用户来取数据,同样hash值为12,rehash后的得到的机器编号12%4=0号服务器,可见,此时用户到0号服务器去找数据明显就找不到,出现了cache不命中现象,如果不命中此时应用会从后台数据库重新读取数据再cache到0号服务器上,如果大量用户出现这种情况,那么后果不堪设想。同样,增加一台缓存服务器,也会导致同样的后果,感兴趣的读者可以自行推敲。rnrn 可以有一种设想,要提高命中率就得减少增加或者移除服务器rehash带来的影响,那么有这样一种算法么?Consistent hashing算法就是这样一种hash算法,它的算法思想是:首先求出服务器(节点)的哈希值,并将其配置到0~2^32的圆上。然后用同样的方法求出存储数据的键的哈希值,并映射到圆上。然后从数据映射到的位置开始顺时针查找,将数据保存到找到的第一个服务器上。如果超过2^32仍然找不到服务器,就会保存到第一台服务器上。下面有一张比较经典的图,直接用过来,不修改了。rnrn rnrn 图一 Consistent Hashing原理示意图rnrn 这里有四台服务器,我们假设增加一台服务器Node5,可以看到,它影响的数据只是在增加Node5逆时针方向的数据会受到影响。同样,删除其中一台服务器,例如删除服务器node4,那么影响的数据也只是node4上缓存的数据。rnrn rnrn 图二 Consistent Hashing添加服务器rnrn Consistent Hashing最大限度地抑制了hash键的重新分布。另外要取得比较好的负载均衡的效果,往往在服务器数量比较少的时候需要增加虚拟节点来保证服务器能均匀的分布在圆环上。因为使用一般的hash方法,服务器的映射地点的分布非常不均匀。使用虚拟节点的思想,为每个物理节点(服务器)在圆上分配100~200个点。这样就能抑制分布不均匀,最大限度地减小服务器增减时的缓存重新分布。用户数据映射在虚拟节点上,就表示用户数据真正存储位置是在该虚拟节点代表的实际物理服务器上。rn下面有一个图描述了需要为每台物理服务器增加的虚拟节点。rnrn rnrn 图三 虚拟节点倍数- 物理节点数关系图rnrn x轴表示的是需要为每台物理服务器扩展的虚拟节点倍数(scale),y轴是实际物理服务器数,可以看出,当物理服务器的数量很小时,需要更大的虚拟节点,反之则需要更少的节点,从图上可以看出,在物理服务器有10台时,差不多需要为每台服务器增加100~200个虚拟节点才能达到真正的负载均衡。rnrn下面是一个简单的java参考实现:rnrn view plaincopy to clipboardprint?rnimport java.util.Collection; rnimport java.util.SortedMap; rnimport java.util.TreeMap; rn rnpublic class ConsistentHash rn rn private final HashFunction hashFunction; rn private final int numberOfReplicas; rn private final SortedMap circle = new TreeMap(); rn rn public ConsistentHash( rn HashFunction hashFunction, //hash算法 rn int numberOfReplicas,//虚拟节点数 rn Collection nodes//物理节点 rn ) rn this.hashFunction = hashFunction; rn this.numberOfReplicas = numberOfReplicas; rn rn for (T node : nodes) rn add(node); rn rn rn rn public void add(T node) rn for (int i = 0; i < numberOfReplicas; i++) rn circle.put(hashFunction.hash(node.toString() + i), node); rn rn rn rn public void remove(T node) rn for (int i = 0; i < numberOfReplicas; i++) rn circle.remove(hashFunction.hash(node.toString() + i)); rn rn rn rn//关键算法 rn public T get(Object key) rn if (circle.isEmpty()) rn return null; rn rn int hash = hashFunction.hash(key); rn if (!circle.containsKey(hash)) rn SortedMap tailMap = circle.tailMap(hash); rn hash = tailMap.isEmpty() ? circle.firstKey() : tailMap.firstKey(); rn rn return circle.get(hash); rn rn rn rnimport java.util.Collection;rnimport java.util.SortedMap;rnimport java.util.TreeMap;rnrnpublic class ConsistentHash rnrn private final HashFunction hashFunction;rn private final int numberOfReplicas;rn private final SortedMap circle = new TreeMap();rnrn public ConsistentHash(rn HashFunction hashFunction, //hash算法rn int numberOfReplicas,//虚拟节点数rn Collection nodes//物理节点rn ) rn this.hashFunction = hashFunction;rn this.numberOfReplicas = numberOfReplicas;rnrn for (T node : nodes) rn add(node);rn rn rnrn public void add(T node) rn for (int i = 0; i < numberOfReplicas; i++) rn circle.put(hashFunction.hash(node.toString() + i), node);rn rn rnrn public void remove(T node) rn for (int i = 0; i < numberOfReplicas; i++) rn circle.remove(hashFunction.hash(node.toString() + i));rn rn rn rn//关键算法rn public T get(Object key) rn if (circle.isEmpty()) rn return null;rn rn int hash = hashFunction.hash(key);rn if (!circle.containsKey(hash)) rn SortedMap tailMap = circle.tailMap(hash);rn hash = tailMap.isEmpty() ? circle.firstKey() : tailMap.firstKey();rn rn return circle.get(hash);rn rnrnrn rnrnrnrn本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/lovingprince/archive/2009/10/09/4645448.aspx 论坛

没有更多推荐了,返回首页