分布式锁 | ToyanのBlog

分布式锁，是用来控制分布式系统中互斥访问共享资源的一种手段，从而避免并行导致的结果不可控。

基本的实现原理和单进程锁是一致的，通过一个共享标识来确定唯一性，对共享标识进行修改时能够保证原子性和和对锁服务调用方的可见性。

为了确保分布式锁可用，至少要确保锁的实现同时满足以下四个条件：

互斥性：在任意时刻，只有一个客户端能持有锁
不会发生死锁：即使有一个客户端在持有锁的期间奔溃而没有主动解锁，也能保证后续其他客户端能加锁
具有容错性：只要大部分的Redis节点正常运行，客户端就可以加锁和解锁
解铃还须系铃人：加锁和解锁必须是同一个客户端，客户端自己不能把别人加的锁给解了

基于Redis实现的锁服务

加锁代码

正确姿势

public class RedisTool {
  private static final String LOCK_SUCCESS = "OK";
  private static final String SET_IF_NOT_EXIST = "NX";
  private static final String SET_WITH_EXPIRE_TIME = "PX";
  
  /**
     * 尝试获取分布式锁
     * @param jedis Redis客户端
     * @param lockKey 锁
     * @param requestId 请求标识
     * @param expireTime 超期时间
     * @return 是否获取成功
     */
  public static boolean tryGetDistributedLock(Jedis jedis, String lockKey, String requestId, int expireTime) {
    String result = jedis.set(lockKey, requestId, SET_IF_NOT_EXIST, SET_WITH_EXPIRE_TIME, expireTime);
    
    if (LOCK_SUCCESS.equals(result)) {
      return true;
    }
    return false;
  }
}

可以看到，我们加锁就一行代码：jedis.set(String key, String value, String nxxx, String expx, int time)，这个set()方法一共有五个形参：

第一个为key，我们使用key当锁，因为key是唯一的
第二个为value，我们传的是requestId，很多童鞋可能不明白，有key作为锁不就够了吗，为什么还要用到value？原因就是我们在上面讲到可靠性时，分布式锁要满足第四个条件解铃还须系铃人，通过给value赋值为requestId，我们就知道这把锁是哪个请求加的了。在解锁的时候就可以有依据。requestId可以使用UUID.randomUUID().toString()方法生成
第三个是nxxx，这个参数我们填的是NX，意思是SET IF NOT EXIST，即当key不存在时，我们进行set操作；若key已经存在，则不做任何操作
第四个是expx，这个参数我们传的是PX，意思是我们要给这个key加一个过期的设置，具体时间由第五个参数决定
第五个是time，与第四个参数相呼应，代表key的过期时间

总的来说，执行上面的set()方法就只会导致两种结果：

当前没有锁（key不存在），那么就进行加锁操作，并对锁设置个有效期，同时value表示加锁的客户端
已有锁存在，不做任何操作

通过上述我们发现，加锁代码满足我们可靠性里描述的三个条件。
首先，set()加入了NX参数，可以保证如果已有key存在，则函数不会调用成功，也就是只有一个客户端能持有锁，满足互斥性；
其次，由于我们对锁设置了过期时间，即使锁的持有者后续发生崩溃而没有解锁，锁也会因为到了过期时间而自动解锁（即key被删除），不会发生死锁；
最后，因为我们将value赋值为requestId，代表加锁的客户端请求标识，那么在客户端在解锁的时候就可以进行校验是否是同一个客户端。

由于我们只考虑Redis单机部署的场景，所以容错性我们暂不考虑。

错误示例1

比较常见的错误示例就是使用jedis.setnx()和jedis.expire()组合实现加锁，代码如下：

public static void wrongGetLock1(Jedis jedis, String lockKey, String requestId, int expireTime) {
  
  Long result = jedis.setnx(lockKey, requestId);
  if (result == 1) {
    // 若在这里程序突然崩溃，则无法设置过期时间，将发生死锁
    jedis.expire(lockKey, expireTime);
  }
}

setnx()方法作用就是SET IF NOT EXIST，expire()方法就是给锁加一个过期时间。然而这是两条Redis命令，不具有原子性，如果程序执行完setnx()之后突然奔溃，导致锁没有设置超时时间，那么将会发生死锁。网上之所以有人这样实现，是因为低版本的jedis并不支持多参数的set()方法。

错误示例2

该种错误的实现思路如下：使用jedis.setnx()命令实现加锁，其中key是锁，value是锁的过期时间。执行过程如下：1. 通过setnx()方法实现加锁，如果当前锁不存在，返回加锁成功；2. 如果锁已经存在则获取锁的过期时间，和当前时间相比，如果锁已经过期，则设置新的过期时间，返回加锁成功。代码如下：

public static boolean wrongGetLock2(Jedis jedis, String lockKey, String requestId, int expireTime) {
  long expires = System.currentTimeMillis() + expireTime;
  String expireStr = String.valueOf(expires);
  
  // 如果当前锁不存在，返回加锁成功
  if (jedis.setnx(lockKey, expiresStr()) == 1) {
    return true;
  }
  
  // 如果锁存在，获取锁的过期时间
  String currentValueStr = jedis.get(lockKey);
  if (currentValueStr != null && Long.parseLong(currentValueStr) < System.currentTimeMillis()) {
    // 锁已过期，获取上一个锁的过期时间，并设置现在锁的过期时间
    String oldValueStr = jedis.getSet(lockKey, expiresStr);
    if (oldValueStr != null && oldValueStr.equals(currentValueStr)) {
      // 考虑多线程并发的情况，只有一个线程的设置值和当前值相同，它才有权利加锁
      return true;
    }
  }
  
  // 其他情况，一律返回加锁失败
  return false;
}

这段代码问题如下：

由于是客户端自己生成过期时间，所以需要强制要求分布式下每个客户端的时间必须同步
当锁过期的时候，如果多个客户端同时执行jedis.getSet()方法，那么虽然最终只要一个客户端可以加锁，但是这个客户端的锁的过期时间可能被其他客户端覆盖
锁不具备拥有者标识，即任何客户端都可以加锁

解锁代码

正确姿势

public class RedisTool {
  private static final Long RELEASE_SUCCESS = 1L;
  
  /**
     * 释放分布式锁
     * @param jedis Redis客户端
     * @param lockKey 锁
     * @param requestId 请求标识
     * @return 是否释放成功
     */
  public static boolean releaseDistributedLock(Jedis jedis, String lockKey, String requestId) {
    String script ="if redis.call('get', KEYS[1]) == ARGV[1] then return redis.call('del', KEYS[1]) else return 0 end";
    Object result = jedis.eval(script, Collections.singletonList(lockKey), Collections.singletonList(requestId));
    
    if (RELEASE_SUCCESS.equals(result)) {
      return true;
    }
    return false;
  }
}

可以看到，我们解锁只需要两行代码就搞定了！第一行代码，我们写了一个简单的Lua脚本代码;第二行代码，我们将Lua代码传到jedis.eval()方法里，并使参数KEYS[1]赋值为lockKey，ARGV[1]赋值为requestId。eval()方法是将Lua代码交给Redis服务端执行。

那么这段Lua代码的功能是什么呢？其实很简单，首先获取锁对应的value值，检查是否与requestId相等，如果相等则删除锁（解锁）。那么为什么要使用Lua语言来实现呢？因为要确保上述操作是原子性的。那么为什么执行eval()方法可以确保原子性，源于Redis的特性，下面是官网对eval命令的部分解释：

简单来说，就是在eval命令执行Lua代码的时候，Lua代码将被当成一个命令去执行，并且直到eval命令执行完成，Redis才会执行其他命令。

错误示例1

最常见的解锁代码就是直接使用jedis.del()方法删除锁，这种不先判断锁的拥有者而直接删除锁的方式，会导致任何客户端都可以随时进行解锁，即使这把锁不是它的：

1
2
3

public static void wrongReleaseLock1(Jedis jedis, String lockKey) {
    jedis.del(lockKey);
}

错误示例2

这种解锁代码与之前的差不多，唯一区别的是分成两条命令去执行，代码如下：

public static void wrongReleaseLock2(Jedis jedis, String lockKey, String requestId) {
  
  // 判断解锁与加锁是不是同一个客户端
  if (requestId.equals(jedis.get(lockKey))) {
    // 若在此时，这把锁突然不是这个客户端的，则会误解锁
    jedis.del(lockKey);
  }
}

如代码注释，问题在于如果调用jedis.del()方法的时候，这把锁已经不属于当前客户端的时候会解除他人加的锁。那么是否真的有这种场景？答案是肯定的，比如客户端A加锁，一段时间之后客户端A解锁，在执行jedis.del()之前，锁突然过期了，此时客户端B尝试加锁成功，然后客户端A再执行del()方法，则将客户端B的锁给解除了。

总结

通过过期时间来避免死锁，过期时间设置多长对业务来说往往比较头疼，时间短了可能会造成：持有锁的线程A任务还未处理完成，锁过期了，线程B获得了锁，导致同一个资源被A、B两个线程并发访问；时间长了会造成：持有锁的进程宕机，造成其他等待获取锁的进程长时间的无效等待。

Redis的主从异步复制机制可能丢失数据，会出现如下场景：A线程获得了锁，但锁数据还未同步到slave上，master挂了，slave顶成主，线程B尝试加锁，仍然能够成功，造成A、B两个线程并发访问同一个资源。

基于ZooKeeper实现的锁机制

背景

在单进程应用中，我们经常使用锁来保障多个线程并发访问同一资源的互斥性。在多进程、分布式环境下，如果多个系统或者单个系统的多个节点并发访问同一资源，为了保障对资源读写的互斥性，就需要用到分布式锁。

为什么用Zookeeper来实现分布式锁

Zookeeper能够保障分布式场景下数据的一致性、有序性、原子性及可靠性，它的所有写入操作会在Leader节点持久化，并在集群过半节点写入成功才会返回；它也能够支持节点的奔溃恢复以及客户端的最终一致性视图。对于分布式锁场景来说，数据一致性的保障、以及锁服务的容灾保障至关重要。

另外，Zookeeper还提供了三种在分布式锁场景下非常有用的特征（以下的节点指的是Zookeeper内部存储的znode节点）：

临时节点
客户端可以指定zk创建一个临时节点，此节点将在这个客户端与服务端建立的session到期时自动删除，这个特性可以保障客户端创建的分布式锁节点宕机或者网络通讯中断一段时间后自动释放该临时节点，从而避免分布式锁由于客户端或网络原因导致的死锁问题
有序节点
客户端可以指定zk创建一个有序节点，此节点将自动在客户端指定的节点名后面添加一个单调递增序号来确保多个客户端同时创建相同的节点名时能够创建成功，并且保障越早创建的节点的序号越小。利用该特性可以实现锁的互斥性和公平性，即同一时刻只有一个客户端能够成功获取到锁（序号最小的一个获取到锁），获取锁失败的节点可以按照