本篇涉及到分布式事务的原理与Spanner事务实现，需要大概理解单机数据库事务，如果还不理解，可以先看看之前的两篇：

为了让下面的阅读不那么枯燥，先抛出几个问题大家可以思考一下：

分布式事务相比单机事务，有何难点？如何解决？
为什么在同一个Spanner事务中，提交之前完全读不到自己的写入？
什么是外部一致性？
Spanner事务有哪些类型？分别适用于什么场景？
Spanner读取是加锁还是MVCC？
Spanner每个Paxos Group的每秒事务吞吐量是否有限制？

一、分布式事务原理

要理解一个特定技术，就先理解这个技术所基于的通用原理，所以这里不马上开始讲Spanner的事务实现，而是先讲分布式事务的原理。

1. 分布式事务所面临的问题

在事务的ACID中，对于单机数据库，A（原子性）、C（一致性）是很容易被满足的，基于undo log满足A，基于redo log、加锁满足C，但是对于分布式数据库却比较困难，不止是由于从单机到多机，复杂性的提高，还因为中间有“网络”这个不稳定因素。

挑战1：原子性

事务需要满足A：要么全部失败，要么全部成功，对于单机数据库，只要将事务写入日志，就能够保证此事务可以全部回滚或者可以全部提交，而分布式事务是多机事务，每个机器的情况不同，有的机器可能写日志成功，有的机器可能写日志失败（比如因为获取锁失败），也就是会出现部分成功部分失败的情况，因此分布式数据库该如何保证原子性，是一个挑战。

挑战2：事务顺序

后开始的事务要能够读到在它开始前已经结束的事务的写，为了正确的MVCC，事务需要有单调递增（Monotonically Increasing）的时间戳或者事务序号保证逻辑顺序。

在单机数据库要保证单调递增不是个问题，但是分布式数据库多点的，要如何保证为冲突事务分配的序号是单调递增就是个问题。

挑战3：不稳定的网络

单机的通讯是稳定的，一个操作无论失败还是成功，调用者都知道自己能够在未来的某个点得到确定的回复，而分布式数据库则只能通过网络通讯，网络是不稳定的，可能对方收不到你的指令，或者你收不到对方的回复，该怎么保证分布式事务的可用性，也就是在用户能够容忍的时间内得到确定的答复。

2. 分布式事务解决思路

二阶段提交（2PC）

对于上面说的原子性与不稳定的网络这两个挑战，目前分布式事务比较通用的解决方案是二阶段提交（Tow-Phase Commit），缩写为2PC，Spanner、TiDB都使用二阶段提交，它将提交分为准备和最终提交两个阶段，注意这里说的“最终提交”和“提交”的区别，为了避免混淆，“提交”还是原本的语义，代表着client发出的commit，而“最终提交”是指2PC中的提交阶段，是被DB发起的，不是被client。

分布式事务往往意味着有2个或以上的DB参与，2PC中会有不同的角色分工，其中有一台机器是协调者（Coordinator），可以理解为Team Leader，其余的都是参与者（Participant）。

第一阶段：准备（prepare）

当client发起提交后，开始进入2PC的第一阶段——准备，也叫投票（Vote），协调者通知参与者开始准备，每个参与者都在本机执行事务，注意，这里只是执行，不是提交，执行意味着可能只是获取锁、写日志，而不是apply这些变更（mutation），参与者负责确认属于自己的写入能否成功，如果可以，则需要向协调者返回yes，如果无法在本机成功执行事务，则返回no。

在协调者发出prepare的指令后，会根据参与者的情况作出提交（commit）还是中止（abort）的决定，有两个因素决定最后的选择：

等待期
参与者的回复

关于等待期，由于网络的不确定性，协调者发出的指令可能不能被每个参与者都收到，或者参与者发出的回复不能被协调者收到，并且这个不稳定性是一直存在的，不能确定在client可接受的时间内一定能得到答复，超出client可接受的时间是不满足可用性（CAP中的A）的，因此协调者不能一直等下去，需要设置一个等待期，超出等待期还未得到所有参与者的回复，就直接认为未回复的参与者是say no而不是yes，协调者会直接作出abort的决定。

关于第二点——参与者的回复，如果协调者在等待期内如果成功收到所有参与者的答复，则开始下一步判断，如果全部say yes，也就是回答“可以提交”，并且协调者自己也处于可提交状态，那么就会作出commit决定，如果有任何一个参与者返回了无法提交，或者协调者自己无法提交，那么协调者会作出abort决定。

第二阶段：最终提交（final commit）

协调者作出决定后进入第二阶段——最终提交，注意这个“最终提交”，并不是说它一定会commit，而只是说这是一个最终执行决定的阶段，最终提交阶段可能有两种结果：commit与abort，也就是提交或者中止，提交会apply所有变更，中止则仅仅释放锁，不apply变更，就像事务没有发生。

对于参与者来说，当它对第一阶段作出了yes or no的响应后，它就已经进入了第二阶段，等待协调者的决定，并执行决定。这个阶段可以是协调者主动将决定发送给参与者，也可以是参与者主动轮询，2PC是一种算法，具体实现不同。

协调者作出决定后进入第二阶段，它会将决定写入日志，写入成功后，提交自己的事务，然后向client返回成功。注意这里，协调者无需等待参与者成功，可以直接向client返回，参与者通过接收协调者指令或者自己轮询获得协调者的决定后，异步提交即可。

为什么可以允许参与者异步提交？

很简单因为每个参与者都已经成功执行了事务写入了日志，一旦日志落盘，就代表事务已经保证100%可以成功，那么协调者的决定只是将事务的变更正式apply并释放锁，释放锁与apply都可以是异步，不影响这个事务能够“成功”的保证，因此可以放心地返回给client。

2PC主要的思想就是先确定大家都能成功，才作出提交决定，如果有任意参与者可能无法成功，就作出中止决定。

二、Spanner事务实现

Spanner事务模型是2PC的实现，所以在看下去之前，务必对2PC有一定的理解。

1. 外部一致性（External Consistency）

我们先由远及近地看Spanner，从Spanner的表现到Spanner的实现。**外部一致性（External Consistency）**是Google提出来的概念，这里所说的外部可以理解为client，也就是对于client来说，它观察到的两个事务的顺序一定与它们的提交顺序相同，因此如果事务1在事务2之前commit，那么事务2一定能够读取到事务1的变更。如下图：

虽然事务2在事务1提交前就已开始，但是它的commit更晚，一定能够读到事务1的变更。

外部一致性只是基于Spanner事务模型最后的结果，是表现，而不是原因，因此这里只需要知道Spanner事务最后是这样的表现即可，为的是让大家自顶向下带着问题去反向思考如何实现这个效果。

2. TrueTime

分布式事务一定需要解决上面说到的3个挑战，这里先来说说挑战2——事务顺序，在分布式中如何保证事务序号是递增的呢，很容易想到授权一个单点去分配事务序号，每个事务都从这个单点拿序号，在Google Percolator这个事务模型中，就有一个全局的授时服务器（TSO），所有事务都从TSO获取一个时间戳作为自己的序号，因此它一定是单调递增的，当然为了保证可用性，这个单点本身也可以是一个集群，比如TiDB就将PD集群作为TSO。

但是Spanner并不使用全局发号器的方式，因为他有一个黑科技——TrueTime，这是靠硬件实现的，每个数据中心都有一些time master，大多数master都配置了GPS，剩下的少数master配置了原子钟，通过一定的算法与校准，它们的时间与真实的绝对时间几乎完全相同，所有DB会每30秒去向这些服务器校准一次自己的时间，以保证自己的时间也与真实绝对时间几乎完全相同，这就保证了每台DB server的时间与真实绝对时间的误差都在几毫秒内，而传统NTP校准的误差则在几百毫秒，因此TrueTime保证了DB server都几乎接近于准确时间，因此完全不需要全局发号器，因为每台server的时间都几乎相同。

TrueTime是一套API，调用TT.now()则会返回一个[earliest, latest]，表示此时真实的绝对时间最早是什么时候，最晚是什么时候，时间一定落在这个区间内。

3. 事务分类

Spanner将事务分为两类读写事务（Read Write Transaction）与只读事务（Read Only Transaction）。

只读事务又分为

Snapshot Transaction（强读）
Client-chosen Timestap Read（client指定过期的某个timestamp去读取）
Client-chosen Bound Read（client指定一个不能超过的最早timestamp去读取）

只读事务都是基于Snapshot的Transaction，它们都是无锁（lock-free）的。

读写事务中无论读写都会上锁，基于悲观锁。

3. 读写事务（Read Write Transaction）

Spanner并不是所有事务都使用2PC，针对Single Split事务，可以退化为单机事务，使用1PC，在效率上是一种优化，因此对于Single Split与Multiple Split事务，Spanner分别采用了1PC与2PC，下面我们分别来讨论。

Single Split Transaction（1PC）

1PC与2PC本质上并没有区别，都将提交分为了两步走（这里不说两段，只说两步，是为了与二阶段提交中的阶段区分开），第一步是获取锁、写日志，第二步是apply变更、释放锁，唯一的区别是2PC在第一步与第二步之间有一个复杂的决定与通知的过程，要保证所有Split都做出相同的响应：提交或中止。而1PC只是少了中间这个复杂的决定与通知的过程，其他几乎没有区别。

对于Single Split Transaction，其实与一般的单机数据库的事务已经很相似，不过还有一个明显的不同点，那就是Spanner事务模型中，每次Write不是在client API那边执行了SQL就被发送到DB server的，而是全部被缓存在本地，这与MySQL等单机数据库完全不同，对于MySQL，每执行一条Write SQL，都会马上发送到server并且尝试加锁、写日志，而Spanner client会缓存在本地，只有当client调用commit方法时，才会一次性将所有Writes发送到Spanner。由于这种缓存机制，在事务被commit前，都不能读到它自己的任何Writes。

来看一下Spanner的1PC流程：

Client读数据，立即将读取请求发送到Spanner
Spanner收到读取请求，为数据加读锁，加锁时如果发现此数据已经被上了写锁，则不能立即上锁，需要等待上了写锁的事务提交后才能继续上锁
Client写数据，此时只写到本地buffer
Client完成读写，也就是在SDK中调用commit时，会由client将buffer中的所有Writes发到Spanner
Spanner开始获取写锁并写日志
写锁获取完成并写完日志后，再次检查读锁是否还存在（因为可能已经被伤停等待机制给abort掉了），如果不存在，此事务应该abort
主副本（leader replica）使用TrueTime为此次事务生成一个timestamp，作为commit timestamp
Leader replica（读写事务只能发生在Leader）将log复制给其他replica，同时进行commit-wait，因为TrueTime是一段时间区间，是有误差的，为了保证外部一致性，也就是它提交后，对所有服务器，这个事务都是过去时了，才能提交，commit-wait的实际开销并不大，因为在commit-wait的同时也在进行log的复制，其中空转的时间是非常少的，当大多数replica都复制成功后，并且commit-wait结束，可以向client返回事务已经成功commit，同时apply事务变更到状态机并释放锁。

伤停等待（Wound-Wait）

Spanner是不可能出现死锁的，得益于伤停等待机制。

在获取锁的过程中可能会遇到有的记录已经被加上锁，如果被持有的是写锁，则需要等待持有锁的事务commit或abort，如果被持有的是读锁，则使用伤停等待（wound-wait），首先Spanner会进行死锁检测，如果这里不存在死锁，那么事务等待这个读锁释放，如果存在死锁，那么判断目前持有读锁的事务是比自己年轻还是年老，如果比自己年轻，则直接abort这个读锁，如果比自己年老，则需要等待年老事务主动释放锁。伤停等待完全避免了死锁，同时也避免了饿死现象。

Multiple Split Transaction（2PC）

Multiple Split Transaction使用2PC，但是和1PC差别并不大，主要是由于单Paxos Group的事务变成了多Paxos Group事务，需要增加协调者，会增加以下步骤：

client会负责发起2PC，在发送Writes到Spanner时，client会先查找到自己应该分别把Writes发送到哪些服务器，将Writes分别发送给他们，并且client会从这些Leader Replica中选一个作为Coordinator（读写事务只能发生在Leader，因此这里不讨论其他replica）。
在每个Participant成功获取所有写锁后，会生成一个prepare timestamp，然后通过Paxos将log（其中包含了锁），复制到大多数副本，然后将prepare timestamp发送给Coordinator，表示自己ok
Coordinator收到所有Participant的prepare timestamp后，会生成一个commit timestamp，这个timestamp一定会大于所有prepare timestamp，并大于TT.now().latest
Coordinator会在commit-wait结束之后才将commit指令发给Participant

commit-wait局限性

因为选择commit timestamp S 时必须保证 S 大于TT.now().latest，然后真正的提交时间又需要大于 S.latest，如果TrueTime的误差为 ε ，因此这里进行了 2ε 的wait，TrueTime的平均误差是4ms，因此一个Paxos Group每秒吞吐量是 1000 / 2*4 = 125 事务/s，TrueTime误差越小，吞吐量越高。

这里也引发一个思考，由于吞吐量被commit-wait限制，如果不恰当的表设计导致热点（Hotspot），那么大量的读写事务会到达同一个Split，因此会导致每秒吞吐量很低，对于较多读写事务的表，应该特别注意避免热点。

4. 只读事务（Read Only Transaction）

只读事务都基于时间戳，也就是基于MVCC，因此它们都是无锁的（lock-free），其中强读（Strong Read）不需要client提供timestamp，因此Spanner是需要在Replica Leader先获取目前最新数据的timestamp，然后在任何replica读取。除强读之外，其他都可以称作过时读取（Stale Read），都由client指定了想要读取的timestamp或者可以容忍的最早timestamp，因此都不用先经过Leader获取timestamp，可以在任意replica完成。

不过以上3种读取，在完成读取前，replica会先检查自己是否有足够新的数据能够满足读取，如果不够，会向Leader同步。

并不是整个事务周期中只有读取就算是只读事务，而是需要client事先声明开启的这个事务是只读的，否则会被当做读写事务执行。例外情况是，执行不被显式放进事务的单条读取，不需要显式声明，也会被当作只读事务对待。

5. 盲写（Blind Write）

当一个读写事务中没有任何读取，只有写入时，称为盲写，Spanner对于盲写有优化，它不为盲写加排他（exclusive）写锁，加的是共享写锁（share write），共享写锁完全兼容，它们按照commit timestamp排序执行，共享写锁也与读锁兼容，因此不会锁住其他事务的读取，提高并发。

理解Google Spanner(3)：分布式事务原理与实现