TLA+和并发系统正确性验证 TLA+介绍 TLA+应用示例 并发系统设计正确性验证

TLA+(WIKI官网)是一门领域特定语言,主要用于数理逻辑计算和并发系统的正确性验证。TLA+中的TLA代表的是“行为时序逻辑(Temporal Logic of Actions)”,Action 是纯函数;“+”代表“Data Logic”。这是由 Dr. Lamport所提出的学说,他也因此获得了2013年图灵奖。Lamport在分布式计算和并发系统领域研究40多年,发布了180多篇高价值论文,是有志于此领域的必读材料。官网提供了大量的学习资源,另外Hillel Wayne写了一个很棒的入门教程

TLA+利用高中或者大学学到的一些简单的数学知识(时序逻辑和数据逻辑),就可以发现程序中的错误,而这些错误用计算机来跑很长时间也可能不会发现。

作为一门领域特定语言,TLA+语法简单,基础数据对象只有Set、Tuple、Function(这并不是其他语言中的函数,可以理解成Python的Dict或Java的hashmap)几种。剩下的语法都是数学逻辑知识,不过这也是其中最困难的部分,就是用抽象的思维来思考,用数学的方式来思考。数学本身不会让程序运行得更有效率,但能让程序更逻辑严谨。TLA+已在航空航天、微软、亚马逊等实际系统中起到关键作用。

此外,为了便于使用,Lamport开发了PlusCal语言。PlusCal语言风格与C/Pascal语言类似,对传统语言出身的软件工程师对更加友好。在TLA+开发集成环境(TLA+ Toolbox)中,PlusCal会自动翻译成TLA+并运行。

本文不尝试讲解TLA+和PlusCal基础语法和设计方法,因为这方面官网提供了语言讲解、教学视频、代码示例、cheatsheet等等丰富资源。本文主要想通过2个示例来展示TLA+的优雅和强大,让大家感受到TLA+的魅力所在。

TLA+应用示例

看下面这题,如果用TLA+来解题,应该该如何实现?

在电影“虎胆龙威3-纽约大劫案”中,布鲁斯·威利斯和杰里米·艾恩斯遇到这样一个难题:给他们一个3加仑小壶和一个5加仑的大壶,要求在5加仑大壶里准确装入4加仑的水。

本质上,TLA+(行为时序逻辑)描述的是一个状态机,每一个时序(Temporal Logic)下都是一个特定状态(action),状态的跳变只依赖于自身(即纯函数的含义)。

本题中,状态机初始状态为小壶和大壶都为空;此后存在6种状态:小壶倒空、大壶倒空、小壶倒满、大壶倒满、小壶倒入大壶、大壶倒入小壶,状态机的下一个状态必为这6个状态中的一个。把如上分析转化为TLA+描述(如下):

TLA+和并发系统正确性验证
TLA+介绍
TLA+应用示例
并发系统设计正确性验证

设置不变量(invariant):big = 4, TLA+会遍历所有状态可能性,并找到答案(如下):

START(大壶水为0加仑)->{big:0,small:0} (初始状态)-> {big:5, small:0}(倒满大壶)-> {big:2, small:3}(大壶导入小壶)-> {big:2, small:0}(倒空小壶)-> {big:0, small:2}(大壶倒入小壶)-> {big:5, small:2}(倒满大壶)-> {big:4, small:3}(大壶导入小壶)->END(大壶水为4加仑)

TLA+和并发系统正确性验证
TLA+介绍
TLA+应用示例
并发系统设计正确性验证

并发系统设计正确性验证

cache = {}
def increment(id):
    x = cache.get(id, None)
    if x is None:
        x = database.read(id)
        cache[id] = x
    
    x = x + 1
    database.write(id, x)
    cache[id] = x

上面一段Python代码,increment功能为对数据库(database)的一个字段值加一后再存入数据库中,为了优化数据库的读效率,在数据库上加了一层缓存(cache)。

在并发环境下,这段代码实现是有问题的,你能看的出来么?如何证明或验证此并发程序的正确性?

把上面的python代码转成PlusCal描述,代码实现如下:

TLA+和并发系统正确性验证
TLA+介绍
TLA+应用示例
并发系统设计正确性验证

所谓正确性验证,用数学的语言描述就是保证不变性。本例的一个不变性就是要保证数据库的一致性,换句话说,如果有N个进程并发执行increment(id),其值应该增加N。用TLA+描述如下:

 DBConsistent == (A i in 1..N: pc[i] = "Done") => database = N

运行可见不变量DBConsistent遭违反(如下图),也证明了此并发程序存在bug。而且在Error-Trace中给出了违例的详细步骤和原因:如果1个进程A已执行完(Done)时,另一个进程B执行到状态t3,此时B进程中的x为0,但实际上数据库(database)和cache中的值已经为1了。

TLA+和并发系统正确性验证
TLA+介绍
TLA+应用示例
并发系统设计正确性验证