@Rays 2018-02-07T11:25:59.000000Z 字数 4277 阅读 2832

LLVM：Swift、Rust、Clang等语言的强大后盾

语言开发

摘要： 在软件开发领域，我们看到一些新的开发语言和改进如雨后春笋般涌现。它们为开发人员在开发速度、安全性、便利性、可移植性和功能上提供了多种选择。这可部分归因于我们具备了构建语言尤其是编译器的新工具，其中首屈一指的就是LLVM。LLVM不仅简化了新语言的创建工作，而且提升了现有语言的发展。本文介绍了LLVM的功能和使用机制，并未来发展做了展望。

作者： Serdar Yegulalp

正文：

在软件开发领域，一些新的开发语言和对已有语言的改进如雨后春笋般涌现。我们看到了Mozilla Rust、Apple Swift, Jetbrains Kotlin及更多语言的推陈出新。这些语言为开发人员在开发速度、安全性、便利性、可移植性和功能上提供了多种选择。

为什么会是当下？其中一个重要原因，就是我们具备了构建语言尤其是编译器的新工具。其中首屈一指的就是LLVM（Low-Level Virtual Machine）。LLVM是一个开源项目，最初是由Swift语言创始人Chris Lattner以伊利诺伊大学的一个研究项目为基础发展而来。

LLVM不仅简化了新语言的创建工作，而且提升了现有语言的发展。它提供了一种工具，自动化了创建语言任务中许多最吃力的部分，包括创建编译器、将输出代码移植到多个平台和架构上，以及编写代码实现异常处理这样的常见语言隐喻（metaphor）。LLVM是自由许可的，这意味着它可作为软件组件自由重用，也可以作为服务自由部署。

如果列出一份使用了LLVM的语言清单，我们能从中看到许多耳熟能详的名字。例如，Apple的Swift语言使用LLVM作为编译器框架，Rust使用LLVM作为工具链的核心组件。此外，很多编译器也提供了LLVM版本。例如，Clang这个C/C++编译器本身就是一个以LLVM为准绳的项目。还有Kotlin，它名义上是一种JVM语言，使用称为Kotlin Native的语言开发，该语言也使用了LLVM编译机器原生代码。

LLVM简介

LLVM本质上是一个使用编程方式创建机器原生代码的软件库。开发人员调用其API，生成一种使用“中间表示”（IR，Intermediate Representation）格式的指令。进而，LLVM将IR编译为独立软件库，或者使用另一种语言的上下文（例如，使用该语言的编译器）对代码执行JIT（即时，just-in-time）编译。

LLVM API提供了一些原语，用于表示开发编程语言中常见结构和模式。例如，几乎所有的语言都具有函数和全局变量的概念。LLVM也将函数和全局变量作为IR的标准元素。这样，开发人员可以直接使用LLVM的实现，并聚焦于自身语言中的独到之处，不再需要花费时间和精力去重造这些特定的轮子。

图1 一个LLVM IR的例子。图右侧显示了一个使用C编写的简单程序，左侧显示了使用Clang编译器转换得到的LLVM IR代码

LLVM：为可移植性而设计

我们通常对C语言的认识，可套用到对LLVM的认识上。我们时常将C语言看成是一种可移植的高层汇编语言，因为C中提供了一些直接映射到系统硬件的结构，并已移植到近乎所有现有的系统架构上。但是作为一种可移植的汇编语言并非C语言的设计目标，这只是由该语言的工作机制所提供的一个副产品。

与此不同，LLVM IR的设计从一开始，就是要成为一种可移植的汇编语言。IR实现可移植性的方式之一，就是提供了独立于任何特定机器架构的原语。例如，整数类型可使用任何所需的位数，甚至大到128位整数，不会受限于机器的最大位宽度。开发人员也无需为匹配某种特定处理器的指令集，考虑如何对输出做精雕细琢。LLVM解决了所有这一切。

如果读者想实地查看LLVM IR的运行情况，推荐访问ELLCC项目网站，并可动手在浏览器中尝试一个将C代码转换为LLVM IR的现场演示。

在编程语言中使用LLVM

LLVM通常作为语言的AOT（预先编译，ahead-of-time）编译器使用。此外，LLVM还支持其它一些功能。

使用LLVM的JIT编译器

在一些情况下，需要代码在运行时直接生成，而不是做预先编译。例如，Julia语言就对代码做JIT编译，因为它看重的是运行速度，并可通过REPL（读取-求值-输出循环，read-eval-print loop）或交互式提示符与用户交互。.NET的开源实现Mono也提供了选项，支持通过LLVM后端方式编译生成原生代码。

Python的高性能科学计算库Numba将设定的Python函数JIT编译为机器代码，也可以对使用了Numba的代码做AOT编译。但是作为一种解释性语言，Python与Julia一样也提供了快速开发。使用JIT编译代码，是对Python交互工作流的一种很好的补充，要优于使用AOT编译。

还有一些非正统的方法，也尝试使用LLVM作为JIT。例如，有方法尝试编译PostgreSQL查询，并实现了性能翻五番。

图2 Numba使用LLVM对科学计算代码做JIT编译，加速了代码的执行。例如，经JIT加速的sum2d函数,要比常规Python代码的执行速度快139倍

使用LLVM做自动代码优化

LLVM不仅将IR编译为原生机器代码，开发人员也可以通过编程方式，指导LLVM使用链接过程对代码做高度精细的优化。这种优化卓有成效，其中涉及内联函数、去除死代码（包括未使用的类型定义和函数参数）和循环展开（loop unrolling）等。

同样，LLVM的强大之处在于无需开发人员自己去实现所有这些功能。LLVM包揽了所有一切，而且开发人员可在需要时关闭这些功能。例如，如果我们考虑牺牲一些性能去给出更小的二进制文件，可以让编译器前端告知LLVM禁止循环展开。

使用LLVM的领域特定语言（DSL）

通常，LLVM用于生成通用语言编译器。但是，LLVM也可用于生成一些高度垂直或排他性DSL。我们甚至可以说，这正是LLVM大显身手之处。因为在使用LLVM创建一种DSL时，无需亲历亲为创建语言中的大量苦差事，并可给出良好的表现。

例如，Emscripten项目使用LLVM IR，并将IR代码转化为JavaScript。这将在理论上支持所有具有LLVM后端的语言导出可运行在浏览器中的代码。尽管Emscripten的长期计划是使用基于LLVM的后端生成WebAssembly，但是该项目很好地展示了LLVM的灵活性。

另一种使用LLVM的方式，是将领域特定的扩展添加到现有的语言中。例如，Nvidia使用LLVM创建了Nvidia CUDA编译器，实现在语言中添加对CUDA的原生支持，并作为所生成的原生代码的一部分做编译，而不是通过随之一起交付的软件库做调用。

在各种语言中使用LLVM

LLVM的通常使用方式，是编码在开发人员顺手的开发语言中。当然，该语言应支持LLVM软件库。

其中，广为采用的C和C++。不少LLVM开发人员二者必取其一，理由是：

LLVM本事就是使用C++编写的。
LLVM的API以C/C++化身（incarnation）提供。
很多语言开发倾向于以C/C++为基础。

当然，选择并不局限于这两种语言。不少语言支持原生地调用C软件库。因此在理论上讲，可以使用任何一种此类语言做LLVM开发。当然，如果语言本身就提供包装了LLVM API的软件库，这样最好。幸运的是，很多语言和运行时都具有这样的软件库，其中包括C#/.NET/Mono、Rust、Haskell、OCAML、Node.js、Go和Python。

需要给出警告的是，部分语言对LLVM的绑定尚不完备。以Python为例。尽管Python提供了多种选择，但每种选择的完备性和实用性各有千秋：

LLVM项目本身就维护了一组到LLVM C API的绑定，但是目前为止已停止进一步的维护。
llvmpy在2015年后就停止维护了。这对于任何一个软件项目都不是一个好消息。考虑到每次LLVM修订版本中的更改数量，对于LLVM而言尤为如此。
llvmlite是Numba开发团队开发的。当前已成为在Python中使用LLVM的一个有力竞争者。但是llvmlite局限于针对Numba的需要，因此提供的功能只是LLVM用户所需功能的一个子集。
llvmcpy意在为C软件库提供最新的、可自动更新的Python绑定，支持使用Python的原生风格访问。llvmcpy依然处于开发的早期阶段，但是已经可以使用LLVM API完成一些基本工作。

如果有兴趣了解如何使用LLVM软件库构建一种语言，可以阅读由LLVM创始人撰写的教程。该教程使用C++和OCAML，一步步引导读者去创建一个名为“Kaleidoscope”的简单语言。进而移植到其它语言中：

Haskell：参考原始教程可直接移植。
Python: 一种方式是严格遵守教程，另一种方式做了大量重写，并提供了交互式命令行。两种方式都使用llvmlite作为到LLVM的绑定。
Rust和Swift：看上去，我们不可避免地要实现将教程语言移植到这两种由LLVM本身创建的语言上。

该教程还有其它一些国家语言的翻译版本，例如使用原始C++和Python的中文教程。

LLVM尚未实现的

我们上面介绍了LLVM提供的很多功能，下面简述一下它目前尚未实现的。

例如，LLVM并不对语法做解析。因为有大量工具可用于完成这个工作，例如lex/yacc、flex/bison和ANTLR。解析必定会从编译中脱离出来，因此毫不奇怪LLVM并未试图去实现该功能。

LLVM也不直接解决大部分针对特定语言的软件文化。例如，如何安装编译器的二进制文件，如何在安装中管理软件包，如何升级工具链等，这都需要开发人员自己去做。

最后也是最重要的一点是，LLVM仍然尚未对部分通用语言成分给出原语。许多语言都具有某种垃圾回收的内存管理方式，或者是作为管理内存的主要方式，或者是作为对RAII（C ++和Rust使用）等策略的附属方式。LLVM并没有提供垃圾收集机制，而是提供了一些实现垃圾回收的工具，支持将代码标记为一些可简化垃圾收集器编写的元数据。

但是，并不排除LLVM可能最终会添加实现垃圾回收的本地机制。LLVM正在以每六个月发布一个主要版本的速度快速发展。鉴于当前许多语言的开发过程是以LLVM为中心的，所以LLVM的开发速度只可能会进一步提升。

查看英文原文： What is LLVM? The power behind Swift, Rust, Clang, and more