Autodidax2，第一部分：再次从零开始的 JAX

Autodidax2，第一部分：从头开始重新学习 JAX#

如果你想了解 JAX 的工作原理，可以尝试阅读源代码。但代码很复杂，而且往往没有充分的理由。本笔记本将一个简化版呈现在你面前，去除了冗余。它是从第一原理出发的 JAX 的最小版本。尽情享用吧！

核心思想：上下文敏感的解释#

JAX 是两件事：

一套基本操作（大致相当于 NumPy API）
一套针对这些基本操作的解释器（编译、AD 等）

在这个 JAX 的最小版本中，我们将从两个基本操作开始，即加法和乘法，然后逐个添加解释器。假设我们有一个用户定义的函数，如下所示：

def foo(x):
  return mul(x, add(x, 3.0))

我们希望能够在不改变其实现的情况下，以不同的方式解释 `foo`：我们希望在具体值上对其进行求值，对其进行微分，将其阶段化到 IR，对其进行编译等等。

我们将这样做。对于这些解释中的每一种，我们将定义一个 `Interpreter` 对象，其中包含处理每个基本操作的规则。我们将使用一个全局上下文变量来跟踪“当前”解释器。面向用户的函数 `add` 和 `mul` 将分派到当前解释器。在程序开始时，当前解释器将是“求值”解释器，它只是在普通的具体数据上求值这些操作。这是到目前为止的所有内容。

from enum import Enum, auto
from contextlib import contextmanager
from typing import Any

# The full (closed) set of primitive operations
class Op(Enum):
  add = auto()  # addition on floats
  mul = auto()  # multiplication on floats

# Interpreters have rules for handling each primitive operation.
class Interpreter:
  def interpret_op(self, op: Op, args: tuple[Any, ...]):
    assert False, "subclass should implement this"

# Our first interpreter is the "evaluating interpreter" which performs ordinary
# concrete evaluation.
class EvalInterpreter:
  def interpret_op(self, op, args):
    assert all(isinstance(arg, float) for arg in args)
    match op:
      case Op.add:
        x, y = args
        return x + y
      case Op.mul:
        x, y = args
        return x * y
      case _:
        raise ValueError(f"Unrecognized primitive op: {op}")

# The current interpreter is initially the evaluating interpreter.
current_interpreter = EvalInterpreter()

# A context manager for temporarily changing the current interpreter
@contextmanager
def set_interpreter(new_interpreter):
  global current_interpreter
  prev_interpreter = current_interpreter
  try:
    current_interpreter = new_interpreter
    yield
  finally:
    current_interpreter = prev_interpreter

# The user-facing functions `mul` and `add` dispatch to the current interpreter.
def add(x, y): return current_interpreter.interpret_op(Op.add, (x, y))
def mul(x, y): return current_interpreter.interpret_op(Op.mul, (x, y))

此时，我们可以使用普通的具体输入调用 `foo` 并查看结果：

print(foo(2.0))

10.0

题外话：前向模式自动微分#

对于我们的第二个解释器，我们将尝试前向模式自动微分（AD）。如果这是你第一次接触前向模式 AD，这里有一个简短的介绍。否则，请跳到“JVP 解释器”部分。

假设我们对 `foo(x)` 在 `x=2.0` 处求值结果的导数感兴趣。我们可以用有限差分来近似它：

print((foo(2.00001) - foo(2.0)) / 0.00001)

7.000009999913458

正如预期的那样，结果接近 7.0。但通过这种方式计算它需要对函数进行两次求值（更不用说舍入误差和截断误差了）。但这里有一个有趣的事情。我们几乎可以用一次求值得到答案：

print(foo(2.00001))

10.0000700001

我们正在寻找的答案 7.0 就在那些不重要的数字里！

这里有一种思考正在发生的事情的方法。传递给 `foo` 的初始参数 `2.00001` 携带两部分数据：“原始”值 2.0 和“切线”值 `1.0`。这个原始-切线对 `2.00001` 的表示是两者的总和，其中切线值乘以一个小的固定 epsilon `1e-5`。对 `foo(2.00001)` 的普通求值会传播这个原始-切线对，产生 `10.0000700001` 作为结果。原始分量和切线分量在比例上清晰分离，因此我们可以将结果直观地解释为原始-切线对 (10.0, 7.0)，忽略末尾约 1e-10 的截断误差。

前向模式微分的想法是做同样的事情，但要精确且显式（直接查看浮点数并不真正可行）。我们将把原始-切线对表示为一个实际的对，而不是将它们都折叠成一个浮点数。对于每个基本操作，我们将有一个规则，描述如何传播这些原始切线对。让我们来计算我们两个基本操作的规则。

加法很简单。考虑 `x + y`，其中 `x = xp + xt * eps` 和 `y = yp + yt * eps`（“p”代表“原始”，“t”代表“切线”）。

 x + y = (xp + xt * eps) + (yp + yt * eps)
       =   (xp + yp)             # primal component
         + (xt + yt) * eps       # tangent component

结果是 `eps` 的一个一阶多项式，我们可以从中读出原始-切线对为 (xp + yp, xt + yt)。

乘法更有趣：

 x * y = (xp + xt * eps) * (yp + yt * eps)
       =    (xp * yp)                        # primal component
          + (xp * yt + xt * yp) * eps        # tangent component
          + (xt * yt)           * eps * eps  # quadratic component, vanishes in the eps->0 limit

现在我们有一个二阶多项式。但当 epsilon 趋近于零时，二次项消失了，我们的原始-切线对就是 `(xp * yp, xp * yt + xt * yp)`。（在我们早先具有有限 `eps` 的示例中，这个项没有消失，这就是为什么我们有 1e-10 的“截断误差”）。

将其放入代码中，我们可以写出加法和乘法的前向 AD 规则，并用它们来表示 `foo`：

from dataclasses import dataclass

# A primal-tangent pair is conventionally called a "dual number"
@dataclass
class DualNumber:
  primal  : float
  tangent : float

def add_dual(x : DualNumber, y: DualNumber) -> DualNumber:
  return DualNumber(x.primal + y.primal, x.tangent + y.tangent)

def mul_dual(x : DualNumber, y: DualNumber) -> DualNumber:
  return DualNumber(x.primal * y.primal, x.primal * y.tangent + x.tangent * y.primal)

def foo_dual(x : DualNumber) -> DualNumber:
  return mul_dual(x, add_dual(x, DualNumber(3.0, 0.0)))

print (foo_dual(DualNumber(2.0, 1.0)))

DualNumber(primal=10.0, tangent=7.0)

这样就奏效了！但是，为了使用加法和乘法的 `_dual` 版本来重写 `foo` 有点繁琐。让我们回到主程序，利用我们的解释器机制来自动完成重写。

JVP 解释器#

我们将设置一个名为 `JVPInterpreter`（“JVP”代表“Jacobian-vector product”）的新解释器，它会传播这些对偶数而不是普通值。`JVPInterpreter` 具有 `add` 和 `mul` 方法，它们作用于对偶数。它们通过调用 `JVPInterpreter.lift` 来按需将常量参数转换为对偶数。在我们上面手动重写的版本中，我们通过将字面量 `3.0` 替换为 `DualNumber(3.0, 0.0)` 来做到这一点。

# This is like DualNumber above except that is also has a pointer to the
# interpreter it belongs to, which is needed to avoid "perturbation confusion"
# in higher order differentiation.
@dataclass
class TaggedDualNumber:
  interpreter : Interpreter
  primal  : float
  tangent : float

class JVPInterpreter(Interpreter):
  def __init__(self, prev_interpreter: Interpreter):
    # We keep a pointer to the interpreter that was current when this
    # interpreter was first invoked. That's the context in which our
    # rules should run.
    self.prev_interpreter = prev_interpreter

  def interpret_op(self, op, args):
    args = tuple(self.lift(arg) for arg in args)
    with set_interpreter(self.prev_interpreter):
      match op:
        case Op.add:
          # Notice that we use `add` and `mul` here, which are the
          # interpreter-dispatching functions defined earlier.
          x, y = args
          return self.dual_number(
              add(x.primal, y.primal),
              add(x.tangent, y.tangent))

        case Op.mul:
          x, y = args
          x = self.lift(x)
          y = self.lift(y)
          return self.dual_number(
              mul(x.primal, y.primal),
              add(mul(x.primal, y.tangent), mul(x.tangent, y.primal)))

  def dual_number(self, primal, tangent):
    return TaggedDualNumber(self, primal, tangent)

  # Lift a constant value (constant with respect to this interpreter) to
  # a TaggedDualNumber.
  def lift(self, x):
    if isinstance(x, TaggedDualNumber) and x.interpreter is self:
      return x
    else:
      return self.dual_number(x, 0.0)

def jvp(f, primal, tangent):
  jvp_interpreter = JVPInterpreter(current_interpreter)
  dual_number_in = jvp_interpreter.dual_number(primal, tangent)
  with set_interpreter(jvp_interpreter):
    result = f(dual_number_in)
  dual_number_out = jvp_interpreter.lift(result)
  return dual_number_out.primal, dual_number_out.tangent

# Let's try it out:
print(jvp(foo, 2.0, 1.0))

# Because we were careful to consider nesting interpreters, higher-order AD
# works out of the box:

def derivative(f, x):
  _, tangent = jvp(f, x, 1.0)
  return tangent

def nth_order_derivative(n, f, x):
  if n == 0:
    return f(x)
  else:
    return derivative(lambda x: nth_order_derivative(n-1, f, x), x)

(10.0, 7.0)

print(nth_order_derivative(0, foo, 2.0))

10.0

print(nth_order_derivative(1, foo, 2.0))

7.0

print(nth_order_derivative(2, foo, 2.0))

2.0

# The rest are zero because `foo` is only a second-order polymonial
print(nth_order_derivative(3, foo, 2.0))

0.0

print(nth_order_derivative(4, foo, 2.0))

0.0

有一些值得讨论的细微之处。首先，你如何知道某事物相对于微分是否是常数？人们很容易说“当且仅当它不是对偶数时，它才是常数”。但实际上，由不同 JVPInterpreter 创建的对偶数在我们要处理的 JVPInterpreter 方面也需要被视为常数。这就是为什么我们在 `JVPInterpreter.lift` 中需要 `x.interpreter is self` 检查。这在存在多个 JVPInterpreter 作用域的更高阶微分中会出现。一种你意外地将来自不同解释器的对偶数解释为非常数的错误，在文献中通常被称为“扰动混淆”。这里有一个例子程序，如果我们没有在 `JVPInterpreter.lift` 中添加 `and x.interpreter is self` 检查，就会给出错误答案。

def f(x):
  # g is constant in its (ignored) argument `y`. Its derivative should be zero
  # but our AD will mess it up if we don't distinguish perturbations from
  # different interpreters.
  def g(y):
    return x
  should_be_zero = derivative(g, 0.0)
  return mul(x, should_be_zero)

print(derivative(f, 0.0))

0.0

另一个细微之处：`JVPInterpreter.add` 和 `JVPInterpreter.mul` 描述了对偶数上的加法和乘法，这些都是相对于原始分量和切线分量上的加法和乘法。但我们不使用普通的 `+` 和 `*` 来实现这一点。相反，我们使用自己的 `add` 和 `mul` 函数，它们会分派到当前解释器。在调用它们之前，我们将当前解释器设置为前一个解释器，即在调用 `JVPInterpreter` 时是当前解释器。如果我们不这样做，我们将陷入无限递归，`add` 和 `mul` 会无休止地分派到 `JVPInterpreter`。使用我们自己的 `add` 和 `mul` 而不是普通的 `+` 和 `*` 的优点是，这意味着我们可以嵌套这些解释器并进行更高阶的 AD。

此时你可能会想：我们是否只是重新发明了运算符重载？Python 将中缀运算符 `+` 和 `*` 重载为分派到参数的 `__add__` 和 `__mul__`。我们能否直接使用该机制而不是整个解释器业务？是的，实际上。事实上，早期的自动微分（AD）文献使用“运算符重载”一词来描述这种 AD 实现风格。有一个细节是我们不能完全依赖 Python 内置的重载，因为那只允许我们重载少数内置的中缀运算符，而最终我们希望重载 numpy 级别的操作，如 `sin` 和 `cos`。所以我们需要自己的机制。

但还有一个更重要的区别：我们的分派是基于上下文的，而传统的 Python 风格的重载是基于数据的。这实际上是 JAX 的一个最新发展。JAX 的早期版本更像是传统的数据驱动重载。一个操作的解释器（在 JAX 术语中是“trace”）会根据附加到该操作参数的数据来选择。我们逐渐使解释器分派决策更多地依赖于上下文而不是数据（全阶段化 [链接]，无栈 [链接]）。选择上下文驱动解释而不是数据驱动解释的原因是它使实现更简单。

尽管如此，我们也希望利用 Python 的内置重载机制。这样，我们就可以使用中缀运算符 `+` 和 `*` 的语法便利性，而不是写出 `add(..)` 和 `mul(..)`。但我们现在暂时将这个问题搁置。

3. 阶段化为无类型 IR#

到目前为止我们看到的两个程序转换——求值和 JVP——都从上到下遍历输入程序。它们按与普通求值相同的顺序逐个访问操作。自上而下的转换一个方便之处在于它们可以急切地或“在线”地实现，这意味着我们可以从上到下求值程序，并在进行时执行必要的转换。我们从不一次性查看整个程序。

但并非所有转换都如此。例如，死代码消除需要从下到上遍历，在向上移动时收集使用统计信息，并消除其结果没有使用的纯操作。另一个从下到上的转换是 AD 转置，我们用它来实现反向模式 AD。对于这些，我们需要首先将程序“阶段化”到一个 IR（内部表示）中，一个表示程序的 C 数据结构，然后我们可以按任意顺序遍历它。构建这个 IR（从 Python 程序）将是我们的第三个也是最后一个解释器的目标。

首先，让我们定义 IR。我们将从一个无类型的 ANF IR 开始。一个函数（我们在 JAX 中称 IR 函数为“jaxprs”）将包含一个形式参数列表，一个操作列表，以及一个返回值。操作的每个参数都必须是一个“原子”，即变量或字面量。函数的返回值也是一个原子。

Var = str           # Variables are just strings in this untyped IR
Atom = Var | float  # Atoms (arguments to operations) can be variables or (float) literals

# Equation - a single line in our IR like `z = mul(x, y)`
@dataclass
class Equation:
  var  : Var         # The variable name of the result
  op   : Op          # The primitive operation we're applying
  args : tuple[Atom] # The arguments we're applying the primitive operation to

# We call an IR function a "Jaxpr", for "JAX expression"
@dataclass
class Jaxpr:
  parameters : list[Var]      # The function's formal parameters (arguments)
  equations  : list[Equation] # The body of the function, a list of instructions/equations
  return_val : Atom           # The function's return value

  def __str__(self):
    lines = []
    lines.append(', '.join(b for b in self.parameters) + ' ->')
    for eqn in self.equations:
      args_str = ', '.join(str(arg) for arg in eqn.args)
      lines.append(f'  {eqn.var} = {eqn.op}({args_str})')
    lines.append(self.return_val)
    return '\n'.join(lines)

要从 Python 函数构建 IR，我们定义一个 `StagingInterpreter`，它接受每个操作并将它们添加到我们迄今为止看到的所有操作的增长列表中：

class StagingInterpreter(Interpreter):
  def __init__(self):
    self.equations = []         # A mutable list of all the ops we've seen so far
    self.name_counter = 0  # Counter for generating unique names

  def fresh_var(self):
    self.name_counter += 1
    return "v_" + str(self.name_counter)

  def interpret_op(self, op, args):
    binder = self.fresh_var()
    self.equations.append(Equation(binder, op, args))
    return binder

def build_jaxpr(f, num_args):
  interpreter = StagingInterpreter()
  parameters = tuple(interpreter.fresh_var() for _ in range(num_args))
  with set_interpreter(interpreter):
    result = f(*parameters)
  return Jaxpr(parameters, interpreter.equations, result)

现在我们可以为 Python 程序构造一个 IR 并打印出来：

print(build_jaxpr(foo, 1))

v_1 ->
  v_2 = Op.add(v_1, 3.0)
  v_3 = Op.mul(v_1, v_2)
v_3

我们也可以通过编写一个显式解释器来逐个遍历操作，从而求值我们的 IR：

def eval_jaxpr(jaxpr, args):
  # An environment mapping variables to values
  env = dict(zip(jaxpr.parameters, args))
  def eval_atom(x): return env[x] if isinstance(x, Var) else x
  for eqn in jaxpr.equations:
    args = tuple(eval_atom(x) for x in eqn.args)
    env[eqn.var] = current_interpreter.interpret_op(eqn.op, args)
  return eval_atom(jaxpr.return_val)

print(eval_jaxpr(build_jaxpr(foo, 1), (2.0,)))

10.0

我们已将此解释器编写为使用 `current_interpreter.interpret_op`，这意味着我们已完成了一个完整的往返：可解释的 Python 程序到 IR 到可解释的 Python 程序。由于结果是“可解释的”，我们可以再次对其进行微分，或将其阶段化，或进行任何我们喜欢的操作：

print(jvp(lambda x: eval_jaxpr(build_jaxpr(foo, 1), (x,)), 2.0, 1.0))

(10.0, 7.0)

接下来...

本教程第一部分到此结束。我们完成了两个基本操作、三个解释器以及将它们结合在一起的跟踪机制。在下一部分中，我们将添加浮点数以外的类型、错误处理、编译、反向模式 AD 和更高阶的基本操作。请注意，第二部分结构不同。我们没有试图遵循一个既遵循代码依赖（例如，数据结构需要在其被使用之前定义）又遵循教学依赖（概念需要在其实现之前引入）的自上而下的顺序，而是采用一个可以按任何顺序访问的单个文件。