jax.checkpoint#

jax.checkpoint(fun, *, prevent_cse=True, policy=None, static_argnums=())[source]#

使 fun 在微分时重新计算内部线性化点。

jax.checkpoint() 装饰器,别名为 jax.remat(),提供了一种在自动微分的上下文中权衡计算时间和内存成本的方法,特别是对于反向模式自动微分,如 jax.grad()jax.vjp(),以及 jax.linearize()

当以反向模式微分函数时,默认情况下,所有线性化点(例如,元素级非线性原语操作的输入)在评估前向传递时存储,以便在后向传递中重用。这种评估策略可能导致高内存成本,甚至在硬件加速器上性能不佳,因为在硬件加速器上,内存访问比 FLOPs 昂贵得多。

另一种评估策略是重新计算(即,重新物化)某些线性化点,而不是存储它们。这种方法可以减少内存使用,但代价是增加计算量。

此函数装饰器生成 fun 的新版本,该版本遵循重新物化策略而不是默认的存储一切策略。也就是说,它返回 fun 的新版本,该版本在微分时,不存储任何中间线性化点。相反,这些线性化点是从函数保存的输入中重新计算的。

请参阅下面的示例。

参数:
  • fun (Callable) – 要更改自动微分评估策略的函数,从默认的存储所有中间线性化点更改为重新计算它们。其参数和返回值应为数组、标量或(嵌套的)标准 Python 容器(元组/列表/字典)。

  • prevent_cse (bool) – 可选的布尔值仅关键字参数,指示是否阻止从微分生成的 HLO 中的公共子表达式消除 (CSE) 优化。这种 CSE 阻止是有代价的,因为它可能会阻碍其他优化,并且因为它可能会在某些后端(尤其是 GPU)上产生高开销。默认值为 True,因为否则,在 jit()pmap() 下,CSE 可能会破坏此装饰器的目的。但在某些设置中,例如在 scan() 中使用时,此 CSE 阻止机制是不必要的,在这种情况下,可以将 prevent_cse 设置为 False。

  • static_argnums (int | tuple[int, ...]) – 可选的整数或整数序列,仅关键字参数,指示要为其专门化跟踪和缓存目的的参数值。将参数指定为静态可以避免跟踪时的 ConcretizationTypeErrors,但代价是更多的重新跟踪开销。请参阅下面的示例。

  • policy (Callable[..., bool] | None | None) – 可选的可调用仅关键字参数。它应该是 jax.checkpoint_policies 的属性之一。可调用对象接受作为输入的类型级别的一阶原语应用程序规范,并返回一个布尔值,指示是否可以将相应的输出值保存为残差(或者如果需要,是否必须在(余)切线计算中重新计算)。

返回:

一个函数(可调用对象),其输入/输出行为与 fun 相同,但是当使用例如 jax.grad()jax.vjp()jax.linearize() 进行微分时,它会重新计算而不是存储中间线性化点,从而可能节省内存,但代价是额外的计算。

返回类型:

Callable

这是一个简单的例子

>>> import jax
>>> import jax.numpy as jnp
>>> @jax.checkpoint
... def g(x):
...   y = jnp.sin(x)
...   z = jnp.sin(y)
...   return z
...
>>> jax.value_and_grad(g)(2.0)
(Array(0.78907233, dtype=float32, weak_type=True), Array(-0.2556391, dtype=float32, weak_type=True))

在这里,无论是否存在 jax.checkpoint() 装饰器,都会产生相同的值。当装饰器不存在时,值 jnp.cos(2.0)jnp.cos(jnp.sin(2.0)) 在前向传递中计算,并存储以供后向传递中使用,因为后向传递需要它们,并且它们仅依赖于原始输入。当使用 jax.checkpoint() 时,前向传递将仅计算原始输出,并且仅原始输入 (2.0) 将被存储用于后向传递。那时,值 jnp.sin(2.0) 将被重新计算,以及值 jnp.cos(2.0)jnp.cos(jnp.sin(2.0))

虽然 jax.checkpoint() 控制哪些值从前向传递存储以在后向传递中使用,但评估函数或其 VJP 所需的总内存量取决于该函数的许多其他内部细节。这些细节包括使用了哪些数值原语、它们是如何组成的、在何处使用了 jit 和控制流原语(如 scan)以及其他因素。

jax.checkpoint() 装饰器可以递归应用,以表达复杂的自动微分重新物化策略。例如

>>> def recursive_checkpoint(funs):
...   if len(funs) == 1:
...     return funs[0]
...   elif len(funs) == 2:
...     f1, f2 = funs
...     return lambda x: f1(f2(x))
...   else:
...     f1 = recursive_checkpoint(funs[:len(funs)//2])
...     f2 = recursive_checkpoint(funs[len(funs)//2:])
...     return lambda x: f1(jax.checkpoint(f2)(x))
...

如果 fun 涉及依赖于参数值的 Python 控制流,则可能需要使用 static_argnums 参数。例如,考虑一个布尔标志参数

from functools import partial

@partial(jax.checkpoint, static_argnums=(1,))
def foo(x, is_training):
  if is_training:
    ...
  else:
    ...

在这里,static_argnums 的使用允许 if 语句的条件依赖于 is_training 的值。static_argnums 的使用代价是在调用之间引入了重新跟踪开销:在示例中,每次使用新的 is_training 值调用 foo 时,都会重新跟踪 foo。在某些情况下,也需要 jax.ensure_compile_time_eval

@partial(jax.checkpoint, static_argnums=(1,))
def foo(x, y):
  with jax.ensure_compile_time_eval():
    y_pos = y > 0
  if y_pos:
    ...
  else:
    ...

作为使用 static_argnums (和 jax.ensure_compile_time_eval) 的替代方法,可能更容易在 jax.checkpoint() 装饰的函数外部计算某些值,然后闭包它们。