外部回调

外部回调#

本教程概述了如何使用各种回调函数，这些函数允许 JAX 运行时在主机上执行 Python 代码。JAX 回调的例子包括 jax.pure_callback、jax.experimental.io_callback 和 jax.debug.callback。即使在 JAX 变换（包括 jit()、vmap()、grad()）下运行，你也可以使用它们。

为什么使用回调？#

回调例程是一种在运行时执行主机端代码的方式。举一个简单的例子，假设你想在计算过程中打印某个变量的值。使用简单的 Python print() 语句，它看起来是这样：

import jax

@jax.jit
def f(x):
  y = x + 1
  print("intermediate value: {}".format(y))
  return y * 2

result = f(2)

intermediate value: JitTracer<~int32[]>

打印出来的不是运行时值，而是跟踪时（trace-time）的抽象值（如果你不熟悉 JAX 中的跟踪，可以在跟踪中找到一个很好的入门介绍）。

要在运行时打印该值，你需要一个回调，例如 jax.debug.print()（你可以在调试简介中了解更多关于调试的信息）。

@jax.jit
def f(x):
  y = x + 1
  jax.debug.print("intermediate value: {}", y)
  return y * 2

result = f(2)

intermediate value: 3

这是通过将 y 的运行时值作为 CPU jax.Array 传回主机进程，然后主机可以打印它来实现的。

回调的种类#

在 JAX 的早期版本中，只有一种回调可用，通过 jax.experimental.host_callback() 实现。host_callback 例程存在一些缺陷，现在已被弃用，取而代之的是为不同情况设计的几种回调。

jax.pure_callback()：适用于纯函数：即没有副作用的函数。参阅探索 pure_callback。
jax.experimental.io_callback()：适用于不纯函数：例如读写磁盘数据的函数。参阅探索 io_callback。
jax.debug.callback()：适用于应反映编译器执行行为的函数。参阅探索 debug.callback。

（你之前使用的 jax.debug.print() 函数是 jax.debug.callback() 的一个包装器）。

从用户的角度来看，这三种回调函数主要区别在于它们允许哪些变换和编译器优化。

回调函数	支持返回值	`jit`	`vmap`	`grad`	`scan`/`while_loop`	保证执行
`jax.pure_callback()`	✅	✅	✅	❌¹	✅	❌
`jax.experimental.io_callback()`	✅	✅	✅/❌²	❌	✅³	✅
`jax.debug.callback()`	❌	✅	✅	✅	✅	❌

¹ jax.pure_callback 可以与 custom_jvp 一起使用，使其与自动微分兼容

² jax.experimental.io_callback 仅当 ordered=False 时才与 vmap 兼容。

³ 请注意，对 io_callback 进行 scan/while_loop 的 vmap 操作具有复杂的语义，并且其行为在未来版本中可能会发生变化。

探索 `pure_callback`#

jax.pure_callback() 通常是你想要在主机端执行纯函数时使用的回调函数：即没有副作用的函数（例如打印值、从磁盘读取数据、更新全局状态等）。

你传递给 jax.pure_callback() 的函数实际上不一定是纯函数，但它会被 JAX 的变换和高阶函数假定为纯函数，这意味着它可能会被静默地省略或多次调用。

import jax
import jax.numpy as jnp
import numpy as np

def f_host(x):
  # call a numpy (not jax.numpy) operation:
  return np.sin(x).astype(x.dtype)

def f(x):
  result_shape = jax.ShapeDtypeStruct(x.shape, x.dtype)
  return jax.pure_callback(f_host, result_shape, x, vmap_method='sequential')

x = jnp.arange(5.0)
f(x)

Array([ 0.       ,  0.841471 ,  0.9092974,  0.14112  , -0.7568025],      dtype=float32)

因为 pure_callback 可以被省略或重复，它与 jit 等变换以及 scan 和 while_loop 等高阶原语开箱即用兼容：

jax.jit(f)(x)

Array([ 0.       ,  0.841471 ,  0.9092974,  0.14112  , -0.7568025],      dtype=float32)

def body_fun(_, x):
  return _, f(x)
jax.lax.scan(body_fun, None, jnp.arange(5.0))[1]

Array([ 0.       ,  0.841471 ,  0.9092974,  0.14112  , -0.7568025],      dtype=float32)

因为我们在 pure_callback 函数调用中指定了 vmap_method，它也将与 vmap 兼容

jax.vmap(f)(x)

Array([ 0.       ,  0.841471 ,  0.9092974,  0.14112  , -0.7568025],      dtype=float32)

然而，由于 JAX 无法内省回调的内容，pure_callback 具有未定义的自动微分语义

jax.grad(f)(x)

ValueError: Pure callbacks do not support JVP. Please use `jax.custom_jvp` to use callbacks while taking gradients.

有关 pure_callback 与 jax.custom_jvp() 结合使用的示例，请参阅下方的*示例：结合 pure_callback 和 custom_jvp*。

根据设计，传递给 pure_callback 的函数被视为没有副作用：这样做的结果是，如果函数的输出未被使用，编译器可能会完全消除该回调。

def print_something():
  print('printing something')
  return np.int32(0)

@jax.jit
def f1():
  return jax.pure_callback(print_something, np.int32(0))
f1();

printing something

@jax.jit
def f2():
  jax.pure_callback(print_something, np.int32(0))
  return 1.0
f2();

在 f1 中，回调的输出被用作函数的返回值，因此回调被执行，我们看到了打印的输出。另一方面，在 f2 中，回调的输出未被使用，因此编译器注意到这一点并消除了函数调用。对于没有副作用的函数的回调，这些是正确的语义。

`pure_callback` 和异常#

在 JAX 变换的上下文中，Python 运行时异常应被视为副作用：这意味着在 pure_callback 中故意引发错误会破坏 API 约定，并且由此产生的程序的行为是未定义的。特别是，此类程序终止的方式通常取决于后端，并且该行为的细节在未来版本中可能会发生变化。

此外，将不纯函数传递给 pure_callback 可能会在 jax.jit() 或 jax.vmap() 等变换期间导致意外行为，因为 pure_callback 的变换规则是在回调函数是纯函数的假设下定义的。以下是一个不纯回调在 vmap 下出现意外行为的简单示例：

import jax
import jax.numpy as jnp

def raise_via_callback(x):
  def _raise(x):
    raise ValueError(f"value of x is {x}")
  return jax.pure_callback(_raise, x, x)

def raise_if_negative(x):
  return jax.lax.cond(x < 0, raise_via_callback, lambda x: x, x)

x_batch = jnp.arange(4)

[raise_if_negative(x) for x in x_batch]  # does not raise

jax.vmap(raise_if_negative)(x_batch)  # ValueError: value of x is 0

为了避免这种以及类似的意外行为，我们建议不要尝试使用 pure_callback 来引发运行时错误。

探索 `io_callback`#

与 jax.pure_callback() 相反，jax.experimental.io_callback() 明确地旨在与不纯函数一起使用，即确实有副作用的函数。

例如，这里是一个指向全局主机端 numpy 随机生成器的回调。这是一种不纯操作，因为在 numpy 中生成随机数的副作用是随机状态会被更新（请注意，这只是 io_callback 的一个玩具示例，不一定是 JAX 中生成随机数的推荐方式！）。

from jax.experimental import io_callback
from functools import partial

global_rng = np.random.default_rng(0)

def host_side_random_like(x):
  """Generate a random array like x using the global_rng state"""
  # We have two side-effects here:
  # - printing the shape and dtype
  # - calling global_rng, thus updating its state
  print(f'generating {x.dtype}{list(x.shape)}')
  return global_rng.uniform(size=x.shape).astype(x.dtype)

@jax.jit
def numpy_random_like(x):
  return io_callback(host_side_random_like, x, x)

x = jnp.zeros(5)
numpy_random_like(x)

generating float32[5]

Array([0.6369617 , 0.26978672, 0.04097353, 0.01652764, 0.8132702 ],      dtype=float32)

io_callback 默认与 vmap 兼容

jax.vmap(numpy_random_like)(x)

generating float32[]
generating float32[]
generating float32[]
generating float32[]
generating float32[]

Array([0.91275555, 0.60663575, 0.72949654, 0.543625  , 0.9350724 ],      dtype=float32)

但是请注意，这可能会以任意顺序执行映射的回调。因此，例如，如果你在 GPU 上运行此代码，映射输出的顺序在不同运行之间可能会有所不同。

如果保留回调的顺序很重要，你可以设置 ordered=True，在这种情况下，尝试进行 vmap 将引发错误。

@jax.jit
def numpy_random_like_ordered(x):
  return io_callback(host_side_random_like, x, x, ordered=True)

jax.vmap(numpy_random_like_ordered)(x)

ValueError: Cannot `vmap` ordered IO callback.

另一方面，scan 和 while_loop 与 io_callback 一起工作，无论是否强制排序。

def body_fun(_, x):
  return _, numpy_random_like_ordered(x)
jax.lax.scan(body_fun, None, jnp.arange(5.0))[1]

generating float32[]
generating float32[]
generating float32[]
generating float32[]
generating float32[]

Array([0.81585354, 0.0027385 , 0.8574043 , 0.03358557, 0.72965544],      dtype=float32)

与 pure_callback 类似，如果 io_callback 被传递微分变量，则在自动微分下会失败。

jax.grad(numpy_random_like)(x)

ValueError: IO callbacks do not support JVP.

然而，如果回调不依赖于微分变量，它将执行。

@jax.jit
def f(x):
  io_callback(lambda: print('hello'), None)
  return x

jax.grad(f)(1.0);

hello

与 pure_callback 不同，编译器在这种情况下不会移除回调的执行，即使回调的输出在后续计算中未被使用。

探索 `debug.callback`#

pure_callback 和 io_callback 都对它们调用的函数的纯度施加了一些假设，并在各种方面限制了 JAX 变换和编译机制可能执行的操作。debug.callback 基本上对回调函数不作任何假设，因此回调的行为精确地反映了 JAX 在程序执行过程中正在做的事情。此外，debug.callback 不能向程序返回任何值。

from jax import debug

def log_value(x):
  # This could be an actual logging call; we'll use
  # print() for demonstration
  print("log:", x)

@jax.jit
def f(x):
  debug.callback(log_value, x)
  return x

f(1.0);

log: 1.0

调试回调与 vmap 兼容。

x = jnp.arange(5.0)
jax.vmap(f)(x);

log: 0.0
log: 1.0
log: 2.0
log: 3.0
log: 4.0

并且还兼容 grad 和其他自动微分变换。

jax.grad(f)(1.0);

log: 1.0

这使得 debug.callback 比 pure_callback 或 io_callback 在通用调试方面更有用。

示例：结合 `pure_callback` 和 `custom_jvp`#

利用 jax.pure_callback() 的一种强大方式是将其与 jax.custom_jvp 结合使用。（有关 jax.custom_jvp() 的更多详细信息，请参阅JAX 可变换 Python 函数的自定义导数规则）。

假设你想为目前在 jax.scipy 或 jax.numpy 包装器中尚不可用的 scipy 或 numpy 函数创建一个 JAX 兼容的包装器。

在这里，我们将考虑为第一类贝塞尔函数创建一个包装器，该函数可在 scipy.special.jv 中找到。你可以首先定义一个直接的 pure_callback()。

import jax
import jax.numpy as jnp
import scipy.special

def jv(v, z):
  v, z = jnp.asarray(v), jnp.asarray(z)

  # Require the order v to be integer type: this simplifies
  # the JVP rule below.
  assert jnp.issubdtype(v.dtype, jnp.integer)

  # Promote the input to inexact (float/complex).
  # Note that jnp.result_type() accounts for the enable_x64 flag.
  z = z.astype(jnp.result_type(float, z.dtype))

  # Wrap scipy function to return the expected dtype.
  _scipy_jv = lambda v, z: scipy.special.jv(v, z).astype(z.dtype)

  # Define the expected shape & dtype of output.
  result_shape_dtype = jax.ShapeDtypeStruct(
      shape=jnp.broadcast_shapes(v.shape, z.shape),
      dtype=z.dtype)

  # Use vmap_method="broadcast_all" because scipy.special.jv handles broadcasted inputs.
  return jax.pure_callback(_scipy_jv, result_shape_dtype, v, z, vmap_method="broadcast_all")

这使我们能够从已变换的 JAX 代码中调用 scipy.special.jv()，包括通过 jit() 和 vmap() 变换时。

from functools import partial
j1 = partial(jv, 1)
z = jnp.arange(5.0)

print(j1(z))

[ 0.          0.44005057  0.5767248   0.33905897 -0.06604332]

这是使用 jit() 的相同结果

print(jax.jit(j1)(z))

[ 0.          0.44005057  0.5767248   0.33905897 -0.06604332]

再次，这是使用 vmap() 的相同结果

print(jax.vmap(j1)(z))

[ 0.          0.44005057  0.5767248   0.33905897 -0.06604332]

然而，如果你调用 grad()，你将得到一个错误，因为该函数没有定义自动微分规则。

jax.grad(j1)(z)

ValueError: Pure callbacks do not support JVP. Please use `jax.custom_jvp` to use callbacks while taking gradients.

让我们为此定义一个自定义梯度规则。查看第一类贝塞尔函数的定义，你会发现关于参数 z 的导数有一个相对简单的递推关系。

\[\begin{split} d J_\nu(z) = \left\{ \begin{eqnarray} -J_1(z),\ &\nu=0\\ [J_{\nu - 1}(z) - J_{\nu + 1}(z)]/2,\ &\nu\ne 0 \end{eqnarray}\right. \end{split}\]

关于 \(\nu\) 的梯度更复杂，但由于我们将 v 参数限制为整数类型，为了本例的目的，你无需担心它的梯度。

你可以使用 jax.custom_jvp() 为你的回调函数定义此自动微分规则

jv = jax.custom_jvp(jv)

@jv.defjvp
def _jv_jvp(primals, tangents):
  v, z = primals
  _, z_dot = tangents  # Note: v_dot is always 0 because v is integer.
  jv_minus_1, jv_plus_1 = jv(v - 1, z), jv(v + 1, z)
  djv_dz = jnp.where(v == 0, -jv_plus_1, 0.5 * (jv_minus_1 - jv_plus_1))
  return jv(v, z), z_dot * djv_dz

现在，计算你函数的梯度将正确工作。

j1 = partial(jv, 1)
print(jax.grad(j1)(2.0))

-0.06447162

此外，由于我们已经根据 jv 本身定义了你的梯度，JAX 的架构意味着你可以免费获得二阶和更高阶的导数。

jax.hessian(j1)(2.0)

Array(-0.4003078, dtype=float32, weak_type=True)

请记住，尽管这一切在 JAX 中都能正常工作，但每次调用基于回调的 jv 函数都会导致输入数据从设备传递到主机，并将 scipy.special.jv() 的输出从主机传回设备。

在 GPU 或 TPU 等加速器上运行时，这种数据移动和主机同步每次调用 jv 时都可能导致显著的开销。

然而，如果你在单个 CPU 上运行 JAX（其中“主机”和“设备”在同一硬件上），JAX 通常会以快速、零拷贝的方式进行此数据传输，使这种模式成为扩展 JAX 功能的一种相对直接的方式。

外部回调

目录

外部回调#

为什么使用回调？#

回调的种类#

探索 pure_callback#

pure_callback 和异常#

探索 io_callback#

探索 debug.callback#

示例：结合 pure_callback 和 custom_jvp#

探索 `pure_callback`#

`pure_callback` 和异常#

探索 `io_callback`#

探索 `debug.callback`#

示例：结合 `pure_callback` 和 `custom_jvp`#