使用 Pallas 编写 TPU 内核

使用 Pallas 编写 TPU 内核#

本页重点介绍尝试在 Google TPU 上运行 Pallas 内核时重要的细节。首先，TPU 后端仍处于实验阶段，并且仅接受 JAX NumPy 的子集。此外，为 TPU 编写高性能代码可能需要仔细考虑硬件的本机功能。虽然许多对于硬件来说不自然的模式将被接受，但它们最终可能需要软件模拟，并可能减慢计算速度。

警告

此功能仍应被视为实验性的，因为工作仍在进行中（尤其是在改进错误消息方面）。

注意

虽然此处描述的所有功能都是实验性的，但我们仍然非常重视保持其正确性。因此，在尝试编写 TPU 内核时，可能会经常看到“未实现”错误。但是，如果内核被编译器接受，则它必须返回预期的结果。

如果您看到意外的输出，请将它们与传递 interpret=True 给 pallas_call 的内核运行进行比较。如果结果不同，请提交错误报告。

什么是 TPU？#

TPU 是 Google 开发的硬件加速器。您可以将 TPU 视为 GPU，但专门用于机器学习工作负载。因此，它们的架构差异很大。但是，我们相信 Pallas 可以让您轻松开始编写 TPU 内核，即使您没有完全理解底层硬件。话虽如此，充分理解硬件肯定会让编写高性能内核更容易。

简而言之，TPU 和 GPU 之间的主要区别在于 TPU 是具有非常宽的向量寄存器（有点像 CPU！）的顺序机器。同时，它们允许软件在后台调度某些操作，使其相对于主指令流异步执行。这包括 HBM 内存访问（无法直接发出，但必须由 DMA 子单元预取到内存层次结构的较低级别）、矩阵乘法（由 MXU 单元支持）或矩阵转置和置换（由 XLU 单元支持）等。

如果您有兴趣详细了解 TPU 架构，我们建议您阅读多年来发表的一系列论文。虽然其中许多论文讨论了特定的 TPU 代，但其中描述的许多想法也适用于后代。

值得注意的属性和限制#

`BlockSpec`s 和网格迭代#

BlockSpecs（参见 BlockSpec，又名如何将输入分块）在 Pallas 中通常按预期运行 — 内核主体的每次调用都可以访问输入的切片，并且旨在初始化输出的切片。

注意

并非所有块形状都受支持。在 TPU 上，仅支持秩至少为 1 的块: 。此外，您的块形状的最后两个维度必须分别可被 8 和 128 整除，或者等于整个数组的相应维度。

Pallas TPU 内核的一个有趣的方面是它们处理内存空间的方式：虽然 pallas_call 的输入通常驻留在 HBM（主 TPU 内存）中，但传递到内核主体的引用将指向内存层次结构中较低级别的缓冲区（VMEM 或 SMEM）。这使得内核主体能够以非常高的速度写入和读取它们，而与 HBM 的所有通信（延迟非常高）都由编译器处理并与计算重叠。

更重要的是，与 GPU 相比，TPU 实际上是高度顺序的机器。因此，网格通常不是并行处理的，而是按字典顺序顺序处理的（尽管有关例外情况，请参阅多核 TPU 配置部分）。这解锁了一些有趣的功能

当两个（按字典顺序）连续的网格索引使用输入的相同切片时，第二个迭代的 HBM 传输将被跳过，因为数据已经可用。
内核主体的多次调用可以写入输出的相同切片，而没有任何竞争条件的风险。但是，我们确实要求所有写入特定切片的调用都是连续的。

输出上的“连续”限制通常意味着网格维度的一些前缀总是改变调用需要访问的输出切片，而对于剩余的后缀，输出窗口保持不变。

例如，在实现矩阵乘法的 Pallas TPU 内核时，通常会使用 3 维网格：前两个维度对应于沿左操作数的第一个轴和第二个操作数的第二个轴进行切片。第三个也是最后一个网格轴将平铺归约维度。对应于归约维度的网格轴必须是最后一个，因为输出窗口不沿此轴变化。然后，输出引用可以用作部分结果的累加器。

注意

对于如此低级别的内存层次结构，VMEM 相当大（16MB+），这使得可以使用较大的窗口大小。而且，通常情况下，窗口大小越大，最终的硬件利用率就越高。但是，可以指定一个窗口大小，该窗口大小（连同容纳溢出的向量寄存器所需的空间）超过了 VMEM 的大小。在这种情况下，您可能会看到一个低级编译器错误消息，抱怨内存不足错误。

数组布局#

数组的维度顺序在 Pallas 中是有意义的。在 JAX 程序中，jax.jit 内部的中间数组的顺序通常对性能没有影响，因为编译器可以自由地重新排列它们。但是，由于 Pallas 旨在公开更低级别的功能，因此维度顺序可能会对生成的代码质量产生重大影响。

TPU 在 2D 向量寄存器上执行大部分计算，对于 32 位值，其大小通常为 8x128（截至 TPU v6）。当从 VMEM 加载向量值到寄存器时（例如 x = x_ref[...]），数组的最后两个维度将被平铺到寄存器中。Pallas 将仅考虑将中间数组的最后两个维度映射到 8x128 向量寄存器维度（分别为子通道和通道）。

这是一个图形示例，说明如何使用 6 个 8x128 平铺来平铺 12x320 数组

平铺布局对内核编写者有几个重要的影响

数组的最后两个轴的处理方式与其他轴不同。例如，当涉及最后两个轴时，归约、重塑和转置通常更昂贵。某些涉及最后两个维度的重塑不受支持，并且会导致编译器错误，但对于其他维度来说是“免费”的，并且在编译时执行。
虽然有时不可避免，但在最后两个轴中使用单例维度通常是浪费的，因为它们将占用整个平铺维度中的 1 个元素。消耗过多的寄存器也可能导致寄存器溢出到 VMEM 中，从而降低内核性能。
与上述观点相关，所有向量计算都填充到平铺大小。添加两个 1x1 数组的成本与添加两个 8x128 数组的成本相同，而添加两个 8x128x1x1 数组的成本将是添加两个 8x128 数组的 1024 倍，因为 8x128x1x1 数组将被填充为 8x128x8x128。

多核 TPU 配置#

在较新的 TPU 代中，芯片上的两个核心通常被抽象为单个设备。为了利用多个核心，Pallas 必须打破顺序网格执行保证，并且需要在一个核心上并行化一个网格轴。这是一个选择加入的过程。为了允许这样做，pallas_call 需要一个名为 dimension_semantics 的额外参数

该参数是一个列表，其中条目数与网格中的轴数相同。只有 parallel 维度可以跨核心分区。根据经验，维度是并行的，除非输出窗口不变。因此，dimension_semantics 始终是多个 parallel 轴，后跟多个 arbitrary 轴。

虽然在一个双核 TPU 设备上分区内核通常会导致 2 倍的加速，但实际上可能会小得多。如果主体的不同实例具有高度变化的成本，则尤其如此。如果所有昂贵的步骤都映射到一个核心，而所有廉价的步骤都分配给另一个核心，则第二个核心将处于空闲状态，直到第一个核心完成其任务。

Pallas TPU 通常倾向于分区大小为 TPU 核心数倍数的轴，并且更喜欢分区前导网格轴。

将操作数放置在 SMEM 中#

TPU 上的大多数计算将发生在向量单元上。尽管如此，在许多情况下，执行一些标量运算（例如，执行控制流）仍然很有用。因此，TPU 配备了一个单独的标量单元，以及连接到它的单独标量内存 (SMEM)。根据经验，用于执行控制流决策的任何数据都应放置在 SMEM 中。

SMEM 是一种低延迟内存，支持随机访问，但仅允许您使用单个指令读取和写入 32 位值（与 VMEM 事务的 4KBi 粒度相比非常小，但由于缺少对齐要求而更加灵活！）。

当实现不规则模式访问输入平铺的内核时，标量内存也非常有用，例如在编写块稀疏内核时。在 Pallas 中，可以通过将 pallas_call 的 grid 参数替换为具有非零 num_scalar_prefetch 参数的 PrefetchScalarGridSpec 的 grid_spec 来实现。如果 num_scalar_prefetch 为 n，则 pallas_call 的前 n 个参数将放置在 SMEM 中。不应为这些参数指定 BlockSpecs。但是，所有后续参数的 BlockSpecs 不仅会接收网格索引，还会接收前导操作数的 SMEM 引用。

有关使用此功能的示例，请参阅标量预取和块稀疏计算。

支持的数据类型#

目前 Pallas TPU 支持以下数据类型

jnp.float32
jnp.bfloat16
jnp.int*（所有精度，除了 jnp.int4）
jnp.uint*（所有精度）
jnp.bool_

计算放置#

所有标量（即 0D）数组将存储在标量寄存器中，并且对它们的操作将在标量核心上执行。所有其他操作（即使是单元素，但 1D+ 数组）将在向量核心上执行。

支持的操作#

矩阵乘法#

矩阵乘法始终以 float32 格式生成结果。如果您的输入不是 float32，我们建议使用 lax.dot 并将 preferred_element_type 设置为 jnp.float32。

当使用 lax.dot_general 时，可以将矩阵乘法操作数的最后两个维度的转置融合到操作中，这可以提高整体内核性能。

精度控制#

Pallas TPU 降低知道 jax.default_matmul_precision。为了获得最佳性能（和最低精度），请使用 bfloat16。如果您关心数值精度，则可能需要将精度设置为 float32。

警告

即使您将 32 位操作数传递给矩阵乘法，除非请求 float32 精度，否则它们将被四舍五入为 bfloat16。

转置#

如果值至少有 4 个维度，则除了最后两个轴之外的所有轴的任意转置都是免费的。否则，仅实现最后两个轴的转置。请注意，最后两个维度的一些转置可以融合到矩阵乘法中。

访问内存#

可以读取或更新引用的任意切片，但要遵守实现约束。目前，对于 32 位宽的输入没有限制，但对于较窄的类型，仅支持某些切片模式。对于最后两个维度，始终支持与 8 和 128 的倍数对齐且长度是 8 和 128 的倍数的读取和写入。

向量内存的读取和写入通常发生在形状为 (8, 128) 的平铺上。因此，当读取或写入至少具有两个维度的引用时，当内存访问的基址偏移量的索引可被平铺整除，并且读取区域的大小是平铺大小的倍数时，可获得最佳性能。

逐元素操作#

支持许多逐元素操作。值得注意的是，硬件通常仅支持使用 32 位类型的逐元素计算。当加载使用较低精度类型的操作数时，通常应在应用逐元素操作之前将其向上转换为 32 位类型。

值得注意的是，它们的成本可能差异很大。因此，我们概述了三类支持的操作：廉价 (🟢)、中等 (🌕) 和昂贵 (🔴)。

操作	成本
`jnp.add`, `+`	🟢
`jnp.sub`, `-`	🟢
`jnp.mul`, `*`	🟢
`/`, `//`, `%`	🌕
`jnp.max`, `jnp.min`	🟢
`jnp.where` (select)	🟢
`jnp.abs`	🟢
`\|`, `^`, `&`, `~`	🟢
`<<`, `>>`	🟢
比较 (`==`, …)	🟢
类型转换 (`.astype`)	🟢
`jnp.exp`	🌕
`jnp.tanh`	🌕
`jnp.pow`	🌕
`jnp.sin`	🔴
`jnp.cos`	🔴

许多 JAX 函数是根据其他 JAX 原语实现的，因此此列表可能不全面。例如，jax.nn.relu 是根据比较和 jnp.where 实现的，也将在 Pallas 内核中工作。

数组构造器#

支持所有常量数组构造器（jnp.ones、jnp.zeros、jnp.full）。

归约#

支持 sum、max、min（对于浮点值）归约，以及布尔值的 any 和 all。不支持整数归约。

最后数组维度上的归约通常最慢。倒数第二个维度上的归约更快，但仍然比前导维度上的归约慢。

广播#

广播的性能特征与归约非常相似。始终支持沿除最后两个尾部维度之外的所有维度进行广播，并且是免费的。沿倒数第二个维度的广播较慢，而沿最后一个维度的广播最慢。

重塑#

与往常一样，支持除最后两个维度之外的所有维度中的重塑，并且是免费的。

当重塑可以修改数组的最后两个维度时，仅支持两种情况：(1) 某些前导维度被展平到倒数第二个维度上，或者 (2) 它添加了一个刚刚被归约删除的维度。

随机数生成#

Pallas 支持 jax.random 模块中最常用的函数，例如 uniform、normal 和 bernoulli。密钥应为 threefry2x32 密钥，这是 JAX 中的默认设置。密钥可以直接传递到内核中，也可以在内核内部生成。

控制流#

TPU 后端目前对控制流的支持有限。当前支持的函数是 cond、fori_loop 和 for_loop。但是，循环原语目前在编译期间完全展开，因此请尽量保持循环次数合理地小。

过度使用控制流可能会导致低级代码生成方面的显着回归，建议尝试将尽可能多的计算密集型操作压缩到单个基本块中。