分布式数据加载

分布式数据加载#

本高级指南演示了如何在多主机或多进程环境中运行 JAX 时执行分布式数据加载，以及 JAX 计算所需的数据如何在多个进程之间拆分。本文档涵盖了如何考虑分布式数据加载的总体方法，以及如何将其应用于数据并行（更简单）和模型并行（更复杂）工作负载。

分布式数据加载通常更高效（数据在进程之间拆分），但也比其替代方案更复杂，例如：1) 在单个进程中加载完整全局数据，拆分它并通过 RPC 将所需部分发送到其他进程；以及 2) 在所有进程中加载完整全局数据，并且仅在每个进程中使用所需部分。加载完整全局数据通常更简单，但成本更高。例如，在机器学习中，训练循环可能会在等待数据时被阻塞，并且每个进程都会使用额外的网络带宽。

注意

当使用分布式数据加载时，重要的是每个设备（例如，每个 GPU 或 TPU）都可以访问其运行计算所需的输入数据分片。这通常使分布式数据加载比上述替代方案更复杂且更难正确实现。如果错误的数据分片最终出现在错误的设备上，则计算仍然可以无错误地运行，因为计算无法知道输入数据“应该”是什么。但是，最终结果通常会不正确，因为输入数据与预期不同。

加载 `jax.Array` 的通用方法#

考虑从不是由 JAX 生成的原始数据创建单个 jax.Array 的情况。这些概念不仅适用于加载批量数据记录，还适用于任何不是直接由 JAX 计算产生的多进程 jax.Array。示例包括：1) 从检查点加载模型权重；或 2) 加载大型空间分片图像。

每个 jax.Array 都有一个关联的 Sharding，它描述了每个全局设备需要哪个全局数据分片。当您从头开始创建 jax.Array 时，您还需要创建其 Sharding。这就是 JAX 如何理解数据在设备之间如何布局的方式。您可以创建任何您想要的 Sharding。在实践中，您通常根据您正在实施的并行策略类型选择 Sharding（您将在本指南的后面部分详细了解数据并行和模型并行）。您还可以根据原始数据如何在每个进程中生成来选择 Sharding。

一旦您定义了 Sharding，您可以使用 addressable_devices() 来提供加载当前进程内数据所需的设备列表。（注意：“addressable devices”术语是“local devices”的更通用版本。目标是确保每个进程的数据加载器为该进程的所有本地设备提供正确的数据。

示例#

例如，考虑一个 (64, 128) jax.Array，您需要将其分片到 4 个进程中，每个进程有 2 个设备（总共 8 个设备）。这将导致 8 个唯一的数据分片，每个设备一个。有许多方法可以分片这个 jax.Array。您可以跨 jax.Array 的第二个维度执行 1D 分片，如下所示，为每个设备提供一个 (64, 16) 分片

在上图中，每个数据分片都有自己的颜色，以指示哪个进程需要加载该分片。例如，您假设进程 0 的 2 个设备包含分片 A 和 B，对应于全局数据的第一个 (64, 32) 部分。

您可以选择不同的分片到设备的分布。例如

这是另一个示例 — 2D 分片

无论 jax.Array 如何分片，您都必须确保为每个进程的数据加载器提供/加载全局数据的所需分片。有几种高级方法可以实现这一点：1) 在每个进程中加载全局数据；2) 使用每设备数据管道；3) 使用整合的每进程数据管道；4) 以某种方便的方式加载数据，然后在计算内部重新分片。

选项 1：在每个进程中加载全局数据#

使用此选项，每个进程

加载所需的完整值；并且
仅将所需的分片传输到该进程的本地设备。

这不是分布式数据加载的有效方法，因为每个进程都会丢弃其本地设备不需要的数据，并且摄入的总数据可能高于必要的量。但此选项有效且相对简单易实现，虽然对于某些工作负载，性能开销可能是可以接受的（例如，如果全局数据很小）。

选项 2：使用每设备数据管道#

在此选项中，每个进程为其每个本地设备设置一个数据加载器（即，每个设备都有自己的数据加载器，仅用于其所需的数据分片）。

就加载的数据而言，这是高效的。有时，独立考虑每个设备而不是一次考虑进程的所有本地设备可能更简单（请参阅下面的“选项 3：使用整合的每进程数据管道”）。但是，拥有多个并发数据加载器有时会导致性能问题。

选项 3：使用整合的每进程数据管道#

如果您选择此选项，则每个进程

设置一个加载器，加载其所有本地设备所需的数据；然后
在传输到每个本地设备之前，对本地数据进行分片。

这是执行分布式加载的最有效方法。但是，它也是最复杂的，因为既需要逻辑来确定每个设备需要哪些数据，又需要创建单个数据加载，该加载仅加载所有这些数据（理想情况下，不加载其他额外数据）。

选项 4：以某种方便的方式加载数据，然后在计算内部重新分片#

此选项更难以解释，但通常比上述选项（从 1 到 3）更容易实现。

想象一下，在难以或几乎不可能设置数据加载器来精确加载您需要的数据的情况下，无论是对于每个设备还是每个进程的加载器。

但是，仍然可以为每个进程设置一个数据加载器，该加载器加载 1 / num_processes 的数据，只是分片不正确。

然后，继续您之前的 2D 示例分片，假设每个进程加载单列数据更容易

然后，您可以创建一个 jax.Array，其 Sharding 表示每列数据，将其直接传递到计算中，并使用 jax.lax.with_sharding_constraint() 立即将列分片输入重新分片到所需的分片。并且由于数据在计算内部重新分片，因此它将在加速器通信链接（例如，TPU ICI 或 NVLink）上重新分片。

此选项 4 具有与选项 3（使用整合的每进程数据管道）相似的优点
每个进程仍然有一个数据加载器；并且
全局数据在所有进程中仅加载一次；并且

全局数据还具有提供更灵活的数据加载方式的额外优势。

但是，此方法使用加速器互连带宽来执行重新分片，这可能会减慢某些工作负载的速度。除了目标 Sharding 之外，选项 4 还要求将输入数据表示为单独的 `Sharding`。

复制#

复制描述了一个多个设备具有相同数据分片的过程。上述一般选项（选项 1 到 4）仍然适用于复制。唯一的区别是某些进程最终可能会加载相同的数据分片。本节介绍完全复制和部分复制。

完全复制#

完全复制是一个所有设备都拥有数据完整副本的过程（即，数据“分片”是整个数组值）。

Full replication

在下面的示例中，由于总共有 8 个设备（每个进程 2 个），您最终将得到 8 个完整数据的副本。数据的每个副本都是未分片的，即该副本位于单个设备上

部分复制#

部分复制描述了一个存在多个数据副本的过程，并且每个副本都跨多个设备分片。对于给定的数组值，通常有很多可能的方式来执行部分复制（注意：对于给定的数组形状，始终存在单个完全复制的 Sharding）。

以下是两个可能的示例。

Partial replication - example 1

在下面的第一个示例中，每个副本都跨进程的两个本地设备分片，总共有 4 个副本。这意味着每个进程都需要加载完整的全局数据，因为其本地设备将拥有数据的完整副本。

Partial replication - example 2

在下面的第二个示例中，每个副本仍然跨两个设备分片，但是每个设备对都分布在两个不同的进程中。进程 0（粉色）和进程 1（黄色）都需要仅加载数据的第一行，而进程 2（绿色）和进程 3（蓝色）都需要仅加载数据的第二行

现在您已经了解了创建 `jax.Array` 的高级选项，让我们将它们应用于 ML 应用程序的数据加载。

数据并行#

在纯数据并行（不含模型并行）中
您在每个设备上复制模型；并且

每个模型副本（即每个设备）接收不同的每个副本的数据批次。

当将输入数据表示为单个 jax.Array 时，Array 包含此步骤中所有副本的数据（这称为全局批次），其中 jax.Array 的每个分片包含单个每个副本的批次。您可以将其表示为跨所有设备的 1D 分片（查看下面的示例）— 换句话说，全局批次由跨批次轴连接在一起的所有每个副本的批次组成。

应用此框架，您可能会得出结论，进程 0 应获得全局批次的第一个四分之一（8 个中的 2 个），而进程 1 应获得第二个，依此类推。

但是，您如何知道第一个四分之一是什么？以及您如何确保进程 `0` 获得第一个四分之一？幸运的是，关于数据并行有一个非常重要的技巧，这意味着您不必回答这些问题，并且使整个设置更简单。

关于数据并行性的重要技巧#

技巧是您无需关心哪个每个副本的批次落在哪个副本上。因此，哪个进程加载批次并不重要。原因是，由于每个设备都对应于执行相同操作的模型副本，因此哪个设备在全局批次中获得哪个每个副本的批次并不重要。

这意味着您可以自由地重新排列全局批次中的每个副本的批次。换句话说，您可以自由地随机化每个设备获得哪个数据分片。

例如

通常，如上所示，重新排列 jax.Array 的数据分片不是一个好主意 – 您实际上是在置换 jax.Array 的值！但是，对于数据并行，全局批次顺序没有意义，您可以自由地重新排列全局批次中的每个副本的批次，如前所述。

这简化了数据加载，因为这意味着每个设备只需要一个独立的每个副本的批次流，这可以通过在大多数数据加载器中为每个进程创建一个独立的管道并将生成的每个进程的批次分块为每个副本的批次来轻松实现。

这是“选项 2：整合的每进程数据管道”的一个实例。您还可以使用其他选项（例如 0、1 和 3，本文档前面已介绍），但此选项相对简单且高效。

import jax
import tensorflow as tf
import numpy as np

################################################################################
# Step 1: setup the Dataset for pure data parallelism (do once)
################################################################################
# Fake example data (replace with your Dataset)
ds = tf.data.Dataset.from_tensor_slices(
    [np.ones((16, 3)) * i for i in range(100)])

ds = ds.shard(num_shards=jax.process_count(), index=jax.process_index())

################################################################################
# Step 2: create a jax.Array of per-replica batches from the per-process batch
# produced from the Dataset (repeat every step). This can be used with batches
# produced by different data loaders as well!
################################################################################
# Grab just the first batch from the Dataset for this example
per_process_batch = ds.as_numpy_iterator().next()

mesh = jax.make_mesh((jax.device_count(),), ('batch',))
sharding = jax.NamedSharding(mesh, jax.sharding.PartitionSpec('batch'))
global_batch_array = jax.make_array_from_process_local_data(
    sharding, per_process_batch)

这是一个如何使用 tf.data 实现此设置的示例

数据 + 模型并行#

在模型并行中，您跨多个设备分片每个模型副本。如果您使用纯模型并行（不含数据并行）
只有一个模型副本跨所有设备分片；并且

数据（通常）在所有设备上完全复制。

你将多个模型副本中的每一个分片到多个设备上；并且
你在每个模型副本上部分复制数据——同一模型副本中的每个设备获得相同的每副本批次，而跨模型副本的设备获得不同的每副本批次。

进程内的模型并行#

为了数据加载的目的，最简单的方法是将每个模型副本分片到单个进程的本地设备中。

对于此示例，让我们切换到每个进程 4 个设备的 2 个进程（而不是每个进程 2 个设备的 4 个进程）。考虑这样一种情况，其中每个模型副本都分片到单个进程的 2 个本地设备上。这将导致每个进程 2 个模型副本，总共 4 个模型副本，如下所示

Data and model parallelism - example 1

在这里，输入数据再次表示为单个 jax.Array，具有 1D 分片，其中每个分片都是一个每副本批次，但有一个例外

与纯数据并行的情况不同，你引入了部分复制，并制作了 1D 分片全局批次的 2 个副本。
这是因为每个模型副本由 2 个设备组成，每个设备都需要每副本批次的副本。

Data and model parallelism - example 2

将每个模型副本保持在单个进程中可以使事情变得更简单，因为你可以重用上面描述的纯数据并行设置，只是你还需要复制每副本批次

Data and model parallelism - example 3

注意

将每副本批次复制到正确的设备也非常重要！ 虽然关于数据并行性的非常重要的技巧意味着你不在乎哪个批次最终落在哪个副本上，但你确实关心单个副本只获得单个批次。

例如，这是可以的

Data and model parallelism - example 4

但是，如果你不小心将每个批次加载到哪个本地设备上，你可能会意外地创建未复制的数据，即使 Sharding（以及并行策略）表明数据已复制

Data and model parallelism - example 4

如果你意外地创建了一个 jax.Array，其中包含应该在单个进程内复制但未复制的数据，JAX 将引发错误（但这对于跨进程的模型并行性并不总是如此；请参阅下一节）。

这是一个关于如何使用 tf.data 实现每进程模型并行和数据并行的示例

import jax
import tensorflow as tf
import numpy as np

################################################################################
# Step 1: Set up the Dataset with a different data shard per-process (do once)
#         (same as for pure data parallelism)
################################################################################
# Fake example data (replace with your Dataset)
per_process_batches = [np.ones((16, 3)) * i for i in range(100)]
ds = tf.data.Dataset.from_tensor_slices(per_process_batches)

ds = ds.shard(num_shards=jax.process_count(), index=jax.process_index())

################################################################################
# Step 2: Create a jax.Array of per-replica batches from the per-process batch
# produced from the Dataset (repeat every step)
################################################################################
# Grab just the first batch from the Dataset for this example
per_process_batch = ds.as_numpy_iterator().next()

num_model_replicas_per_process = 2 # set according to your parallelism strategy
num_model_replicas_total = num_model_replicas_per_process * jax.process_count()

# Create an example `Mesh` for per-process data parallelism. Make sure all devices
# are grouped by process, and then resize so each row is a model replica.
mesh_devices = np.array([jax.local_devices(process_idx)
                         for process_idx in range(jax.process_count())])
mesh_devices = mesh_devices.reshape(num_model_replicas_total, -1)
# Double check that each replica's devices are on a single process.
for replica_devices in mesh_devices:
  num_processes = len(set(d.process_index for d in replica_devices))
  assert num_processes == 1
mesh = jax.sharding.Mesh(mesh_devices, ["model_replicas", "data_parallelism"])

# Shard the data across model replicas. You don't shard across the
# data_parallelism mesh axis, meaning each per-replica shard will be replicated
# across that axis.
sharding = jax.sharding.NamedSharding(
    mesh, jax.sharding.PartitionSpec("model_replicas"))

global_batch_array = jax.make_array_from_process_local_data(
    sharding, per_process_batch)

跨进程的模型并行#

当模型副本分布在多个进程中时，情况会变得更加有趣，原因可能是

因为单个副本无法容纳在一个进程中；或者
因为设备分配没有那样设置。

例如，回到之前每个进程 2 个设备的 4 个进程的设置，如果你像这样将设备分配给副本

Model parallelism across processes - example 1

这与之前的每进程模型并行示例是相同的并行策略——4 个模型副本，每个副本分片到 2 个设备上。唯一的区别是设备分配——每个副本的两个设备分布在不同的进程中，并且每个进程仅负责每个每副本批次的一个副本（但用于两个副本）。

像这样跨进程拆分模型副本可能看起来是任意且不必要的事情（并且在本例中可以说是这样），但实际部署最终可能会采用这种设备分配方式，以最好地利用设备之间的通信链路。

现在数据加载变得更加复杂，因为跨进程需要一些额外的协调。在纯数据并行和每进程模型并行的情况下，重要的是每个进程加载唯一的数据流。现在某些进程必须加载相同的数据，而另一些进程必须加载不同的数据。在上面的示例中，进程 0 和 2（分别为粉色和绿色）必须加载相同的 2 个每副本批次，进程 1 和 3（分别为黄色和蓝色）也必须加载相同的 2 个每副本批次（但与进程 0 和 2 的批次不同）。

此外，重要的是每个进程不要混淆其 2 个每副本批次。虽然你不在乎哪个批次落在哪个副本上（关于数据并行性的非常重要的技巧），但你需要关心的是一个副本中的所有设备都获得相同的批次。例如，这将是不好的

Model parallelism across processes - example 2

注意

截至 2023 年 8 月，JAX 无法检测 jax.Array 跨进程的分片是否应该复制但未复制，并且在运行计算时会产生错误的结果。所以要小心不要这样做！

为了在每个设备上获得正确的每副本批次，你需要将全局输入数据表示为以下 jax.Array

Model parallelism across processes - example 3