Skip to content

Commit 00595f7

Browse files
authored
Merge pull request #8622 from gongweibao/fixdoc
Add cluster-train document.
2 parents cf883d9 + 6f4c2f0 commit 00595f7

File tree

1 file changed

+24
-9
lines changed

1 file changed

+24
-9
lines changed
Lines changed: 24 additions & 9 deletions
Original file line numberDiff line numberDiff line change
@@ -1,20 +1,35 @@
11
在不同集群中运行
22
================
3+
用户的集群环境不尽相同,为了方便大家的部署,我们提供了多种的集群部署方式,方便提交集群训练任务,以下将一一介绍:
34

4-
PaddlePaddle可以使用多种分布式计算平台构建分布式计算任务,包括:
5-
- `Kubernetes <http://kubernetes.io>`_ Google开源的容器集群的调度框架,支持大规模集群生产环境的完整集群方案。
6-
- `OpenMPI <https://www.open-mpi.org>`_ 成熟的高性能并行计算框架。
7-
- `Fabric <http://www.fabfile.org>`_ 集群管理工具。可以使用`Fabric`编写集群任务提交和管理脚本。
5+
`Kubernetes <http://kubernetes.io>`_ 是Google开源的容器集群的调度框架,支持大规模集群生产环境的完整集群方案。以下指南展示了PaddlePaddle对Kubernetes的支持:
86

9-
对于不同的集群平台,会分别介绍集群作业的启动和停止方法。这些例子都可以在 `cluster_train_v2 <https://github.com/PaddlePaddle/Paddle/tree/develop/paddle/scripts/cluster_train_v2>`_ 找到。
7+
.. toctree::
8+
:maxdepth: 1
9+
10+
k8s_cn.md
11+
k8s_distributed_cn.md
1012

11-
在使用分布式计算平台进行训练时,任务被调度在集群中时,分布式计算平台通常会通过API或者环境变量提供任务运行需要的参数,比如节点的ID、IP和任务节点个数等。
13+
`OpenMPI <https://www.open-mpi.org>`_ 是成熟的高性能并行计算框架,在HPC领域使用非常的广泛。以下指南介绍了如何使用OpenMPI来搭建PaddlePaddle的集群训练任务:
1214

1315
.. toctree::
1416
:maxdepth: 1
1517

16-
fabric_cn.md
1718
openmpi_cn.md
18-
k8s_cn.md
19-
k8s_distributed_cn.md
19+
20+
`Fabric <http://www.fabfile.org>`_ 是一个方便的程序部署和管理工具。我们提供了使用Fabric 进行部署、管理的方法,如果想详细了解,请阅读以下指南:
21+
22+
.. toctree::
23+
:maxdepth: 1
24+
25+
fabric_cn.md
26+
27+
我们也支持在AWS上部署PaddlePaddle,详细请了解:
28+
29+
.. toctree::
30+
:maxdepth: 1
31+
2032
k8s_aws_cn.md
33+
34+
您可以在 `cluster_train_v2 <https://github.com/PaddlePaddle/Paddle/tree/develop/paddle/scripts/cluster_train_v2>`_ 找到以上相关的例子。
35+

0 commit comments

Comments
 (0)