|
1 | 1 | # Kubernetes on AWS
|
2 | 2 |
|
3 |
| -我们将向你展示怎么样在AWS的kubernetes集群上运行分布式paddlepaddle训练,让我们从核心概念开始 |
| 3 | +我们将向你展示怎么样在AWS的Kubernetes集群上运行分布式PaddlePaddle训练,让我们从核心概念开始 |
4 | 4 |
|
5 |
| -## 分布式paddlepaddle训练的核心概念 |
| 5 | +## PaddlePaddle分布式训练的核心概念 |
6 | 6 |
|
7 | 7 | ### 分布式训练任务
|
8 | 8 |
|
9 |
| -一个分布式训练任务可以看做是一个kubernetes任务 |
10 |
| -每一个kubernetes任务都有相应的配置文件,此配置文件指定了像任务的pods和环境变量信息 |
| 9 | +一个分布式训练任务可以看做是一个Kubernetes任务 |
| 10 | +每一个Kubernetes任务都有相应的配置文件,此配置文件指定了像任务的pod个数之类的环境变量信息 |
11 | 11 |
|
12 | 12 | 在分布式训练任务中,我们可以如下操作:
|
13 | 13 |
|
14 |
| -1. 在分布式文件系统中,准备分区数据和配置文件(在此次教学中,我们会用到亚马逊分布式存储服务(EFS)) |
| 14 | +1. 在分布式文件系统中,准备分块数据和配置文件(在此次教学中,我们会用到亚马逊分布式存储服务(EFS)) |
15 | 15 | 2. 创建和提交一个kubernetes任务配置到集群中开始训练
|
16 | 16 |
|
17 |
| -### 参数服务和训练 |
| 17 | +### Parameter Server和Trainer |
18 | 18 |
|
19 |
| -在paddlepaddle集群中有两个角色:参数服务(pserver)者和训练者, 每一个参数服务过程都会以一个全局模型碎片存在。每一个训练者都可以进行本地模型拷贝,并可以利用本地数据更新模型。在这个训练过程中,训练者发送模型更新到参数服务中,参数服务职责就是聚合这些更新,以便于训练者可以把全局模型同步到本地。 |
| 19 | +在paddlepaddle集群中有两个角色:参数服务器(pserver)者和trainer, 每一个参数服务器过程都会保存一部分模型的参数。每一个trainer都保存一份完整的模型参数,并可以利用本地数据更新模型。在这个训练过程中,trainer发送模型更新到参数服务器中,参数服务器职责就是聚合这些更新,以便于trainer可以把全局模型同步到本地。 |
20 | 20 |
|
21 |
| -为了能够和pserver联通,训练者需要每一个pserver的IP地址。在kubernetes中利用服务发现机制(比如:DNS、hostname)要比静态的IP地址要好一些,因为任何一个pod都会被杀掉然后新的pod被重启到另一个不同IP地址的node上。现在我们可以先用静态的IP地址方式,这种方式是可以更改的。 |
| 21 | +为了能够和pserver通信,trainer需要每一个pserver的IP地址。在Kubernetes中利用服务发现机制(比如:DNS、hostname)要比静态的IP地址要好一些,因为任何一个pod都会被杀掉然后新的pod被重启到另一个不同IP地址的node上。现在我们可以先用静态的IP地址方式,这种方式是可以更改的。 |
22 | 22 |
|
23 |
| -参数服务者和训练者一块被打包成一个docker镜像,这个镜像会运行在被kebernetes集群调度的pod中。 |
| 23 | +参数服务器和trainer一块被打包成一个docker镜像,这个镜像会运行在被Kubernetes集群调度的pod中。 |
24 | 24 |
|
25 | 25 | ### 训练者ID
|
26 | 26 |
|
27 |
| -每一个训练过程都需要一个训练ID,以0作为基础值,作为命令行参数传递。训练过程因此用这个ID去读取数据分区。 |
| 27 | +每一个训练过程都需要一个训练ID,以0作为基础值,作为命令行参数传递。训练过程因此用这个ID去读取数据分片。 |
28 | 28 |
|
29 | 29 | ### 训练
|
30 | 30 |
|
31 |
| -利用shell脚本进入容器,可以看到许多kubernetes预先定义好的环境变量。这里可以定义任务identity,在任务中identity可以用来远程访问包含所有pod的kubernetes apiserver服务。 |
| 31 | +PaddlePaddle容器的入口是一个shell脚本,这个脚本可以读取Kubernetes内预置的环境变量。这里可以定义任务identity,在任务中identity可以用来远程访问包含所有pod的Kubernetes apiserver服务。 |
32 | 32 |
|
33 | 33 | 每一个pod通过ip来排序。每一个pod的序列作为“pod id”。因为我们会在每一个pod中运行训练和参数服务,可以用“pod id”作为训练ID。入口脚本详细工作流程如下:
|
34 | 34 |
|
|
38 | 38 | 4. 以trainer_id来训练将自动把结果写入到EFS卷中。
|
39 | 39 |
|
40 | 40 |
|
41 |
| -## AWS的kubernetes中的paddlepaddle |
| 41 | +## AWS的Kubernetes中的PaddlePaddle |
42 | 42 |
|
43 | 43 | ### 选择AWS服务区域
|
44 | 44 | 这个教程需要多个AWS服务工作在一个区域中。在AWS创建任何东西之前,请检查链接https://aws.amazon.com/about-aws/global-infrastructure/regional-product-services/ 选择一个可以提供如下服务的区域:EC2, EFS, VPS, CloudFormation, KMS, VPC, S3。在教程中我们使用“Oregon(us-west-2)”作为例子。
|
|
70 | 70 | 在AWS中[kube-aws](https://github.com/coreos/kube-aws)是一个自动部署集群的CLI工具
|
71 | 71 |
|
72 | 72 | ##### kube-aws完整性验证
|
73 |
| -提示:如果你用的是非官方版本(e.g RC release)的kube-aws,可以跳过这一步骤。引入 coreos的应用程序签名公钥: |
| 73 | +提示:如果你用的是非官方版本(e.g RC release)的kube-aws,可以跳过这一步骤。引入coreos的应用程序签名公钥: |
74 | 74 |
|
75 | 75 | ```
|
76 | 76 | gpg2 --keyserver pgp.mit.edu --recv-key FC8A365E
|
@@ -110,9 +110,9 @@ mv ${PLATFORM}/kube-aws /usr/local/bin
|
110 | 110 |
|
111 | 111 | #### kubectl
|
112 | 112 |
|
113 |
| -[kubectl](https://kubernetes.io/docs/user-guide/kubectl-overview/) 是一个操作kubernetes集群的命令行接口 |
| 113 | +[kubectl](https://Kubernetes.io/docs/user-guide/kubectl-overview/) 是一个操作Kubernetes集群的命令行接口 |
114 | 114 |
|
115 |
| -利用`curl`工具从kubernetes发布页面中下载`kubectl` |
| 115 | +利用`curl`工具从Kubernetes发布页面中下载`kubectl` |
116 | 116 |
|
117 | 117 | ```
|
118 | 118 | # OS X
|
@@ -257,7 +257,7 @@ DNS名称含有CNAME指向到集群DNS名称或者记录指向集群的IP地址
|
257 | 257 |
|
258 | 258 | #### S3 bucket
|
259 | 259 |
|
260 |
| -在启动kubernetes集群前需要创建一个S3 bucket |
| 260 | +在启动Kubernetes集群前需要创建一个S3 bucket |
261 | 261 |
|
262 | 262 | 在AWS上创建s3 bucket会有许多的bugs,所以使用[s3 console](https://console.aws.amazon.com/s3/home?region=us-west-2)。
|
263 | 263 |
|
@@ -313,9 +313,9 @@ kube-aws render credentials --generate-ca
|
313 | 313 | ```
|
314 | 314 | kube-aws render stack
|
315 | 315 | ```
|
316 |
| -asserts(模板和凭证)用于创建、更新和当前目录被创建的kubernetes集群相关联 |
| 316 | +asserts(模板和凭证)用于创建、更新和当前目录被创建的Kubernetes集群相关联 |
317 | 317 |
|
318 |
| -### 启动kubernetes集群 |
| 318 | +### 启动Kubernetes集群 |
319 | 319 |
|
320 | 320 | #### 创建一个在CloudFormation模板上定义好的实例
|
321 | 321 |
|
@@ -415,7 +415,7 @@ ip-10-0-0-55.us-west-2.compute.internal Ready 6m
|
415 | 415 |
|
416 | 416 | ### 开始在AWS上进行paddlepaddle的训练
|
417 | 417 |
|
418 |
| -#### 配置kubernetes卷指向EFS |
| 418 | +#### 配置Kubernetes卷指向EFS |
419 | 419 |
|
420 | 420 | 首先需要创建一个持久卷[PersistentVolume](https://kubernetes.io/docs/user-guide/persistent-volumes/) 到EFS上
|
421 | 421 |
|
@@ -464,7 +464,7 @@ kubectl --kubeconfig=kubeconfig create -f pvc.yaml
|
464 | 464 |
|
465 | 465 | #### 准备训练数据
|
466 | 466 |
|
467 |
| -启动kubernetes job在我们创建的持久层上进行下载、保存并均匀拆分训练数据为3份. |
| 467 | +启动Kubernetes job在我们创建的持久层上进行下载、保存并均匀拆分训练数据为3份. |
468 | 468 |
|
469 | 469 | 用`paddle-data-job.yaml`保存
|
470 | 470 | ```
|
@@ -613,7 +613,7 @@ chmod 400 key-name.pem
|
613 | 613 | ssh -i key-name.pem core@INSTANCE_IP
|
614 | 614 | ```
|
615 | 615 |
|
616 |
| -`INSTANCE_IP`: EC2上kubernetes工作节点的公共IP地址,进入[EC2 console](https://us-west-2.console.aws.amazon.com/ec2/v2/home?region=us-west-2#Instances:sort=instanceId) 中检查任何`paddle-cluster-kube-aws-worker`实例的 `public IP` |
| 616 | +`INSTANCE_IP`: EC2上Kubernetes工作节点的公共IP地址,进入[EC2 console](https://us-west-2.console.aws.amazon.com/ec2/v2/home?region=us-west-2#Instances:sort=instanceId) 中检查任何`paddle-cluster-kube-aws-worker`实例的 `public IP` |
617 | 617 |
|
618 | 618 | 2. 挂载EFS
|
619 | 619 | ```
|
@@ -647,7 +647,7 @@ sudo mount -t nfs4 -o nfsvers=4.1,rsize=1048576,wsize=1048576,hard,timeo=600,ret
|
647 | 647 | ```
|
648 | 648 | `server.log` 是`pserver`的log日志,`train.log`是`trainer`的log日志,模型快照和描述存放在`pass-0000*`.
|
649 | 649 |
|
650 |
| -### kubernetes集群卸载或删除 |
| 650 | +### Kubernetes集群卸载或删除 |
651 | 651 |
|
652 | 652 | #### 删除EFS
|
653 | 653 |
|
|
0 commit comments