Skip to content

Commit 0af2672

Browse files
committed
add readme
1 parent 7862b63 commit 0af2672

File tree

1 file changed

+46
-0
lines changed

1 file changed

+46
-0
lines changed
Lines changed: 46 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,46 @@
1+
# 基于方舟平台强化学习
2+
方舟 RL 将强化学习过程进行了一定程度的封装,降低了复杂度。用户主要关注 rollout 中的 agent 逻辑、奖励函数的构建、训练样本的选择即可。
3+
VeADK 与方舟平台 Agent RL 集成,用户使用 VeADK 提供的脚手架,可以开发 VeADK Agent,然后提交任务到方舟平台进行强化学习优化。
4+
## 准备工作
5+
在你的终端中运行以下命令,初始化一个强化学习项目:
6+
```shell
7+
veadk rl ark init workspace veadk_ark_rl_project
8+
```
9+
该命令会在当前目录下创建一个名为 `veadk_ark_rl_project` 的文件夹,其中包含了一个基本的强化学习项目结构。
10+
然后在终端中运行以下命令,提交任务到方舟平台:
11+
```shell
12+
cd veadk_ark_rl_project
13+
veadk rl ark submit
14+
```
15+
## 原理说明
16+
生成后的项目结构如下,其中核心文件包括:
17+
- 数据集: `data/*.jsonl`
18+
- `/plugins`文件夹下的rollout和reward:
19+
- rollout :用以规定agent的工作流,`raw_async_veadk_rollout.py`提供了使用在方舟rl中使用veadk agent的示例,
20+
- reward:给出强化学习所需的奖励值,在`random_reward.py`给出了示例
21+
- `job.py``job.yaml`:用以配置训练参数,并指定需要使用的rollout和reward
22+
```shell
23+
veadk_ark_rl_project
24+
├── data
25+
├── *.jsonl # 训练数据
26+
└── plugins
27+
├── async_weather_rollout.py #
28+
├── config.yaml.example # VeADK agent 配置信息示例
29+
├── random_reward.py # reward规则设定
30+
├── raw_async_veadk_rollout.py # rollout工作流设定
31+
├── raw_rollout.py #
32+
└── test_utils.py #
33+
└── weather_rollout.py #
34+
├── job.py # 任务提交代码
35+
├── job.yaml # 任务配置
36+
├── test_agent.py # VeFaaS 测试脚本
37+
```
38+
39+
## 运行
40+
```bash
41+
ark create mcj -f job.yaml
42+
```
43+
44+
```bash
45+
python job.py
46+
```

0 commit comments

Comments
 (0)