File tree Expand file tree Collapse file tree 1 file changed +46
-0
lines changed
veadk/cli/templates/rl/ark Expand file tree Collapse file tree 1 file changed +46
-0
lines changed Original file line number Diff line number Diff line change 1+ # 基于方舟平台强化学习
2+ 方舟 RL 将强化学习过程进行了一定程度的封装,降低了复杂度。用户主要关注 rollout 中的 agent 逻辑、奖励函数的构建、训练样本的选择即可。
3+ VeADK 与方舟平台 Agent RL 集成,用户使用 VeADK 提供的脚手架,可以开发 VeADK Agent,然后提交任务到方舟平台进行强化学习优化。
4+ ## 准备工作
5+ 在你的终端中运行以下命令,初始化一个强化学习项目:
6+ ``` shell
7+ veadk rl ark init workspace veadk_ark_rl_project
8+ ```
9+ 该命令会在当前目录下创建一个名为 ` veadk_ark_rl_project ` 的文件夹,其中包含了一个基本的强化学习项目结构。
10+ 然后在终端中运行以下命令,提交任务到方舟平台:
11+ ``` shell
12+ cd veadk_ark_rl_project
13+ veadk rl ark submit
14+ ```
15+ ## 原理说明
16+ 生成后的项目结构如下,其中核心文件包括:
17+ - 数据集: ` data/*.jsonl `
18+ - ` /plugins ` 文件夹下的rollout和reward:
19+ - rollout :用以规定agent的工作流,` raw_async_veadk_rollout.py ` 提供了使用在方舟rl中使用veadk agent的示例,
20+ - reward:给出强化学习所需的奖励值,在` random_reward.py ` 给出了示例
21+ - ` job.py ` 或` job.yaml ` :用以配置训练参数,并指定需要使用的rollout和reward
22+ ``` shell
23+ veadk_ark_rl_project
24+ ├── data
25+ ├── * .jsonl # 训练数据
26+ └── plugins
27+ ├── async_weather_rollout.py #
28+ ├── config.yaml.example # VeADK agent 配置信息示例
29+ ├── random_reward.py # reward规则设定
30+ ├── raw_async_veadk_rollout.py # rollout工作流设定
31+ ├── raw_rollout.py #
32+ └── test_utils.py #
33+ └── weather_rollout.py #
34+ ├── job.py # 任务提交代码
35+ ├── job.yaml # 任务配置
36+ ├── test_agent.py # VeFaaS 测试脚本
37+ ```
38+
39+ ## 运行
40+ ``` bash
41+ ark create mcj -f job.yaml
42+ ```
43+ 或
44+ ``` bash
45+ python job.py
46+ ```
You can’t perform that action at this time.
0 commit comments