opendilab
diff --git a/‎.github/workflows/deploy.yml‎
Lines changed: 52 additions & 6 deletions b/‎.github/workflows/deploy.yml‎
Lines changed: 52 additions & 6 deletions
diff --git a/‎.gitignore‎
Lines changed: 3 additions & 1 deletion b/‎.gitignore‎
Lines changed: 3 additions & 1 deletion
diff --git a/‎CHANGELOG‎
Lines changed: 19 additions & 0 deletions b/‎CHANGELOG‎
Lines changed: 19 additions & 0 deletions
diff --git a/‎README.md‎
Lines changed: 174 additions & 58 deletions b/‎README.md‎
Lines changed: 174 additions & 58 deletions
diff --git a/‎conda/meta.yaml‎
Lines changed: 1 addition & 1 deletion b/‎conda/meta.yaml‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎ding/__init__.py‎
Lines changed: 1 addition & 1 deletion b/‎ding/__init__.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎ding/bonus/__init__.py‎
Lines changed: 1 addition & 0 deletions b/‎ding/bonus/__init__.py‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎ding/bonus/config.py‎
Lines changed: 237 additions & 0 deletions b/‎ding/bonus/config.py‎
Lines changed: 237 additions & 0 deletions
@@ -8,7 +8,7 @@ on:
 jobs:
   docker_base:
     runs-on: ubuntu-latest
-    # if: "contains(github.event.head_commit.message, 'enable docker')"
+    if: "!contains(github.event.head_commit.message, 'ci skip')"
     strategy:
       matrix:
         platform: [linux/amd64]
@@ -81,7 +81,7 @@ jobs:
 
   docker_doc:
     runs-on: ubuntu-latest
-    # if: "contains(github.event.head_commit.message, 'enable docker')"
+    if: "!contains(github.event.head_commit.message, 'ci skip')"
     strategy:
       matrix:
         platform: [linux/amd64]
@@ -145,7 +145,7 @@ jobs:
   docker_atari:
     runs-on: ubuntu-latest
     needs: docker_base
-    # if: "contains(github.event.head_commit.message, 'enable docker')"
+    if: "!contains(github.event.head_commit.message, 'ci skip')"
     strategy:
       matrix:
         platform: [linux/amd64]
@@ -204,7 +204,7 @@ jobs:
   docker_mujoco:
     runs-on: ubuntu-latest
     needs: docker_base
-    # if: "contains(github.event.head_commit.message, 'enable docker')"
+    if: "!contains(github.event.head_commit.message, 'ci skip')"
     strategy:
       matrix:
         platform: [linux/amd64]
@@ -262,7 +262,7 @@ jobs:
   docker_metaworld:
     runs-on: ubuntu-latest
     needs: docker_base
-    # if: "contains(github.event.head_commit.message, 'enable docker')"
+    if: "contains(github.event.head_commit.message, 'metaworld docker')"
     strategy:
       matrix:
         platform: [linux/amd64]
@@ -408,5 +408,51 @@ jobs:
       - name: Build and push
         id: docker_build
         run:  |
-          docker buildx build -f ./docker/Dockerfile.rpc . -t opendilab/ding:nightly-rpc-base --target=rpc
+          docker buildx build -f ./docker/Dockerfile.rpc . -t opendilab/ding:nightly-rpc-base --target=base
           docker push opendilab/ding:nightly-rpc-base
+
+  docker_evogym:
+    runs-on: ubuntu-latest
+    needs: docker_base
+    if: "contains(github.event.head_commit.message, 'evogym docker')"
+    strategy:
+      matrix:
+        platform: [linux/amd64]
+        # python-version: [3.6, 3.7, 3.8]
+    steps:
+      - name: Checkout
+        uses: actions/checkout@v2
+      - name: Login to DockerHub
+        uses: docker/login-action@v1
+        with:
+          username: ${{ secrets.DOCKERIO_USERNAME }}
+          password: ${{ secrets.DOCKERIO_PASSWORD }}
+
+      - name: Build and push
+        id: docker_build
+        run:  |
+          docker buildx build -f ./docker/Dockerfile.env . -t opendilab/ding:nightly-evogym --target=evogym
+          docker push opendilab/ding:nightly-evogym
+        
+  docker_d4rl:
+    runs-on: ubuntu-latest
+    needs: docker_mujoco
+    if: "contains(github.event.head_commit.message, 'd4rl docker')"
+    strategy:
+      matrix:
+        platform: [linux/amd64]
+        # python-version: [3.6, 3.7, 3.8]
+    steps:
+      - name: Checkout
+        uses: actions/checkout@v2
+      - name: Login to DockerHub
+        uses: docker/login-action@v1
+        with:
+          username: ${{ secrets.DOCKERIO_USERNAME }}
+          password: ${{ secrets.DOCKERIO_PASSWORD }}
+
+      - name: Build and push
+        id: docker_build
+        run:  |
+          docker buildx build -f ./docker/Dockerfile.env . -t opendilab/ding:nightly-d4rl --target=d4rl
+          docker push opendilab/ding:nightly-d4rl
@@ -124,6 +124,8 @@ local.properties
 
 # Graphics Interchange Format
 *.gif
+*.mp4
+*.mpg
 
 # RAW
 *.raw
@@ -1425,4 +1427,4 @@ collect_demo_data_config.py
 !ding/**/*.py
 events.*
 
-evogym/*
+evogym/*
@@ -1,3 +1,22 @@
+2023.02.16(v0.4.6)
+- env: add metadrive env and related ppo config (#574)
+- env: add acrobot env and related dqn config (#577)
+- env: add carracing in box2d (#575)
+- env: add new gym hybrid viz (#563)
+- env: update cartpole IL config (#578)
+- algo: add BDQ algorithm (#558)
+- algo: add procedure cloning model (#573)
+- feature: add simplified PPOF (PPO × Family) interface (#567) (#568) (#581) (#582)
+- fix: to_device and prev_state bug when using ttorch (#571)
+- fix: py38 and numpy unittest bugs (#565)
+- fix: typo in contrastive_loss.py (#572)
+- fix: dizoo envs pkg installation bugs
+- fix: multi_trainer middleware unittest bug
+- style: add evogym docker (#580)
+- style: fix metaworld docker bug
+- style: fix setuptools high version incompatibility bug
+- style: extend treetensor lowest version
+
 2022.12.13(v0.4.5)
 - env: add beergame supply chain optimization env (#512)
 - env: add env gym_pybullet_drones (#526)
 
@@ -1,7 +1,7 @@
 {% set data = load_setup_py_data() %}
 package:
   name: di-engine
-  version: v0.4.5
+  version: v0.4.6
 
 source:
   path: ..
 
@@ -1,7 +1,7 @@
 import os
 
 __TITLE__ = 'DI-engine'
-__VERSION__ = 'v0.4.5'
+__VERSION__ = 'v0.4.6'
 __DESCRIPTION__ = 'Decision AI Engine'
 __AUTHOR__ = "OpenDILab Contributors"
 __AUTHOR_EMAIL__ = "opendilab@pjlab.org.cn"
 
@@ -0,0 +1 @@
+from .ppof import PPOF
@@ -0,0 +1,237 @@
+from easydict import EasyDict
+import os
+import gym
+from ding.envs import BaseEnv, DingEnvWrapper
+from ding.envs.env_wrappers import MaxAndSkipWrapper, WarpFrameWrapper, ScaledFloatFrameWrapper, FrameStackWrapper, \
+    EvalEpisodeReturnEnv, TransposeWrapper, TimeLimitWrapper, FlatObsWrapper, GymToGymnasiumWrapper
+from ding.policy import PPOFPolicy
+
+
+def get_instance_config(env: str) -> EasyDict:
+    cfg = PPOFPolicy.default_config()
+    if env == 'lunarlander_discrete':
+        cfg.n_sample = 400
+    elif env == 'lunarlander_continuous':
+        cfg.action_space = 'continuous'
+        cfg.n_sample = 400
+    elif env == 'bipedalwalker':
+        cfg.learning_rate = 1e-3
+        cfg.action_space = 'continuous'
+        cfg.n_sample = 1024
+    elif env == 'acrobot':
+        cfg.learning_rate = 1e-4
+        cfg.n_sample = 400
+    elif env == 'rocket_landing':
+        cfg.n_sample = 2048
+        cfg.adv_norm = False
+        cfg.model = dict(
+            encoder_hidden_size_list=[64, 64, 128],
+            actor_head_hidden_size=128,
+            critic_head_hidden_size=128,
+        )
+    elif env == 'drone_fly':
+        cfg.action_space = 'continuous'
+        cfg.adv_norm = False
+        cfg.epoch_per_collect = 5
+        cfg.learning_rate = 5e-5
+        cfg.n_sample = 640
+    elif env == 'hybrid_moving':
+        cfg.action_space = 'hybrid'
+        cfg.n_sample = 3200
+        cfg.entropy_weight = 0.03
+        cfg.batch_size = 320
+        cfg.adv_norm = False
+        cfg.model = dict(
+            encoder_hidden_size_list=[256, 128, 64, 64],
+            sigma_type='fixed',
+            fixed_sigma_value=0.3,
+            bound_type='tanh',
+        )
+    elif env == 'evogym_carrier':
+        cfg.action_space = 'continuous'
+        cfg.n_sample = 2048
+        cfg.batch_size = 256
+        cfg.epoch_per_collect = 10
+        cfg.learning_rate = 3e-3
+    elif env == 'mario':
+        cfg.n_sample = 256
+        cfg.batch_size = 64
+        cfg.epoch_per_collect = 2
+        cfg.learning_rate = 1e-3
+        cfg.model = dict(
+            encoder_hidden_size_list=[64, 64, 128],
+            critic_head_hidden_size=128,
+            actor_head_hidden_size=128,
+        )
+    elif env == 'di_sheep':
+        cfg.n_sample = 3200
+        cfg.batch_size = 320
+        cfg.epoch_per_collect = 10
+        cfg.learning_rate = 3e-4
+        cfg.adv_norm = False
+        cfg.entropy_weight = 0.001
+    elif env == 'procgen_bigfish':
+        cfg.n_sample = 16384
+        cfg.batch_size = 16384
+        cfg.epoch_per_collect = 10
+        cfg.learning_rate = 5e-4
+        cfg.model = dict(
+            encoder_hidden_size_list=[64, 128, 256],
+            critic_head_hidden_size=256,
+            actor_head_hidden_size=256,
+        )
+    elif env in ['atari_qbert', 'atari_kangaroo', 'atari_bowling']:
+        cfg.n_sample = 1024
+        cfg.batch_size = 128
+        cfg.epoch_per_collect = 10
+        cfg.learning_rate = 0.0001
+        cfg.model = dict(
+            encoder_hidden_size_list=[32, 64, 64, 128],
+            actor_head_hidden_size=128,
+            critic_head_hidden_size=128,
+            critic_head_layer_num=2,
+        )
+    elif env == 'minigrid_fourroom':
+        cfg.n_sample = 3200
+        cfg.batch_size = 320
+        cfg.learning_rate = 3e-4
+        cfg.epoch_per_collect = 10
+        cfg.entropy_weight = 0.001
+    elif env == 'metadrive':
+        cfg.learning_rate = 3e-4
+        cfg.action_space = 'continuous'
+        cfg.entropy_weight = 0.001
+        cfg.n_sample = 3000
+        cfg.epoch_per_collect = 10
+        cfg.learning_rate = 0.0001
+        cfg.model = dict(
+            encoder_hidden_size_list=[32, 64, 64, 128],
+            actor_head_hidden_size=128,
+            critic_head_hidden_size=128,
+            critic_head_layer_num=2,
+        )
+    else:
+        raise KeyError("not supported env type: {}".format(env))
+    return cfg
+
+
+def get_instance_env(env: str) -> BaseEnv:
+    if env == 'lunarlander_discrete':
+        return DingEnvWrapper(gym.make('LunarLander-v2'))
+    elif env == 'lunarlander_continuous':
+        return DingEnvWrapper(gym.make('LunarLander-v2', continuous=True))
+    elif env == 'bipedalwalker':
+        return DingEnvWrapper(gym.make('BipedalWalker-v3'), cfg={'act_scale': True})
+    elif env == 'acrobot':
+        return DingEnvWrapper(gym.make('Acrobot-v1'))
+    elif env == 'rocket_landing':
+        from dizoo.rocket.envs import RocketEnv
+        cfg = EasyDict({
+            'task': 'landing',
+            'max_steps': 800,
+        })
+        return RocketEnv(cfg)
+    elif env == 'drone_fly':
+        from dizoo.gym_pybullet_drones.envs import GymPybulletDronesEnv
+        cfg = EasyDict({
+            'env_id': 'flythrugate-aviary-v0',
+            'action_type': 'VEL',
+        })
+        return GymPybulletDronesEnv(cfg)
+    elif env == 'hybrid_moving':
+        import gym_hybrid
+        return DingEnvWrapper(gym.make('Moving-v0'))
+    elif env == 'evogym_carrier':
+        import evogym.envs
+        from evogym import sample_robot, WorldObject
+        path = os.path.join(os.path.dirname(__file__), '../../dizoo/evogym/envs/world_data/carry_bot.json')
+        robot_object = WorldObject.from_json(path)
+        body = robot_object.get_structure()
+        return DingEnvWrapper(
+            gym.make('Carrier-v0', body=body),
+            cfg={
+                'env_wrapper': [
+                    lambda env: TimeLimitWrapper(env, max_limit=300),
+                    lambda env: EvalEpisodeReturnEnv(env),
+                ]
+            }
+        )
+    elif env == 'mario':
+        import gym_super_mario_bros
+        from nes_py.wrappers import JoypadSpace
+        return DingEnvWrapper(
+            JoypadSpace(gym_super_mario_bros.make("SuperMarioBros-1-1-v1"), [["right"], ["right", "A"]]),
+            cfg={
+                'env_wrapper': [
+                    lambda env: MaxAndSkipWrapper(env, skip=4),
+                    lambda env: WarpFrameWrapper(env, size=84),
+                    lambda env: ScaledFloatFrameWrapper(env),
+                    lambda env: FrameStackWrapper(env, n_frames=4),
+                    lambda env: TimeLimitWrapper(env, max_limit=200),
+                    lambda env: EvalEpisodeReturnEnv(env),
+                ]
+            }
+        )
+    elif env == 'di_sheep':
+        from sheep_env import SheepEnv
+        return DingEnvWrapper(SheepEnv(level=9))
+    elif env == 'procgen_bigfish':
+        return DingEnvWrapper(
+            gym.make('procgen:procgen-bigfish-v0', start_level=0, num_levels=1),
+            cfg={
+                'env_wrapper': [
+                    lambda env: TransposeWrapper(env),
+                    lambda env: ScaledFloatFrameWrapper(env),
+                    lambda env: EvalEpisodeReturnEnv(env),
+                ]
+            },
+            seed_api=False,
+        )
+    elif env in ['atari_qbert', 'atari_kangaroo', 'atari_bowling']:
+        from dizoo.atari.envs.atari_env import AtariEnv
+        atari_env_list = {
+            'atari_qbert': 'QbertNoFrameskip-v4',
+            'atari_kangaroo': 'KangarooNoFrameskip-v4',
+            'atari_bowling': 'BowlingNoFrameskip-v4'
+        }
+        cfg = EasyDict({
+            'env_id': atari_env_list[env],
+            'env_wrapper': 'atari_default',
+        })
+        ding_env_atari = DingEnvWrapper(gym.make(atari_env_list[env]), cfg=cfg)
+        ding_env_atari.enable_save_replay(env + '_log/')
+        return ding_env_atari
+    elif env == 'minigrid_fourroom':
+        import gymnasium
+        return DingEnvWrapper(
+            gymnasium.make('MiniGrid-FourRooms-v0'),
+            cfg={
+                'env_wrapper': [
+                    lambda env: GymToGymnasiumWrapper(env),
+                    lambda env: FlatObsWrapper(env),
+                    lambda env: TimeLimitWrapper(env, max_limit=300),
+                    lambda env: EvalEpisodeReturnEnv(env),
+                ]
+            }
+        )
+    elif env == 'metadrive':
+        from dizoo.metadrive.env.drive_env import MetaDrivePPOOriginEnv
+        from dizoo.metadrive.env.drive_wrapper import DriveEnvWrapper
+        cfg = dict(
+            map='XSOS',
+            horizon=4000,
+            out_of_road_penalty=40.0,
+            crash_vehicle_penalty=40.0,
+            out_of_route_done=True,
+        )
+        cfg = EasyDict(cfg)
+        return DriveEnvWrapper(MetaDrivePPOOriginEnv(cfg))
+    else:
+        raise KeyError("not supported env type: {}".format(env))
+
+
+def get_hybrid_shape(action_space) -> EasyDict:
+    return EasyDict({
+        'action_type_shape': action_space[0].n,
+        'action_args_shape': action_space[1].shape,
+    })