first commit.

RobAltena · treo · commit 2fa23a16bf1a · 2020-06-16T11:01:29.000+02:00
Signed-off-by: Robert Altena &lt;Rob@Ra-ai.com&gt;
diff --git a/rl4j-cartpole-examples/.gitignore b/rl4j-cartpole-examples/.gitignore
@@ -0,0 +1,3 @@
+/.idea
+/target
+*.iml
diff --git a/rl4j-cartpole-examples/pom.xml b/rl4j-cartpole-examples/pom.xml
@@ -0,0 +1,85 @@
+<?xml version="1.0" encoding="UTF-8"?>
+<project xmlns="http://maven.apache.org/POM/4.0.0"
+         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
+         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
+    <modelVersion>4.0.0</modelVersion>
+
+    <groupId>cartpole</groupId>
+    <artifactId>cartpole</artifactId>
+    <version>1.0-SNAPSHOT</version>
+    <properties>
+        <nd4j.version>1.0.0-SNAPSHOT</nd4j.version>
+        <rl4j.version>1.0.0-SNAPSHOT</rl4j.version>
+        <logback.version>1.1.7</logback.version>
+
+        <nd4j.backend>nd4j-native-platform</nd4j.backend>
+    </properties>
+
+    <repositories>
+        <repository>
+            <id>snapshots-repo</id>
+            <url>https://oss.sonatype.org/content/repositories/snapshots</url>
+            <releases>
+                <enabled>false</enabled>
+            </releases>
+            <snapshots>
+                <enabled>true</enabled>
+                <updatePolicy>daily</updatePolicy>  <!-- Optional, update daily -->
+            </snapshots>
+        </repository>
+    </repositories>
+
+    <dependencies>
+    <!-- ND4J backend. You need one in every DL4J project. Normally define artifactId as either nd4j-native-platform or nd4j-cuda-X.X-platform to use CUDA GPUs (check parent pom for supported cuda versions) -->
+        <dependency>
+            <groupId>org.nd4j</groupId>
+            <artifactId>${nd4j.backend}</artifactId>
+            <version>${nd4j.version}</version>
+        </dependency>
+
+        <dependency>
+            <groupId>org.deeplearning4j</groupId>
+            <artifactId>rl4j-core</artifactId>
+            <version>${rl4j.version}</version>
+        </dependency>
+        <dependency>
+            <groupId>org.deeplearning4j</groupId>
+            <artifactId>rl4j-gym</artifactId>
+            <version>${rl4j.version}</version>
+        </dependency>
+        <dependency>
+            <groupId>org.deeplearning4j</groupId>
+            <artifactId>rl4j-ale</artifactId>
+            <version>${rl4j.version}</version>
+        </dependency>
+        <!-- The Arcade Learning Environment (ALE) is under GPL license, so we cannot use it as a dependency of RL4J. -->
+        <!--
+                <dependency>
+                    <groupId>org.bytedeco</groupId>
+                    <artifactId>ale-platform</artifactId>
+                    <version>0.6.0-1.5</version>
+                </dependency>
+        -->
+        <dependency>
+            <groupId>org.deeplearning4j</groupId>
+            <artifactId>rl4j-malmo</artifactId>
+            <version>${rl4j.version}</version>
+        </dependency>
+        <dependency>
+            <groupId>com.microsoft.msr.malmo</groupId>
+            <artifactId>MalmoJavaJar</artifactId>
+            <version>0.30.0</version>
+        </dependency>
+        <dependency>
+            <groupId>junit</groupId>
+            <artifactId>junit</artifactId>
+            <version>3.8.1</version>
+            <scope>test</scope>
+        </dependency>
+        <dependency>
+            <groupId>ch.qos.logback</groupId>
+            <artifactId>logback-classic</artifactId>
+            <version>${logback.version}</version>
+        </dependency>
+    </dependencies>
+</project>
diff --git a/rl4j-cartpole-examples/src/main/java/Cartpole.java b/rl4j-cartpole-examples/src/main/java/Cartpole.java
@@ -0,0 +1,89 @@
+/* *****************************************************************************
+ * Copyright (c) 2015-2019 Skymind, Inc.
+ *
+ * This program and the accompanying materials are made available under the
+ * terms of the Apache License, Version 2.0 which is available at
+ * https://www.apache.org/licenses/LICENSE-2.0.
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS, WITHOUT
+ * WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. See the
+ * License for the specific language governing permissions and limitations
+ * under the License.
+ *
+ * SPDX-License-Identifier: Apache-2.0
+ ******************************************************************************/
+
+import org.deeplearning4j.rl4j.learning.sync.qlearning.QLearning;
+import org.deeplearning4j.rl4j.learning.sync.qlearning.discrete.QLearningDiscreteDense;
+import org.deeplearning4j.rl4j.mdp.gym.GymEnv;
+import org.deeplearning4j.rl4j.network.dqn.DQNFactoryStdDense;
+import org.deeplearning4j.rl4j.policy.DQNPolicy;
+import org.deeplearning4j.rl4j.space.Box;
+import org.nd4j.linalg.learning.config.Adam;
+
+import java.io.IOException;
+import java.util.logging.Logger;
+
+/**
+ * @author rubenfiszel (ruben.fiszel@epfl.ch) on 8/11/16.
+ *
+ * Main example for Cartpole DQN
+ */
+public class Cartpole
+{
+    private static QLearning.QLConfiguration CARTPOLE_QL =
+            new QLearning.QLConfiguration(
+                    123,    //Random seed
+                    200,    //Max step By epoch
+                    150000, //Max step
+                    150000, //Max size of experience replay
+                    32,     //size of batches
+                    500,    //target update (hard)
+                    10,     //num step noop warmup
+                    0.01,   //reward scaling
+                    0.99,   //gamma
+                    1.0,    //td-error clipping
+                    0.1f,   //min epsilon
+                    1000,   //num step for eps greedy anneal
+                    true    //double DQN
+            );
+
+    private static DQNFactoryStdDense.Configuration CARTPOLE_NET =
+            DQNFactoryStdDense.Configuration.builder()
+                    .l2(0.001).updater(new Adam(0.0005)).numHiddenNodes(16).numLayer(3).build();
+
+    public static void main(String[] args) throws IOException {
+        DQNPolicy<Box>  pol = cartPole();
+        loadCartpole(pol);
+    }
+
+    private static DQNPolicy<Box> cartPole() throws IOException {
+        //define the mdp from gym (name, render)
+        GymEnv<Box, Integer, org.deeplearning4j.rl4j.space.DiscreteSpace> mdp = new GymEnv<Box, Integer, org.deeplearning4j.rl4j.space.DiscreteSpace>("CartPole-v0", false, false);
+        QLearningDiscreteDense<Box> dql = new QLearningDiscreteDense<Box>(mdp, CARTPOLE_NET, CARTPOLE_QL);
+
+        dql.train();
+        mdp.close();
+
+        return dql.getPolicy(); //get the final policy
+    }
+
+    private static void loadCartpole(DQNPolicy<Box> pol) throws IOException {
+        //use the trained agent on a new similar mdp (but render it this time)
+
+        //define the mdp from gym (name, render)
+        GymEnv<Box, Integer, org.deeplearning4j.rl4j.space.ActionSpace<Integer>> mdp2 = new GymEnv<Box, Integer, org.deeplearning4j.rl4j.space.ActionSpace<Integer>>("CartPole-v0", true, false);
+
+        //evaluate the agent
+        double rewards = 0;
+        for (int i = 0; i < 1000; i++) {
+            mdp2.reset();
+            double reward = pol.play(mdp2);
+            rewards += reward;
+            Logger.getAnonymousLogger().info("Reward: " + reward);
+        }
+
+        Logger.getAnonymousLogger().info("average: " + rewards/1000);
+    }
+}