update docs for MCPG loss

zsdonghao · zsdonghao · commit 37388d7a22f6 · 2017-07-19T16:17:24.000+01:00
diff --git a/tensorlayer/rein.py b/tensorlayer/rein.py
@@ -60,15 +60,15 @@ def cross_entropy_reward_loss(logits, actions, rewards, name=None):
 
     Examples
     ----------
-    >>> states_batch_pl = tf.placeholder(tf.float32, shape=[None, D])   # observation for training
-    >>> network = tl.layers.InputLayer(states_batch_pl, name='input_layer')
-    >>> network = tl.layers.DenseLayer(network, n_units=H, act = tf.nn.relu, name='relu1')
-    >>> network = tl.layers.DenseLayer(network, n_units=3, act = tl.activation.identity, name='output_layer')
+    >>> states_batch_pl = tf.placeholder(tf.float32, shape=[None, D])
+    >>> network = InputLayer(states_batch_pl, name='input')
+    >>> network = DenseLayer(network, n_units=H, act=tf.nn.relu, name='relu1')
+    >>> network = DenseLayer(network, n_units=3, name='out')
     >>> probs = network.outputs
     >>> sampling_prob = tf.nn.softmax(probs)
     >>> actions_batch_pl = tf.placeholder(tf.int32, shape=[None])
     >>> discount_rewards_batch_pl = tf.placeholder(tf.float32, shape=[None])
-    >>> loss = cross_entropy_reward_loss(probs, actions_batch_pl, discount_rewards_batch_pl)
+    >>> loss = tl.rein.cross_entropy_reward_loss(probs, actions_batch_pl, discount_rewards_batch_pl)
     >>> train_op = tf.train.RMSPropOptimizer(learning_rate, decay_rate).minimize(loss)
     """