DEBUG - BatchNormLayer

zsdonghao · zsdonghao · commit f26de0880f48 · 2017-01-07T18:15:04.000+08:00
diff --git a/example/tutorial_cifar10_tfrecord.py b/example/tutorial_cifar10_tfrecord.py
@@ -246,26 +246,25 @@ def inference_batch_norm(x_crop, y_, reuse, is_train):
         with tf.variable_scope("model", reuse=reuse):
             tl.layers.set_name_reuse(reuse)
             network = tl.layers.InputLayer(x_crop, name='input_layer')
+            
             network = tl.layers.Conv2dLayer(network, act=tf.identity,
                         shape=[5, 5, 3, 64], strides=[1, 1, 1, 1], padding='SAME', # 64 features for each 5x5x3 patch
                         W_init=W_init, b_init=None, name='cnn_layer1')                            # output: (batch_size, 24, 24, 64)
             network = tl.layers.BatchNormLayer(network, is_train=is_train,
                         act=tf.nn.relu, name='batch_norm1')
-
             network = tl.layers.PoolLayer(network, ksize=[1, 3, 3, 1],
                         strides=[1, 2, 2, 1], padding='SAME',
                         pool=tf.nn.max_pool, name='pool_layer1',)               # output: (batch_size, 12, 12, 64)
 
             network = tl.layers.Conv2dLayer(network, act=tf.identity,
                         shape=[5, 5, 64, 64], strides=[1, 1, 1, 1], padding='SAME',# 64 features for each 5x5 patch
                         W_init=W_init, b_init=None, name ='cnn_layer2')         # output: (batch_size, 12, 12, 64)
-
             network = tl.layers.BatchNormLayer(network, is_train=is_train,
                         act=tf.nn.relu, name='batch_norm2')
-
             network = tl.layers.PoolLayer(network, ksize=[1, 3, 3, 1],
                         strides=[1, 2, 2, 1], padding='SAME',
                         pool = tf.nn.max_pool, name ='pool_layer2')             # output: (batch_size, 6, 6, 64)
+
             network = tl.layers.FlattenLayer(network, name='flatten_layer')     # output: (batch_size, 2304)
             network = tl.layers.DenseLayer(network, n_units=384, act=tf.nn.relu,
                         W_init=W_init2, b_init=b_init2, name='relu1')           # output: (batch_size, 384)
diff --git a/tensorlayer/layers.py b/tensorlayer/layers.py
@@ -868,10 +868,10 @@ def __init__(
 
         # The name of placeholder for keep_prob is the same with the name
         # of the Layer.
-        set_keep[name] = tf.placeholder(tf.float32)
         if is_fix:
             self.outputs = tf.nn.dropout(self.inputs, keep, name=name)
         else:
+            set_keep[name] = tf.placeholder(tf.float32)
             self.outputs = tf.nn.dropout(self.inputs, set_keep[name], name=name) # 1.2
 
         self.all_layers = list(layer.all_layers)
@@ -1688,6 +1688,7 @@ def __init__(
         self.all_drop = dict(layer.all_drop)
         self.all_layers.extend( [self.outputs] )
 
+
 class BatchNormLayer(Layer):
     """
     The :class:`BatchNormLayer` class is a normalization layer, see ``tf.nn.batch_normalization`` and ``tf.nn.moments``.
@@ -1725,7 +1726,8 @@ def __init__(
         act = tf.identity,
         is_train = None,
         beta_init = tf.zeros_initializer,
-        gamma_init = tf.ones_initializer,
+        # gamma_init = tf.ones_initializer,
+        gamma_init = tf.random_normal_initializer(mean=1.0, stddev=0.002),
         name ='batchnorm_layer',
     ):
         Layer.__init__(self, name=name)
@@ -1735,26 +1737,26 @@ def __init__(
         x_shape = self.inputs.get_shape()
         params_shape = x_shape[-1:]
 
-        def _get_variable(name,
-                          shape,
-                          initializer,
-                          weight_decay=0.0,
-                          dtype='float',
-                          trainable=True):
-            "A little wrapper around tf.get_variable to do weight decay and add to"
-            "resnet collection"
-            if weight_decay > 0:
-                regularizer = tf.contrib.layers.l2_regularizer(weight_decay)
-            else:
-                regularizer = None
-            # collections = [TF_GRAPHKEYS_VARIABLES, RESNET_VARIABLES]
-            return tf.get_variable(name,
-                                   shape=shape,
-                                   initializer=initializer,
-                                   dtype=dtype,
-                                   regularizer=regularizer,
-                                #    collections=collections,
-                                   trainable=trainable)
+        # def _get_variable(name,
+        #                   shape,
+        #                   initializer,
+        #                   weight_decay=0.0,
+        #                   dtype='float',
+        #                   trainable=True):
+        #     "A little wrapper around tf.get_variable to do weight decay and add to"
+        #     "resnet collection"
+        #     if weight_decay > 0:
+        #         regularizer = tf.contrib.layers.l2_regularizer(weight_decay)
+        #     else:
+        #         regularizer = None
+        #     # collections = [TF_GRAPHKEYS_VARIABLES, RESNET_VARIABLES]
+        #     return tf.get_variable(name,
+        #                            shape=shape,
+        #                            initializer=initializer,
+        #                            dtype=dtype,
+        #                            regularizer=regularizer,
+        #                         #    collections=collections,
+        #                            trainable=trainable)
 
         from tensorflow.python.training import moving_averages
         from tensorflow.python.ops import control_flow_ops
@@ -1767,42 +1769,69 @@ def _get_variable(name,
 
             axis = list(range(len(x_shape) - 1))
 
-            beta = _get_variable('beta',
-                                 params_shape,
-                                 initializer=beta_init)
-            try: # TF12
-                gamma = _get_variable('gamma',
-                                      params_shape,
-                                      initializer=gamma_init())
-            except: # TF11
-                gamma = _get_variable('gamma',
-                                      params_shape,
-                                      initializer=gamma_init)
+            # beta = _get_variable('beta',
+            #                      params_shape,
+            #                      initializer=beta_init)
+            beta = tf.get_variable('beta', shape=params_shape,
+                               initializer=beta_init,
+                               trainable=is_train)#, restore=restore)
+            # try: # TF12
+            #     gamma = _get_variable('gamma',
+            #                           params_shape,
+            #                           initializer=gamma_init())
+            # except: # TF11
+            # gamma = _get_variable('gamma',
+            #                       params_shape,
+            #                       initializer=gamma_init)
+            # print("x"*100)
+
+            gamma = tf.get_variable('gamma', shape=params_shape,
+                                initializer=gamma_init, trainable=is_train,
+                                )#restore=restore)
 
             # trainable=False means : it prevent TF from updating this variable
             # from the gradient, we have to update this from the mean computed
             # from each batch during training
-            moving_mean = _get_variable('moving_mean',
-                                        params_shape,
-                                        initializer=tf.zeros_initializer,
-                                        trainable=False)
-            try: # TF12
-                moving_variance = _get_variable('moving_variance',
-                                                params_shape,
-                                                initializer=tf.ones_initializer(),
-                                                trainable=False)
-            except: # TF11
-                moving_variance = _get_variable('moving_variance',
-                                                params_shape,
-                                                initializer=tf.ones_initializer,
-                                                trainable=False)
+            # moving_mean = _get_variable('moving_mean',
+            #                             params_shape,
+            #                             initializer=tf.zeros_initializer,
+            #                             trainable=False)
+            # try: # TF12
+            #     moving_variance = _get_variable('moving_variance',
+            #                                     params_shape,
+            #                                     initializer=tf.ones_initializer(),
+            #                                     trainable=False)
+            # except: # TF11
+            #     moving_variance = _get_variable('moving_variance',
+            #                                     params_shape,
+            #                                     initializer=tf.ones_initializer,
+            #                                     trainable=False)
+
+            moving_mean = tf.get_variable('moving_mean',
+                                      params_shape,
+                                      initializer=tf.zeros_initializer,
+                                      trainable=False,)#   restore=restore)
+            moving_variance = tf.get_variable('moving_variance',
+                                          params_shape,
+                                          initializer=tf.constant_initializer(1.),
+                                          trainable=False,)#   restore=restore)
 
             # These ops will only be preformed when training.
             mean, variance = tf.nn.moments(self.inputs, axis)
-            update_moving_mean = moving_averages.assign_moving_average(moving_mean,
-                                                                       mean, decay)
-            update_moving_variance = moving_averages.assign_moving_average(
-                moving_variance, variance, decay)
+            try:    # TF12
+                update_moving_mean = moving_averages.assign_moving_average(
+                                moving_mean, mean, decay, zero_debias=True)     # if zero_debias=True, has bias
+                update_moving_variance = moving_averages.assign_moving_average(
+                                moving_variance, variance, decay, zero_debias=True) # if zero_debias=True, has bias
+                # print("TF12 moving")
+            except Exception as e:  # TF11
+                update_moving_mean = moving_averages.assign_moving_average(
+                                moving_mean, mean, decay)
+                update_moving_variance = moving_averages.assign_moving_average(
+                                moving_variance, variance, decay)
+                # print("TF11 moving")
+
+
             # tf.add_to_collection(UPDATE_OPS_COLLECTION, update_moving_mean)
             # tf.add_to_collection(UPDATE_OPS_COLLECTION, update_moving_variance)
 
@@ -1822,7 +1851,9 @@ def mean_var_with_update():
 
             self.outputs = act( tf.nn.batch_normalization(self.inputs, mean, variance, beta, gamma, epsilon) )
             #x.set_shape(inputs.get_shape()) ??
-            variables = tf.get_collection(TF_GRAPHKEYS_VARIABLES, scope=vs.name)
+            variables = tf.get_collection(TF_GRAPHKEYS_VARIABLES, scope=vs.name)  # 8 params in TF12 if zero_debias=True
+                # variables = tf.get_collection(tf.GraphKeys.TRAINABLE_VARIABLES, scope=vs.name)    # 2 params beta, gamma
+                # variables = [beta, gamma, moving_mean, moving_variance]
 
             # print(len(variables))
             # for idx, v in enumerate(variables):
@@ -1836,6 +1867,8 @@ def mean_var_with_update():
         self.all_params.extend( variables )
         # self.all_params.extend( [beta, gamma] )
 
+
+
 # class BatchNormLayer(Layer):
 #     """
 #     The :class:`BatchNormLayer` class is a normalization layer, see ``tf.nn.batch_normalization``.