Apply add_eps_before_sqrt.patch & revert MCW yolo2 patch

vera121 · vera121 · commit 886dc26f4c79 · 2018-05-27T23:29:03.000-04:00
diff --git a/include/caffe/layers/batch_norm_layer.hpp b/include/caffe/layers/batch_norm_layer.hpp
@@ -65,8 +65,7 @@ class BatchNormLayer : public Layer<Dtype> {
   Dtype moving_average_fraction_;
   int channels_;
   Dtype eps_;
-  bool yolo_bn_;
-  Dtype yolo_eps_;
+  bool add_eps_before_sqrt_;
   bool update_global_stats_;
   bool icnet_; //CUSTOMIZATION
 
diff --git a/include/caffe/layers/mvn_layer.hpp b/include/caffe/layers/mvn_layer.hpp
@@ -41,6 +41,7 @@ class MVNLayer : public Layer<Dtype> {
   /// sum_multiplier is used to carry out sum using BLAS
   Blob<Dtype> sum_multiplier_;
   Dtype eps_;
+  bool add_eps_before_sqrt_;
 };
 
 }  // namespace caffe
diff --git a/include/caffe/layers/normalize_layer.hpp b/include/caffe/layers/normalize_layer.hpp
@@ -44,6 +44,7 @@ class NormalizeLayer : public Layer<Dtype> {
   bool across_spatial_;
   bool channel_shared_;
   Dtype eps_;
+  bool add_eps_before_sqrt_;
 };
 
 }  // namespace caffe
diff --git a/src/caffe/layers/batch_norm_layer.cpp b/src/caffe/layers/batch_norm_layer.cpp
@@ -20,8 +20,7 @@ void BatchNormLayer<Dtype>::LayerSetUp(const vector<Blob<Dtype>*>& bottom,
   else
     channels_ = bottom[0]->shape(1);
   eps_ = param.eps();
-  yolo_bn_ = param.yolo_bn();
-  yolo_eps_ = param.yolo_eps();
+  add_eps_before_sqrt_ = param.add_eps_before_sqrt();
   update_global_stats_ = param.update_global_stats();
   icnet_ = param.icnet();
   if (this->blobs_.size() > 0) {
@@ -153,15 +152,14 @@ void BatchNormLayer<Dtype>::Forward_cpu(const vector<Blob<Dtype>*>& bottom,
   }
 
   // normalize variance
-  if(yolo_bn_) {
-    caffe_sqrt(variance_.count(), variance_.cpu_data(),
-            variance_.mutable_cpu_data());
-    caffe_add_scalar(variance_.count(), yolo_eps_, variance_.mutable_cpu_data());
-  }
-  else {
+  if (add_eps_before_sqrt_) {
     caffe_add_scalar(variance_.count(), eps_, variance_.mutable_cpu_data());
     caffe_sqrt(variance_.count(), variance_.cpu_data(),
-            variance_.mutable_cpu_data());
+              variance_.mutable_cpu_data());
+  } else {
+    caffe_sqrt(variance_.count(), variance_.cpu_data(),
+              variance_.mutable_cpu_data());
+    caffe_add_scalar(variance_.count(), eps_, variance_.mutable_cpu_data());
   }
 
   // replicate variance to input size
diff --git a/src/caffe/layers/batch_norm_layer.cu b/src/caffe/layers/batch_norm_layer.cu
@@ -71,15 +71,14 @@ void BatchNormLayer<Dtype>::Forward_gpu(const vector<Blob<Dtype>*>& bottom,
   }
 
   // normalize variance
-  if(yolo_bn_) {
-    caffe_sqrt(variance_.count(), variance_.gpu_data(),
-        variance_.mutable_gpu_data());
-    caffe_add_scalar(variance_.count(), yolo_eps_, variance_.mutable_gpu_data());
-  }
-  else {
+  if (add_eps_before_sqrt_) {
     caffe_gpu_add_scalar(variance_.count(), eps_, variance_.mutable_gpu_data());
     caffe_gpu_sqrt(variance_.count(), variance_.gpu_data(),
-        variance_.mutable_gpu_data());
+          variance_.mutable_gpu_data());
+  } else {
+    caffe_gpu_sqrt(variance_.count(), variance_.gpu_data(),
+          variance_.mutable_gpu_data());
+    caffe_gpu_add_scalar(variance_.count(), eps_, variance_.mutable_gpu_data());
   }
 
   // replicate variance to input size
diff --git a/src/caffe/layers/mvn_layer.cpp b/src/caffe/layers/mvn_layer.cpp
@@ -25,6 +25,7 @@ void MVNLayer<Dtype>::Reshape(const vector<Blob<Dtype>*>& bottom,
   Dtype* multiplier_data = sum_multiplier_.mutable_cpu_data();
   caffe_set(sum_multiplier_.count(), Dtype(1), multiplier_data);
   eps_ = this->layer_param_.mvn_param().eps();
+  add_eps_before_sqrt_ = this->layer_param_.mvn_param().add_eps_before_sqrt();
 }
 
 template <typename Dtype>
@@ -57,10 +58,15 @@ void MVNLayer<Dtype>::Forward_cpu(const vector<Blob<Dtype>*>& bottom,
         variance_.mutable_cpu_data());  // E((X-EX)^2)
 
     // normalize variance
-    caffe_powx(variance_.count(), variance_.cpu_data(), Dtype(0.5),
-          variance_.mutable_cpu_data());
-
-    caffe_add_scalar(variance_.count(), eps_, variance_.mutable_cpu_data());
+    if (add_eps_before_sqrt_) {
+      caffe_add_scalar(variance_.count(), eps_, variance_.mutable_cpu_data());
+      caffe_powx(variance_.count(), variance_.cpu_data(), Dtype(0.5),
+            variance_.mutable_cpu_data());
+    } else {
+      caffe_powx(variance_.count(), variance_.cpu_data(), Dtype(0.5),
+            variance_.mutable_cpu_data());
+      caffe_add_scalar(variance_.count(), eps_, variance_.mutable_cpu_data());
+    }
 
     caffe_cpu_gemm<Dtype>(CblasNoTrans, CblasNoTrans, num, dim, 1, 1.,
           variance_.cpu_data(), sum_multiplier_.cpu_data(), 0.,
diff --git a/src/caffe/layers/mvn_layer.cu b/src/caffe/layers/mvn_layer.cu
@@ -36,10 +36,15 @@ void MVNLayer<Dtype>::Forward_gpu(const vector<Blob<Dtype>*>& bottom,
         variance_.mutable_gpu_data());  // E((X-EX)^2)
 
     // normalize variance
-    caffe_gpu_powx(variance_.count(), variance_.gpu_data(), Dtype(0.5),
-          variance_.mutable_gpu_data());
-
-    caffe_gpu_add_scalar(variance_.count(), eps_, variance_.mutable_gpu_data());
+    if (add_eps_before_sqrt_) {
+      caffe_gpu_add_scalar(variance_.count(), eps_, variance_.mutable_gpu_data());
+      caffe_gpu_powx(variance_.count(), variance_.gpu_data(), Dtype(0.5),
+            variance_.mutable_gpu_data());
+    } else {
+      caffe_gpu_powx(variance_.count(), variance_.gpu_data(), Dtype(0.5),
+            variance_.mutable_gpu_data());
+      caffe_gpu_add_scalar(variance_.count(), eps_, variance_.mutable_gpu_data());
+    }
 
     caffe_gpu_gemm<Dtype>(CblasNoTrans, CblasNoTrans, num, dim, 1, 1.,
           variance_.gpu_data(), sum_multiplier_.gpu_data(), 0.,
diff --git a/src/caffe/layers/normalize_layer.cpp b/src/caffe/layers/normalize_layer.cpp
@@ -22,6 +22,7 @@ void NormalizeLayer<Dtype>::LayerSetUp(const vector<Blob<Dtype>*>& bottom,
     norm_.Reshape(bottom[0]->num(), 1, bottom[0]->height(), bottom[0]->width());
   }
   eps_ = norm_param.eps();
+  add_eps_before_sqrt_ = norm_param.add_eps_before_sqrt();
   int channels = bottom[0]->channels();
   int spatial_dim = bottom[0]->width() * bottom[0]->height();
   sum_channel_multiplier_.Reshape(1, channels, 1, 1);
@@ -101,8 +102,13 @@ void NormalizeLayer<Dtype>::Forward_cpu(const vector<Blob<Dtype>*>& bottom,
     caffe_sqr<Dtype>(dim, bottom_data, buffer_data);
     if (across_spatial_) {
       // add eps to avoid overflow
-      norm_data[n] = pow(caffe_cpu_asum<Dtype>(dim, buffer_data)+eps_,
-                         Dtype(0.5));
+      if (add_eps_before_sqrt_) {
+        norm_data[n] = pow(caffe_cpu_asum<Dtype>(dim, buffer_data)+eps_,
+                           Dtype(0.5));
+      } else {
+        norm_data[n] = pow(caffe_cpu_asum<Dtype>(dim, buffer_data),
+                           Dtype(0.5))+eps_;
+      }
       caffe_cpu_scale<Dtype>(dim, Dtype(1.0 / norm_data[n]), bottom_data,
                              top_data);
     } else {
diff --git a/src/caffe/layers/normalize_layer.cu b/src/caffe/layers/normalize_layer.cu
@@ -73,7 +73,11 @@ void NormalizeLayer<Dtype>::Forward_gpu(const vector<Blob<Dtype>*>& bottom,
       Dtype normsqr;
       caffe_gpu_asum<Dtype>(dim, buffer_data, &normsqr);
       // add eps to avoid overflow
-      norm_data[n] = pow(normsqr+eps_, Dtype(0.5));
+      if (add_eps_before_sqrt_) {
+        norm_data[n] = pow(normsqr+eps_, Dtype(0.5));
+      } else {
+        norm_data[n] = pow(normsqr, Dtype(0.5))+eps_;
+      }
       caffe_gpu_scale<Dtype>(dim, Dtype(1.0 / norm_data[n]), bottom_data,
                              top_data);
     } else {
diff --git a/src/caffe/proto/caffe.proto b/src/caffe/proto/caffe.proto
@@ -1136,8 +1136,7 @@ message BatchNormParameter {
   // Small value to add to the variance estimate so that we don't divide by
   // zero.
   optional float eps = 3 [default = 1e-5];
-  optional bool yolo_bn = 4 [default = false];
-  optional float yolo_eps = 5 [default = 1e-6];
+  optional bool add_eps_before_sqrt = 4 [default = true];
   optional bool update_global_stats = 6 [default = true]; //CUSTOMIZATION
   optional bool icnet = 7 [default = false]; //CUSTOMIZATION
 }
@@ -1862,6 +1861,7 @@ message MVNParameter {
 
   // Epsilon for not dividing by zero while normalizing variance
   optional float eps = 3 [default = 1e-9];
+  optional bool add_eps_before_sqrt = 4 [default = false];
 }
 
 // Message that stores parameters used by NormalizeLayer
@@ -1873,6 +1873,7 @@ message NormalizeParameter {
   optional bool channel_shared = 3 [default = true];
   // Epsilon for not dividing by zero while normalizing variance
   optional float eps = 4 [default = 1e-10];
+  optional bool add_eps_before_sqrt = 5 [default = true];
 }
 
 message ParameterParameter {