cleanup and tests passing

ToucheSir · ToucheSir · commit b3e96826dc18 · 2022-02-08T23:01:45.000-05:00
diff --git a/ext/NNlibCUDA/src/cudnn/batchnorm.jl b/ext/NNlibCUDA/src/cudnn/batchnorm.jl
@@ -13,61 +13,65 @@ end
 
 BNCache() = BNCache(nothing, nothing)
 
-@inline _wsize(y) = ntuple(i -> i == ndims(y) - 1 ? 1 : size(y, i), ndims(y))
+@inline _wsize(x::AbstractArray{<:Any,N}) where N = ntuple(i -> i == N-1 ? size(x, N-1) : 1, N)
 
 function batchnorm(g::Nothing, b::Nothing, x::DenseCuArray,
-                running_mean, running_var, momentum;
-                kws...)
+                   running_mean, running_var, momentum; kws...)
   affine_sz = _wsize(x)
   g = fill!(similar(x, affine_sz), 1)
   b = fill!(similar(x, affine_sz), 0)
-  
-  batchnorm(g, b, x, running_mean, running_var, momentum;
-                     kws...)
+  return batchnorm(g, b, x, running_mean, running_var, momentum; kws...)
 end
 
 # NOTE: CuDNN supports only 4D and 5D Tensors for BatchNorm Operations
 # so reshape a 2D Tensor into 4D
-batchnorm(g::DenseCuArray{T}, b::DenseCuArray{T}, x::DenseCuArray{T,2},
-          running_mean, running_var, momentum;
-          kws...) where T<:Union{Float32, Float64} =
-  dropdims(batchnorm(g, b, reshape(x, 1, 1, size(x, 1), size(x, 2)), 
-                     running_mean, running_var, momentum;
-                     kws...), 
-            dims = (1, 2))
+function batchnorm(g::DenseCuArray{T}, b::DenseCuArray{T}, x::DenseCuArray{T,2},
+                   running_mean, running_var, momentum; kws...) where T<:Union{Float32, Float64}
+  x = reshape(x, 1, 1, size(x, 1), size(x, 2))
+  y = batchnorm(g, b, x, running_mean, running_var, momentum; kws...)
+  return dropdims(y, dims = (1, 2))
+end
 
 function batchnorm(g::DenseCuArray{T}, b::DenseCuArray{T}, x::Union{DenseCuArray{T,4},DenseCuArray{T,5}},
-                    running_mean, running_var, momentum;
-                    kws...) where T<:Union{Float32, Float64}
+                   running_mean, running_var, momentum; kws...) where T<:Union{Float32, Float64}
   cudnnBNForward!(similar(x), g, b, x, running_mean, running_var, momentum; kws...)
 end
 
 function cudnnBNForward!(y::DenseCuArray{T}, g::DenseCuArray{T}, b::DenseCuArray{T}, x::DenseCuArray{T},
-                        running_mean, running_var, momentum; 
-                        cache = nothing, 
+                        running_mean, running_var, momentum;
+                        cache = nothing,
                         alpha = T(1), beta = T(0),
-                        eps = T(1e-5), 
+                        eps = T(1e-5),
                         training = true,
                         affine = true,
                         track_stats = true) where T<:Union{Float32, Float64}
   dims = _wsize(x)
   if eps < CUDNN_BN_MIN_EPSILON
-    # warn("eps ",eps," is too small for CuDNN so eps has been assigned the value ", CUDNN_BN_MIN_EPSILON)
+    @warn "eps $eps is too small for CuDNN, setting to CUDNN_BN_MIN_EPSILON=$CUDNN_BN_MIN_EPSILON"
     eps = CUDNN_BN_MIN_EPSILON
   end
+
+  if running_mean === nothing || running_var === nothing
+    running_mean !== running_var && throw(ArgumentError("both or neither of running_mean and running_var must be nothing"))
+    if track_stats || !training
+      running_mean = fill!(similar(x, dims), 0)
+      running_var = fill!(similar(x, dims), 1)
+    end
+  end
+
   xd = cudnnTensorDescriptor(x)
   yd = cudnnTensorDescriptor(y)
   gd = cudnnTensorDescriptor(CUDNN_TENSOR_NCHW, cudnnDataType(T), Cint(length(dims)), dim4(dims,Val(CUDNN_TENSOR_NCHW)))
 
-
   if training
     if !track_stats
       running_mean = CU_NULL
       running_var = CU_NULL
     end
+
     if cache !== nothing
-      mean = zeros(CuArray{T}, dims...)
-      ivar = ones(CuArray{T}, dims...)
+      mean = fill!(similar(x, dims), 0)
+      ivar = fill!(similar(x, dims), 1)
     else
       mean = CU_NULL
       ivar = CU_NULL
@@ -86,11 +90,11 @@ function cudnnBNForward!(y::DenseCuArray{T}, g::DenseCuArray{T}, b::DenseCuArray
 end
 
 function ∇batchnorm(g::Nothing, b::Nothing, x::DenseCuArray, dy::DenseCuArray,
-                  running_mean, running_var, momentum; kws...)
+                    running_mean, running_var, momentum; kws...)
   affine_sz = _wsize(x)
   g = fill!(similar(x, affine_sz), 1)
   b = fill!(similar(x, affine_sz), 0)
-  ∇batchnorm(g, b, x, dy, running_mean, running_var, momentum; kws...)
+  return ∇batchnorm(g, b, x, dy, running_mean, running_var, momentum; kws...)
 end
 
 function ∇batchnorm(g::DenseCuArray{T}, b::DenseCuArray{T}, x::DenseCuArray{T, 2}, dy::DenseCuArray{T, 2},
@@ -112,7 +116,7 @@ function ∇batchnorm(g::DenseCuArray{T}, b::DenseCuArray{T}, x::DenseCuArray{T}
   if affine
     (dg, db, dx)
   else
-    # CUDNN always calculates dg and db, therefore we just have to drop them  
+    # CUDNN always calculates dg and db, therefore we just have to drop them
     (nothing, nothing, dx)
   end
 end
@@ -122,9 +126,8 @@ function cudnnBNBackward!(dg::DenseCuArray{T}, g::DenseCuArray{T}, db::DenseCuAr
                           running_mean, running_var,
                           momentum; cache = nothing, eps = T(1e-5),
                           alpha = T(1), beta = T(0),
-                          dalpha = T(1), dbeta = T(0), training = true, 
+                          dalpha = T(1), dbeta = T(0), training = true,
                           track_stats = true) where T<:Union{Float32, Float64}
-  
   if !track_stats
     running_mean = CU_NULL
     running_var = CU_NULL
@@ -135,27 +138,18 @@ function cudnnBNBackward!(dg::DenseCuArray{T}, g::DenseCuArray{T}, db::DenseCuAr
   dxd = cudnnTensorDescriptor(dx)
   gd = cudnnTensorDescriptor(CUDNN_TENSOR_NCHW, cudnnDataType(T), Cint(length(_wsize(x))), dim4(_wsize(x),Val(CUDNN_TENSOR_NCHW)))
   if cache !== nothing
+    @debug "fetching mean and ivar from the cache"
     mean, ivar = cache.mean, cache.ivar
-    @debug "mean and ivar are fetched from the cache"
   else
     mean, ivar = CU_NULL, CU_NULL
   end
 
   if eps < CUDNN_BN_MIN_EPSILON
+    @warn "eps $eps is too small for CuDNN, setting to CUDNN_BN_MIN_EPSILON=$CUDNN_BN_MIN_EPSILON"
     eps = CUDNN_BN_MIN_EPSILON
   end
 
-  cudnnBatchNormalizationBackward(handle(), CUDNN_BATCHNORM_SPATIAL, 
-        scalingParameter(T, alpha), scalingParameter(T, beta), scalingParameter(T, dalpha), scalingParameter(T, dbeta), 
-        xd, x, dyd, dy, dxd, dx, gd, g, dg, db, eps, 
-        mean, ivar)
-end
-
-function rrule(::typeof(batchnorm), g, b, x, running_mean, running_var, momentum; kws...)
-  y = batchnorm(g, b, x, running_mean, running_var, momentum; kws...) 
-  function batchnorm_pullback(Δ)
-    dg, db, dx = ∇batchnorm(g, b, x, Δ, running_mean, running_var, momentum; kws...)
-    NoTangent(), something(dg, NoTangent()), something(db, NoTangent()), dx, NoTangent(), NoTangent(), NoTangent()
-  end
-  y, batchnorm_pullback
+  cudnnBatchNormalizationBackward(handle(), CUDNN_BATCHNORM_SPATIAL,
+        scalingParameter(T, alpha), scalingParameter(T, beta), scalingParameter(T, dalpha), scalingParameter(T, dbeta),
+        xd, x, dyd, dy, dxd, dx, gd, g, dg, db, eps, mean, ivar)
 end
diff --git a/ext/NNlibCUDA/test/batchnorm.jl b/ext/NNlibCUDA/test/batchnorm.jl
@@ -1,15 +1,27 @@
 @testset "Batchnorm" begin
     v = CUDA.rand(Float32, 2)
     m = CUDA.rand(Float32, 2, 5)
-    for training in (false, true)
-        NNlibCUDA.batchnorm(v, v, m, v, v, 1.0; training=training)
-        NNlibCUDA.∇batchnorm(v, v, m, m, v, v, 1.0; training=training)
-    end
-
-    @testset "track_stats=false" begin
-        for training in (false, true)
-            NNlibCUDA.batchnorm(v, v, m, nothing, nothing, 1.0; training=training, track_stats=false)
-            NNlibCUDA.∇batchnorm(v, v, m, m, nothing, nothing, 1.0; training=training, track_stats=false)
-        end 
-    end
+
+    @testset for training in (true, false), track_stats in (true, false)
+        kws = (training=training, track_stats=track_stats)
+
+        # Normal
+        NNlibCUDA.batchnorm(v, v, m, v, v, 1.0; kws...)
+        NNlibCUDA.∇batchnorm(v, v, m, m, v, v, 1.0; kws...)
+
+        # No affine
+        NNlibCUDA.batchnorm(nothing, nothing, m, v, v, 1.0; kws...)
+        NNlibCUDA.∇batchnorm(nothing, nothing, m, m, v, v, 1.0; kws...)
+
+        # No tracking
+        NNlibCUDA.batchnorm(v, v, m, nothing, nothing, 1.0; kws...)
+        NNlibCUDA.∇batchnorm(v, v, m, m, nothing, nothing, 1.0; kws...)
+
+        # Both or neither tracked or affine params must be set
+        for (α, β) in ((v, nothing), (nothing, v))
+            @test_throws MethodError NNlibCUDA.batchnorm(α, β, m, v, v, 1.0; kws...)
+            @test_throws MethodError NNlibCUDA.∇batchnorm(α, β, m, m, v, v, 1.0; kws...)
+            @test_throws ArgumentError NNlibCUDA.batchnorm(v, v, m, α, β, 1.0; kws...)
+        end
+    end 
 end