First draft of AD tests

theogf · theogf · commit 4aeb0e3e2c2c · 2020-05-12T19:13:58.000+02:00
diff --git a/test/test_AD.jl b/test/test_AD.jl
@@ -1,119 +1,101 @@
 using KernelFunctions
-using Zygote, ForwardDiff
-using Test, LinearAlgebra
+using KernelFunctions: kappa
+using Flux: params
+import Zygote, ForwardDiff, ReverseDiff
+using Test, LinearAlgebra, Random
 using FiniteDifferences
 
-dims = [10,5]
+include("utils_AD.jl")
+
+dims = [3, 3]
+ν = 3.0
+
+rng = MersenneTwister(42)
+
+A = rand(rng, dims...)
+B = rand(rng, dims...)
+K = [zeros(dims[1], dims[1]), zeros(dims[2], dims[2])]
+
+x = rand(rng, dims[1])
+y = rand(rng, dims[1])
+
+l = rand(rng)
+vl = l * ones(dims[1])
+
+kernels = [
+    SqExponentialKernel(),
+    ExponentialKernel(),
+    MaternKernel(ν = ν),
+    # transform(SqExponentialKernel(), l),
+    # transform(SqExponentialKernel(), vl),
+    # ExponentiatedKernel() + LinearKernel(),
+    # 2.0 * PolynomialKernel() * Matern32Kernel(),
+]
+
+ds = log.([eps(), rand(rng)])
+
+testfunction(k, A, B, dim) = det(kernelmatrix(k, A, B, obsdim = dim))
+testfunction(k, A, dim) = det(kernelmatrix(k, A, obsdim = dim))
+ADs = [:Zygote, :ForwardDiff, :ReverseDiff]
 
-A = rand(dims...)
-B = rand(dims...)
-K = [zeros(dims[1],dims[1]),zeros(dims[2],dims[2])]
-kernels_noparams = [:SqExponentialKernel,:ExponentialKernel,:GammaExponentialKernel,
- :MaternKernel,:Matern32Kernel,:Matern52Kernel,
- :LinearKernel,:PolynomialKernel,
- :RationalQuadraticKernel,:GammaRationalQuadraticKernel,
- :ExponentiatedKernel]
-l = 2.0
-ds = [0.0,3.0]
-vl = l*ones(dims[1])
-testfunction(k,A,B) = det(kernelmatrix(k,A,B))
-testfunction(k,A) = det(kernelmatrix(k,A))
-ADs = [:Zygote,:ForwardDiff]
 
 ## Test kappa functions
+
 @testset "Kappa functions" begin
-    for AD in ADs
-        @testset "$AD" begin
-            for k in kernels_noparams
-                for d in ds
-                    @eval begin @test kappa_AD(Val(Symbol($AD)),$k(),$d) ≈ kappa_fdm($k(),$d) atol=1e-8 end
+    for k in kernels[isa.(kernels, KernelFunctions.SimpleKernel)]
+        @testset "$k" begin
+            @test_nowarn gradient(Val(:FiniteDiff), x -> kappa(k, exp(x[1])), ds[1]) # Check FiniteDiff does the right thing
+            for AD in ADs
+                @testset "$AD" begin
+                    for d in ds
+                        @test_nowarn gradient(Val(AD), x -> kappa(k, exp(x[1])), [d])
+                        @test gradient(Val(AD), x -> kappa(k, exp(x[1])), [d]) ≈ gradient(Val(:FiniteDiff), x -> kappa(k, exp(x[1])), [d]) atol=1e-8
+                    end
                 end
             end
-            # Linear -> C
-            # Polynomial -> C,D
-            # Gamma (etc) -> gamma
-            #
         end
     end
 end
 
-@testset "Transform Operations" begin
-    for AD in ADs
-        @testset "$AD" begin
-            @eval begin
-            # Scale Transform
-            transform_AD(Val(Symbol($AD)),ScaleTransform(l),A)
-            # ARD Transform
-            transform_AD(Val(Symbol($AD)),ARDTransform(vl),A)
-            # Linear transform
-            transform_AD(Val(Symbol($AD)), LinearTransform(rand(2,10)),A)
-            # Chain Transform
-            # transform_AD(Val(Symbol($AD)), LinearTransform, A)
+@testset "Kernel evaluations" begin
+    for k in kernels
+        @testset "$k" begin
+            for AD in ADs
+                @test_nowarn gradient(Val(:FiniteDiff), x -> k(x, y), x)
+                @testset "$AD" begin
+                    for d in ds
+                        @test_nowarn gradient(Val(AD), x -> k(x, y), x)
+                        @test gradient(Val(AD), x -> k(x, y), x) ≈ gradient(Val(:FiniteDiff), x -> k(x, y), x) atol=1e-8
+                    end
+                end
             end
         end
     end
 end
 
-##TODO Eventually store real results in file
-@testset "Zygote Automatic Differentiation test" begin
-    @testset "ARD" begin
-        for k in kernels
-            @testset "$k" begin
-                @test all(isapprox.(Zygote.gradient(x->testfunction(k(x),A,B),vl)[1], ForwardDiff.gradient(x->testfunction(k(x),A,B),vl)))
-                @test  all(isapprox.(Zygote.gradient(x->testfunction(k(vl),x,B),A)[1],ForwardDiff.gradient(x->testfunction(k(vl),x,B),A)))
-                @test all(isapprox.(Zygote.gradient(x->testfunction(k(x),A),vl)[1],ForwardDiff.gradient(x->testfunction(k(x),A),vl)))
-                @test all(isapprox.(Zygote.gradient(x->testfunction(k(vl),x),A)[1],ForwardDiff.gradient(x->testfunction(k(vl),x),A)))
-            end
-        end
-    end
-    @testset "ISO" begin
-        for k in kernels
-            @testset "$k" begin
-                @test all(isapprox.(Zygote.gradient(x->testfunction(k(x),A,B),l)[1],ForwardDiff.gradient(x->testfunction(k(x[1]),A,B),[l])[1]))
-                @test all(isapprox.(Zygote.gradient(x->testfunction(k(l),x,B),A)[1],ForwardDiff.gradient(x->testfunction(k(l),x,B),A)))
-                @test all(isapprox.(Zygote.gradient(x->testfunction(k(x),A),l)[1],ForwardDiff.gradient(x->testfunction(k(x[1]),A),[l])))
-                @test all(isapprox.(Zygote.gradient(x->testfunction(k(l),x),A)[1],ForwardDiff.gradient(x->testfunction(k(l[1]),x),A)))
+@testset "Kernel Matrices" begin
+    for k in kernels
+        @testset "$k" begin
+            for AD in ADs
+                # @test_nowarn gradient(Val(:FiniteDiff), x -> k(x, y), )
+                @testset "$AD" begin
+                    for dim in [1,2]
+                        @test_nowarn gradient(Val(AD), x -> testfunction(k, x, dim), A)
+                        @test_nowarn gradient(Val(AD), x -> testfunction(k, x, B, dim), A)
+                        @test gradient(Val(AD), x -> testfunction(k, x, B, dim), A) ≈ gradient(Val(:FiniteDiff), x -> testfunction(k, x, B, dim), A) atol=1e-8
+                        @test gradient(Val(AD), x -> testfunction(k, x, dim), A) ≈ gradient(Val(:FiniteDiff), x -> testfunction(k, x, dim), A) atol=1e-8
+                    end
+                end
             end
         end
     end
 end
 
-@testset "ForwardDiff AutomaticDifferentation test" begin
-    @testset "ARD" begin
-        for k in kernels
-            @test_nowarn ForwardDiff.gradient(x->testfunction(k(x),A,B),vl)
-            @test_nowarn ForwardDiff.gradient(x->testfunction(k(vl),x,B),A)
-            @test_nowarn ForwardDiff.gradient(x->testfunction(k(x),A),vl)
-            @test_nowarn ForwardDiff.gradient(x->testfunction(k(vl),x),A)
-        end
-    end
-    @testset "ISO" begin
-        for k in kernels
-            @test_nowarn ForwardDiff.gradient(x->testfunction(k(x[1]),A,B),[l])
-            @test_nowarn ForwardDiff.gradient(x->testfunction(k(l),x,B),A)
-            @test_nowarn ForwardDiff.gradient(x->testfunction(k(x[1]),A),[l])
-            @test_nowarn ForwardDiff.gradient(x->testfunction(k(l[1]),x),A)
-        end
-    end
-end
-
-
-@testset "Tracker AutomaticDifferentation test" begin
-    @testset "ARD" begin
-        for k in kernels
-            @test_broken all(Tracker.gradient(x->testfunction(k(x),A,B),vl)[1] .≈ ForwardDiff.gradient(x->testfunction(k(x),A,B),vl))
-            @test_broken all(Tracker.gradient(x->testfunction(k(vl),x,B),A)[1] .≈ ForwardDiff.gradient(x->testfunction(k(vl),x,B),A))
-            @test_broken all(Tracker.gradient(x->testfunction(k(x),A),vl)[1] .≈  ForwardDiff.gradient(x->testfunction(k(x),A),vl))
-            @test_broken all.(Tracker.gradient(x->testfunction(k(vl),x),A) .≈ ForwardDiff.gradient(x->testfunction(k(vl),x),A))
-        end
-    end
-    @testset "ISO" begin
-        for k in kernels
-            @test_broken Tracker.gradient(x->testfunction(k(x[1]),A,B),[l])
-            @test_broken Tracker.gradient(x->testfunction(k(l),x,B),A)
-            @test_broken Tracker.gradient(x->testfunction(k(x[1]),A),[l])
-            @test_broken Tracker.gradient(x->testfunction(k(l),x),A)
-
+@testset "Params differentiation" begin
+    for k in kernels
+        @testset "$k" begin
+            ps = params(k)
+            @test_nowarn gradient(Val(:Zygote), () -> k(x, y), ps)
         end
     end
 end
diff --git a/test/utils_AD.jl b/test/utils_AD.jl
@@ -1,39 +1,70 @@
-allapprox(x,y,tol=1e-8) = all(isapprox.(x,y,atol=tol))
-FDM = central_fdm(5,1)
+allapprox(x, y, tol = 1e-8) = all(isapprox.(x, y, atol = tol))
+FDM = central_fdm(5, 1)
 
+function gradient(::Val{:Zygote}, f::Function, args)
+    first(Zygote.gradient(f, args))
+end
+
+function gradient(::Val{:Zygote}, f::Function, args::Zygote.Params)
+    Zygote.gradient(f, args)
+end
 
-function kappa_AD(::Val{:Zygote},k::Kernel,d::Real)
-    first(Zygote.gradient(x->kappa(k,x),d))
+function gradient(::Val{:ForwardDiff}, f::Function, args)
+    ForwardDiff.gradient(f, args)
 end
 
-function kappa_AD(::Val{:ForwardDiff},k::Kernel,d::Real)
-    first(ForwardDiff.gradient(x->kappa(k,first(x)),[d]))
+function gradient(::Val{:ReverseDiff}, f::Function, args)
+    ReverseDiff.gradient(f, args)
 end
 
-function kappa_fdm(k::Kernel,d::Real)
-    first(FiniteDifferences.grad(FDM,x->kappa(k,x),d))
+function gradient(::Val{:FiniteDiff}, f::Function, args)
+    first(FiniteDifferences.grad(FDM, f, args))
 end
 
 
-function transform_AD(::Val{:Zygote},t::Transform,A)
+
+function transform_AD(::Val{:Zygote}, t::Transform, A)
     ps = KernelFunctions.params(t)
-    @test allapprox(first(Zygote.gradient(p->transform_with_duplicate(p,t,A),ps)),
-        first(FiniteDifferences.grad(FDM,p->transform_with_duplicate(p,t,A),ps)))
-    @test allapprox(first(Zygote.gradient(X->sum(transform(t,X,2)),A)),
-            first(FiniteDifferences.grad(FDM,X->sum(transform(t,X,2)),A)))
+    @test allapprox(
+        first(Zygote.gradient(p -> transform_with_duplicate(p, t, A), ps)),
+        first(FiniteDifferences.grad(
+            FDM,
+            p -> transform_with_duplicate(p, t, A),
+            ps,
+        )),
+    )
+    @test allapprox(
+        first(Zygote.gradient(X -> sum(transform(t, X, 2)), A)),
+        first(FiniteDifferences.grad(FDM, X -> sum(transform(t, X, 2)), A)),
+    )
 end
 
-function transform_AD(::Val{:ForwardDiff},t::Transform,A)
+function transform_AD(::Val{:ForwardDiff}, t::Transform, A)
     ps = KernelFunctions.params(t)
     if t isa ScaleTransform
-        @test allapprox(first(ForwardDiff.gradient(p->transform_with_duplicate(first(p),t,A),[ps])),
-            first(FiniteDifferences.grad(FDM,p->transform_with_duplicate(p,t,A),ps)))
+        @test allapprox(
+            first(ForwardDiff.gradient(
+                p -> transform_with_duplicate(first(p), t, A),
+                [ps],
+            )),
+            first(FiniteDifferences.grad(
+                FDM,
+                p -> transform_with_duplicate(p, t, A),
+                ps,
+            )),
+        )
     else
-        @test allapprox(ForwardDiff.gradient(p->transform_with_duplicate(p,t,A),ps),
-            first(FiniteDifferences.grad(FDM,p->transform_with_duplicate(p,t,A),ps)))
+        @test allapprox(
+            ForwardDiff.gradient(p -> transform_with_duplicate(p, t, A), ps),
+            first(FiniteDifferences.grad(
+                FDM,
+                p -> transform_with_duplicate(p, t, A),
+                ps,
+            )),
+        )
     end
-    @test allapprox(ForwardDiff.gradient(X->sum(transform(t,X,2)),A),
-            first(FiniteDifferences.grad(FDM,X->sum(transform(t,X,2)),A)))
+    @test allapprox(
+        ForwardDiff.gradient(X -> sum(transform(t, X, 2)), A),
+        first(FiniteDifferences.grad(FDM, X -> sum(transform(t, X, 2)), A)),
+    )
 end
-
-transform_with_duplicate(p,t,A) = sum(transform(KernelFunctions.duplicate(t,p),A,2))