Handle convolutions correctly

pxl-th · pxl-th · commit d0eb6a03fa07 · 2023-02-16T12:54:09.000+02:00
diff --git a/ext/AMDGPUExt/functor.jl b/ext/AMDGPUExt/functor.jl
@@ -18,24 +18,6 @@ adapt_storage(::FluxAMDAdaptor, x::AbstractRNG) = error("""
     Cannot map RNG of type $(typeof(x)) to AMDGPU.
     AMDGPU execution only supports Random.default_rng().""")
 
-function adapt_storage(to::FluxAMDAdaptor, m::Flux.Conv)
-    Flux.Conv(
-        Adapt.adapt(to, m.σ),
-        Adapt.adapt(to, m.weight[end:-1:1, end:-1:1, :, :]),
-        Adapt.adapt(to, m.bias),
-        m.stride, m.pad, m.dilation, m.groups)
-end
-
-# # Don't adapt again.
-# function adapt_storage(
-#     to::FluxAMDAdaptor, m::Flux.Conv{N, M, F, A, V},
-# ) where {N, M, F, A <: ROCArray, V}
-#     return m
-# end
-
-# TODO GPU -> CPU adaptor
-# TODO don't adapt again when already on AMDGPU
-
 adapt_storage(::FluxCPUAdaptor, x::AMDGPU.rocRAND.RNG) = Random.default_rng()
 
 function ChainRulesCore.rrule(::Type{Array}, x::ROCArray)
@@ -57,11 +39,44 @@ function _amd(x)
         x
 end
 
-function _amd(m::Flux.Conv)
-    to = FluxAMDAdaptor()
+# Since MIOpen supports only cross-correlation as convolution,
+# for the actual convolution, we flip horizontally and vertically the weights.
+# Same for CPU -> GPU & GPU -> CPU movements.
+# Note, that gradients are also flipped.
+
+# CPU -> GPU
+
+function adapt_storage(to::FluxAMDAdaptor, m::Flux.Conv)
+    flipped_weight = reverse(m.weight; dims=ntuple(i -> i, ndims(m.weight) - 2))
+    Flux.Conv(
+        Adapt.adapt(to, m.σ),
+        Adapt.adapt(to, flipped_weight),
+        Adapt.adapt(to, m.bias),
+        m.stride, m.pad, m.dilation, m.groups)
+end
+
+# Don't adapt again.
+function adapt_storage(
+    to::FluxAMDAdaptor, m::Flux.Conv{N, M, F, A, V},
+) where {N, M, F, A <: ROCArray, V}
+    return m
+end
+
+_amd(m::Flux.Conv) = adapt_storage(FluxAMDAdaptor(), m)
+
+# GPU -> CPU
+
+function Flux.cpu(m::Flux.Conv{N, M, F, A, V}) where {N, M, F, A <: ROCArray, V}
+    adapt_storage(FluxCPUAdaptor(), m)
+end
+
+function adapt_storage(
+    to::FluxCPUAdaptor, m::Flux.Conv{N, M, F, A, V},
+) where {N, M, F, A <: ROCArray, V}
+    dims = ntuple(i -> i, ndims(m.weight) - 2)
     Flux.Conv(
         Adapt.adapt(to, m.σ),
-        Adapt.adapt(to, m.weight[end:-1:1, end:-1:1, :, :]),
+        reverse(Adapt.adapt(to, m.weight); dims),
         Adapt.adapt(to, m.bias),
         m.stride, m.pad, m.dilation, m.groups)
 end
diff --git a/test/amd/basic.jl b/test/amd/basic.jl
@@ -1,72 +1,82 @@
 @test Flux.AMDGPU_LOADED[]
 
-# @testset "Basic GPU movement" begin
-#     @test Flux.amd(rand(Float64, 16)) isa ROCArray{Float32, 1}
-#     @test Flux.amd(rand(Float64, 16, 16)) isa ROCArray{Float32, 2}
-#     @test Flux.amd(rand(Float32, 16, 16)) isa ROCArray{Float32, 2}
-#     @test Flux.amd(rand(Float16, 16, 16, 16)) isa ROCArray{Float16, 3}
+@testset "Basic GPU movement" begin
+    @test Flux.amd(rand(Float64, 16)) isa ROCArray{Float32, 1}
+    @test Flux.amd(rand(Float64, 16, 16)) isa ROCArray{Float32, 2}
+    @test Flux.amd(rand(Float32, 16, 16)) isa ROCArray{Float32, 2}
+    @test Flux.amd(rand(Float16, 16, 16, 16)) isa ROCArray{Float16, 3}
 
-#     @test gradient(x -> sum(Flux.amd(x)), rand(Float32, 4, 4)) isa Tuple
-#     @test gradient(x -> sum(cpu(x)), AMDGPU.rand(Float32, 4, 4)) isa Tuple
-# end
+    @test gradient(x -> sum(Flux.amd(x)), rand(Float32, 4, 4)) isa Tuple
+    @test gradient(x -> sum(cpu(x)), AMDGPU.rand(Float32, 4, 4)) isa Tuple
+end
 
-# @testset "Dense no bias" begin
-#     m = Dense(3 => 4; bias=false) |> Flux.amd
-#     x = zeros(Float32, 3, 4) |> Flux.amd
-#     @test sum(m(x)) ≈ 0f0
-#     gs = gradient(m -> sum(m(x)), m)
-#     @test isnothing(gs[1].bias)
-# end
+@testset "Dense no bias" begin
+    m = Dense(3 => 4; bias=false) |> Flux.amd
+    x = zeros(Float32, 3, 4) |> Flux.amd
+    @test sum(m(x)) ≈ 0f0
+    gs = gradient(m -> sum(m(x)), m)
+    @test isnothing(gs[1].bias)
+end
 
-# @testset "Chain of Dense layers" begin
-#     m = Chain(Dense(10, 5, tanh), Dense(5, 2), softmax) |> f32
-#     x = rand(Float32, 10, 10)
-#     amdgputest(m, x)
-# end
+@testset "Chain of Dense layers" begin
+    m = Chain(Dense(10, 5, tanh), Dense(5, 2), softmax) |> f32
+    x = rand(Float32, 10, 10)
+    amdgputest(m, x)
+end
 
 @testset "Convolution" begin
-    m = Conv((2, 2), 1 => 1) |> f32
-    x = rand(Float32, 4, 4, 1, 1)
-    amdgputest(m, x; atol=1f-3, checkgrad=false)
+    for nd in (1, 2, 3)
+        m = Conv(tuple(fill(2, nd)...), 3 => 4) |> f32
+        x = rand(Float32, fill(10, nd)..., 3, 5)
 
-    # Gradients are flipped as well.
-    md, xd = Flux.amd.((m, x))
-    gs = gradient(m -> sum(m(x)), m)
-    gsd = gradient(m -> sum(m(xd)), md)
-    @test gs[1].weight[end:-1:1, end:-1:1, :, :] ≈ Array(gsd[1].weight) atol=1f-3
+        # Ensure outputs are the same.
+        amdgputest(m, x; atol=1f-3, checkgrad=false)
+
+        # Gradients are flipped as well.
+        md, xd = Flux.amd.((m, x))
+        gs = gradient(m -> sum(m(x)), m)
+        gsd = gradient(m -> sum(m(xd)), md)
+
+        dims = ntuple(i -> i, ndims(m.weight) - 2)
+        @test reverse(gs[1].weight; dims) ≈ Array(gsd[1].weight) atol=1f-2
+
+        # Movement back to CPU flips weights back.
+        mh = Flux.cpu(md)
+        @test m.weight ≈ mh.weight
+    end
 end
 
-# @testset "Cross-correlation" begin
-#     m = CrossCor((2, 2), 3 => 4) |> f32
-#     x = rand(Float32, 10, 10, 3, 2)
-#     amdgputest(m, x; atol=1f-3)
-# end
+@testset "Cross-correlation" begin
+    m = CrossCor((2, 2), 3 => 4) |> f32
+    x = rand(Float32, 10, 10, 3, 2)
+    amdgputest(m, x; atol=1f-3)
+end
 
-# @testset "Restructure" begin
-#     m = Dense(1, 1) |> Flux.amd
-#     θ, m̂ = Flux.destructure(m)
-#     foo(x) = sum(re(p)(x))
+@testset "Restructure" begin
+    m = Dense(1, 1) |> Flux.amd
+    θ, m̂ = Flux.destructure(m)
+    foo(x) = sum(re(p)(x))
 
-#     x = Flux.amd(rand(Float32, 1))
-#     @test gradient(x -> sum(m̂(θ)(x)), x)[1] isa ROCArray{Float32}
-# end
+    x = Flux.amd(rand(Float32, 1))
+    @test gradient(x -> sum(m̂(θ)(x)), x)[1] isa ROCArray{Float32}
+end
 
-# @testset "Flux.amd(x) on structured arrays" begin
-#     g1 = Zygote.OneElement(1, (2, 3), axes(ones(4, 5)))
-#     @test Flux.amd(g1) isa ROCMatrix{Int64}
-#     g2 = Zygote.Fill(1f0, 2)
-#     @test Flux.amd(g2) isa ROCArray{Float32, 1}
-#     g3 = transpose(Float32[1 2; 3 4])
-#     @test parent(Flux.amd(g3)) isa ROCMatrix{Float32}
-# end
+@testset "Flux.amd(x) on structured arrays" begin
+    g1 = Zygote.OneElement(1, (2, 3), axes(ones(4, 5)))
+    @test Flux.amd(g1) isa ROCMatrix{Int64}
+    g2 = Zygote.Fill(1f0, 2)
+    @test Flux.amd(g2) isa ROCArray{Float32, 1}
+    g3 = transpose(Float32[1 2; 3 4])
+    @test parent(Flux.amd(g3)) isa ROCMatrix{Float32}
+end
 
-# @testset "Flux.onecold gpu" begin
-#     y = Flux.onehotbatch(ones(3), 1:10) |> Flux.amd
-#     l = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']
-#     @test Flux.onecold(y) isa ROCArray
-#     @test y[3, :] isa ROCArray
-#     @test Flux.onecold(y, l) == ['a', 'a', 'a']
-# end
+@testset "Flux.onecold gpu" begin
+    y = Flux.onehotbatch(ones(3), 1:10) |> Flux.amd
+    l = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']
+    @test Flux.onecold(y) isa ROCArray
+    @test y[3, :] isa ROCArray
+    @test Flux.onecold(y, l) == ['a', 'a', 'a']
+end
 
 # FIXME scalar indexing. Needs NNlib.scatter?
 # @testset "Flux.onehot gpu" begin