Merge pull request #46 from hzxie/chamfer-dist

nicolas-chaulet · web-flow · commit e3d66bcdcfa1 · 2020-07-08T14:32:47.000+01:00
Add Chamfer Distance
diff --git a/README.md b/README.md
@@ -62,3 +62,5 @@ See [this useful chart](http://arnon.dk/matching-sm-architectures-arch-and-genco
 * [```Pointnet2_Tensorflow```](https://github.com/charlesq34/pointnet2) by [Charles R. Qi](https://github.com/charlesq34)
 
 * [```Pointnet2_PyTorch```](https://github.com/erikwijmans/Pointnet2_PyTorch) by [Erik Wijmans](https://github.com/erikwijmans)
+
+* [```GRNet```](https://github.com/hzxie/GRNet) by [Haozhe Xie](https://github.com/hzxie)
diff --git a/cuda/include/chamfer_dist.h b/cuda/include/chamfer_dist.h
@@ -0,0 +1,15 @@
+#include <torch/extension.h>
+#include <vector>
+
+std::vector<torch::Tensor> chamfer_dist(torch::Tensor xyz1, torch::Tensor xyz2);
+
+std::vector<torch::Tensor> chamfer_dist_grad(torch::Tensor xyz1, torch::Tensor xyz2,
+                                             torch::Tensor idx1, torch::Tensor idx2,
+                                             torch::Tensor grad_dist1, torch::Tensor grad_dist2);
+
+std::vector<torch::Tensor> chamfer_dist_kernel_wrapper(torch::Tensor xyz1, torch::Tensor xyz2);
+
+std::vector<torch::Tensor> chamfer_dist_grad_kernel_wrapper(torch::Tensor xyz1, torch::Tensor xyz2,
+                                                            torch::Tensor idx1, torch::Tensor idx2,
+                                                            torch::Tensor grad_dist1,
+                                                            torch::Tensor grad_dist2);
diff --git a/cuda/src/bindings.cpp b/cuda/src/bindings.cpp
@@ -1,4 +1,5 @@
 #include "ball_query.h"
+#include "chamfer_dist.h"
 #include "interpolate.h"
 #include "metrics.h"
 #include "sampling.h"
@@ -15,4 +16,7 @@ PYBIND11_MODULE(TORCH_EXTENSION_NAME, m)
     m.def("ball_query_partial_dense", &ball_query_partial_dense);
 
     m.def("instance_iou_cuda", &instance_iou_cuda);
+
+    m.def("chamfer_dist", &chamfer_dist);
+    m.def("chamfer_dist_grad", &chamfer_dist_grad);
 }
diff --git a/cuda/src/chamfer_dist.cu b/cuda/src/chamfer_dist.cu
@@ -0,0 +1,244 @@
+#include <cuda.h>
+#include <cuda_runtime.h>
+#include <torch/extension.h>
+
+#include <vector>
+
+template <typename scalar_t>
+__global__ void chamfer_dist_kernel(int batch_size, int n, const scalar_t* __restrict__ xyz1, int m,
+                                    const scalar_t* __restrict__ xyz2, scalar_t* __restrict__ dist,
+                                    int* indexes)
+{
+    const int batch = 512;
+    __shared__ scalar_t buf[batch * 3];
+    for (int i = blockIdx.x; i < batch_size; i += gridDim.x)
+    {
+        for (int k2 = 0; k2 < m; k2 += batch)
+        {
+            int end_k = min(m, k2 + batch) - k2;
+            for (int j = threadIdx.x; j < end_k * 3; j += blockDim.x)
+            {
+                buf[j] = xyz2[(i * m + k2) * 3 + j];
+            }
+            __syncthreads();
+            for (int j = threadIdx.x + blockIdx.y * blockDim.x; j < n; j += blockDim.x * gridDim.y)
+            {
+                scalar_t x1 = xyz1[(i * n + j) * 3 + 0];
+                scalar_t y1 = xyz1[(i * n + j) * 3 + 1];
+                scalar_t z1 = xyz1[(i * n + j) * 3 + 2];
+                scalar_t best_dist = 0;
+                int best_dist_index = 0;
+                int end_ka = end_k - (end_k & 3);
+                if (end_ka == batch)
+                {
+                    for (int k = 0; k < batch; k += 4)
+                    {
+                        {
+                            scalar_t x2 = buf[k * 3 + 0] - x1;
+                            scalar_t y2 = buf[k * 3 + 1] - y1;
+                            scalar_t z2 = buf[k * 3 + 2] - z1;
+                            scalar_t dist = x2 * x2 + y2 * y2 + z2 * z2;
+
+                            if (k == 0 || dist < best_dist)
+                            {
+                                best_dist = dist;
+                                best_dist_index = k + k2;
+                            }
+                        }
+                        {
+                            scalar_t x2 = buf[k * 3 + 3] - x1;
+                            scalar_t y2 = buf[k * 3 + 4] - y1;
+                            scalar_t z2 = buf[k * 3 + 5] - z1;
+                            scalar_t dist = x2 * x2 + y2 * y2 + z2 * z2;
+                            if (dist < best_dist)
+                            {
+                                best_dist = dist;
+                                best_dist_index = k + k2 + 1;
+                            }
+                        }
+                        {
+                            scalar_t x2 = buf[k * 3 + 6] - x1;
+                            scalar_t y2 = buf[k * 3 + 7] - y1;
+                            scalar_t z2 = buf[k * 3 + 8] - z1;
+                            scalar_t dist = x2 * x2 + y2 * y2 + z2 * z2;
+                            if (dist < best_dist)
+                            {
+                                best_dist = dist;
+                                best_dist_index = k + k2 + 2;
+                            }
+                        }
+                        {
+                            scalar_t x2 = buf[k * 3 + 9] - x1;
+                            scalar_t y2 = buf[k * 3 + 10] - y1;
+                            scalar_t z2 = buf[k * 3 + 11] - z1;
+                            scalar_t dist = x2 * x2 + y2 * y2 + z2 * z2;
+                            if (dist < best_dist)
+                            {
+                                best_dist = dist;
+                                best_dist_index = k + k2 + 3;
+                            }
+                        }
+                    }
+                }
+                else
+                {
+                    for (int k = 0; k < end_ka; k += 4)
+                    {
+                        {
+                            scalar_t x2 = buf[k * 3 + 0] - x1;
+                            scalar_t y2 = buf[k * 3 + 1] - y1;
+                            scalar_t z2 = buf[k * 3 + 2] - z1;
+                            scalar_t dist = x2 * x2 + y2 * y2 + z2 * z2;
+                            if (k == 0 || dist < best_dist)
+                            {
+                                best_dist = dist;
+                                best_dist_index = k + k2;
+                            }
+                        }
+                        {
+                            scalar_t x2 = buf[k * 3 + 3] - x1;
+                            scalar_t y2 = buf[k * 3 + 4] - y1;
+                            scalar_t z2 = buf[k * 3 + 5] - z1;
+                            scalar_t dist = x2 * x2 + y2 * y2 + z2 * z2;
+                            if (dist < best_dist)
+                            {
+                                best_dist = dist;
+                                best_dist_index = k + k2 + 1;
+                            }
+                        }
+                        {
+                            scalar_t x2 = buf[k * 3 + 6] - x1;
+                            scalar_t y2 = buf[k * 3 + 7] - y1;
+                            scalar_t z2 = buf[k * 3 + 8] - z1;
+                            scalar_t dist = x2 * x2 + y2 * y2 + z2 * z2;
+                            if (dist < best_dist)
+                            {
+                                best_dist = dist;
+                                best_dist_index = k + k2 + 2;
+                            }
+                        }
+                        {
+                            scalar_t x2 = buf[k * 3 + 9] - x1;
+                            scalar_t y2 = buf[k * 3 + 10] - y1;
+                            scalar_t z2 = buf[k * 3 + 11] - z1;
+                            scalar_t dist = x2 * x2 + y2 * y2 + z2 * z2;
+                            if (dist < best_dist)
+                            {
+                                best_dist = dist;
+                                best_dist_index = k + k2 + 3;
+                            }
+                        }
+                    }
+                }
+                for (int k = end_ka; k < end_k; k++)
+                {
+                    scalar_t x2 = buf[k * 3 + 0] - x1;
+                    scalar_t y2 = buf[k * 3 + 1] - y1;
+                    scalar_t z2 = buf[k * 3 + 2] - z1;
+                    scalar_t dist = x2 * x2 + y2 * y2 + z2 * z2;
+                    if (k == 0 || dist < best_dist)
+                    {
+                        best_dist = dist;
+                        best_dist_index = k + k2;
+                    }
+                }
+                if (k2 == 0 || dist[(i * n + j)] > best_dist)
+                {
+                    dist[(i * n + j)] = best_dist;
+                    indexes[(i * n + j)] = best_dist_index;
+                }
+            }
+            __syncthreads();
+        }
+    }
+}
+
+std::vector<torch::Tensor> chamfer_dist_kernel_wrapper(torch::Tensor xyz1, torch::Tensor xyz2)
+{
+    const int batch_size = xyz1.size(0);
+    const int n = xyz1.size(1); // num_points point cloud A
+    const int m = xyz2.size(1); // num_points point cloud B
+    torch::Tensor dist1 = torch::zeros({batch_size, n}, torch::CUDA(xyz1.scalar_type()));
+    torch::Tensor dist2 = torch::zeros({batch_size, m}, torch::CUDA(xyz1.scalar_type()));
+    torch::Tensor idx1 = torch::zeros({batch_size, n}, torch::CUDA(torch::kInt));
+    torch::Tensor idx2 = torch::zeros({batch_size, m}, torch::CUDA(torch::kInt));
+
+    AT_DISPATCH_FLOATING_TYPES(
+        xyz1.scalar_type(), "chamfer_dist_cuda", ([&] {
+            chamfer_dist_kernel<scalar_t><<<dim3(32, 16, 1), 512>>>(
+                batch_size, n, xyz1.data_ptr<scalar_t>(), m, xyz2.data_ptr<scalar_t>(),
+                dist1.data_ptr<scalar_t>(), idx1.data_ptr<int>());
+
+            chamfer_dist_kernel<scalar_t><<<dim3(32, 16, 1), 512>>>(
+                batch_size, m, xyz2.data_ptr<scalar_t>(), n, xyz1.data_ptr<scalar_t>(),
+                dist2.data_ptr<scalar_t>(), idx2.data_ptr<int>());
+        }));
+
+    cudaError_t err = cudaGetLastError();
+    if (err != cudaSuccess)
+    {
+        printf("Error in chamfer_dist_kernel_wrapper: %s\n", cudaGetErrorString(err));
+    }
+    return {dist1, dist2, idx1, idx2};
+}
+
+template <typename scalar_t>
+__global__ void chamfer_dist_grad_kernel(int b, int n, const scalar_t* __restrict__ xyz1, int m,
+                                         const scalar_t* __restrict__ xyz2,
+                                         const scalar_t* __restrict__ grad_dist1, const int* idx1,
+                                         scalar_t* __restrict__ grad_xyz1,
+                                         scalar_t* __restrict__ grad_xyz2)
+{
+    for (int i = blockIdx.x; i < b; i += gridDim.x)
+    {
+        for (int j = threadIdx.x + blockIdx.y * blockDim.x; j < n; j += blockDim.x * gridDim.y)
+        {
+            scalar_t x1 = xyz1[(i * n + j) * 3 + 0];
+            scalar_t y1 = xyz1[(i * n + j) * 3 + 1];
+            scalar_t z1 = xyz1[(i * n + j) * 3 + 2];
+            int j2 = idx1[i * n + j];
+            scalar_t x2 = xyz2[(i * m + j2) * 3 + 0];
+            scalar_t y2 = xyz2[(i * m + j2) * 3 + 1];
+            scalar_t z2 = xyz2[(i * m + j2) * 3 + 2];
+            scalar_t g = grad_dist1[i * n + j] * 2;
+            atomicAdd(&(grad_xyz1[(i * n + j) * 3 + 0]), g * (x1 - x2));
+            atomicAdd(&(grad_xyz1[(i * n + j) * 3 + 1]), g * (y1 - y2));
+            atomicAdd(&(grad_xyz1[(i * n + j) * 3 + 2]), g * (z1 - z2));
+            atomicAdd(&(grad_xyz2[(i * m + j2) * 3 + 0]), -(g * (x1 - x2)));
+            atomicAdd(&(grad_xyz2[(i * m + j2) * 3 + 1]), -(g * (y1 - y2)));
+            atomicAdd(&(grad_xyz2[(i * m + j2) * 3 + 2]), -(g * (z1 - z2)));
+        }
+    }
+}
+
+std::vector<torch::Tensor> chamfer_dist_grad_kernel_wrapper(torch::Tensor xyz1, torch::Tensor xyz2,
+                                                            torch::Tensor idx1, torch::Tensor idx2,
+                                                            torch::Tensor grad_dist1,
+                                                            torch::Tensor grad_dist2)
+{
+    const int batch_size = xyz1.size(0);
+    const int n = xyz1.size(1); // num_points point cloud A
+    const int m = xyz2.size(1); // num_points point cloud B
+    torch::Tensor grad_xyz1 = torch::zeros_like(xyz1);
+    torch::Tensor grad_xyz2 = torch::zeros_like(xyz2);
+
+    AT_DISPATCH_FLOATING_TYPES(
+        xyz1.scalar_type(), "chamfer_dist_grad_cuda", ([&] {
+            chamfer_dist_grad_kernel<scalar_t><<<dim3(1, 16, 1), 256>>>(
+                batch_size, n, xyz1.data_ptr<scalar_t>(), m, xyz2.data_ptr<scalar_t>(),
+                grad_dist1.data_ptr<scalar_t>(), idx1.data_ptr<int>(),
+                grad_xyz1.data_ptr<scalar_t>(), grad_xyz2.data_ptr<scalar_t>());
+
+            chamfer_dist_grad_kernel<scalar_t><<<dim3(1, 16, 1), 256>>>(
+                batch_size, m, xyz2.data_ptr<scalar_t>(), n, xyz1.data_ptr<scalar_t>(),
+                grad_dist2.data_ptr<scalar_t>(), idx2.data_ptr<int>(),
+                grad_xyz2.data_ptr<scalar_t>(), grad_xyz1.data_ptr<scalar_t>());
+        }));
+
+    cudaError_t err = cudaGetLastError();
+    if (err != cudaSuccess)
+    {
+        printf("Error in chamfer_dist_grad_kernel_wrapper: %s\n", cudaGetErrorString(err));
+    }
+    return {grad_xyz1, grad_xyz2};
+}
diff --git a/cuda/src/chamfer_dist_gpu.cpp b/cuda/src/chamfer_dist_gpu.cpp
@@ -0,0 +1,13 @@
+#include "chamfer_dist.h"
+
+std::vector<torch::Tensor> chamfer_dist(torch::Tensor xyz1, torch::Tensor xyz2)
+{
+    return chamfer_dist_kernel_wrapper(xyz1, xyz2);
+}
+
+std::vector<torch::Tensor> chamfer_dist_grad(torch::Tensor xyz1, torch::Tensor xyz2,
+                                             torch::Tensor idx1, torch::Tensor idx2,
+                                             torch::Tensor grad_dist1, torch::Tensor grad_dist2)
+{
+    return chamfer_dist_grad_kernel_wrapper(xyz1, xyz2, idx1, idx2, grad_dist1, grad_dist2);
+}
diff --git a/test/test_chamfer_dist.py b/test/test_chamfer_dist.py
@@ -0,0 +1,51 @@
+import numpy as np
+import os
+import sys
+import torch
+import unittest
+
+from torch.autograd import gradcheck
+
+from . import run_if_cuda
+
+
+ROOT = os.path.join(os.path.dirname(os.path.realpath(__file__)), "..")
+sys.path.insert(0, ROOT)
+
+from torch_points_kernels import ChamferFunction, chamfer_dist
+
+
+class TestChamferDistance(unittest.TestCase):
+    @run_if_cuda
+    def test_chamfer_dist_grad(self):
+        x = torch.rand(4, 64, 3).double()
+        y = torch.rand(4, 128, 3).double()
+        x.requires_grad = True
+        y.requires_grad = True
+        test = gradcheck(ChamferFunction.apply, [x.cuda(), y.cuda()])
+
+    @run_if_cuda
+    def test_chamfer_dist(self):
+        xyz1 = torch.from_numpy(np.array([[
+            [0, 0, 0],
+            [1, 1, 1],
+            [2, 0, 1]
+        ]])).float()
+        xyz2 = torch.from_numpy(np.array([[[1, 0, 0], [1, 2, 1]]])).float()
+        dist = chamfer_dist(xyz1.cuda(), xyz2.cuda())
+        self.assertAlmostEqual(dist.item(), 2.333333, places=5)
+
+    @run_if_cuda
+    def test_chamfer_dist_ignore_zeros(self):
+        xyz1 = torch.from_numpy(np.array([[
+            [0, 0, 0],
+            [1, 1, 1],
+            [2, 0, 1]
+        ]])).float()
+        xyz2 = torch.from_numpy(np.array([[[1, 0, 0], [1, 2, 1]]])).float()
+        dist = chamfer_dist(xyz1.cuda(), xyz2.cuda(), True)
+        self.assertAlmostEqual(dist.item(), 3.0, places=5)
+
+
+if __name__ == "__main__":
+    unittest.main()
diff --git a/torch_points_kernels/__init__.py b/torch_points_kernels/__init__.py
@@ -12,4 +12,5 @@
     "knn",
     "region_grow",
     "instance_iou",
+    "chamfer_dist"
 ]
diff --git a/torch_points_kernels/torchpoints.py b/torch_points_kernels/torchpoints.py

Original file line number	Diff line number	Diff line change
`@@ -12,4 +12,5 @@`
`12`	`12`	`"knn",`
`13`	`13`	`"region_grow",`
`14`	`14`	`"instance_iou",`
	`15`	`+ "chamfer_dist"`
`15`	`16`	`]`