Instance iou on GPU

nicolas-chaulet · nicolas-chaulet · commit 94c870a0fe8c · 2020-06-23T08:39:06.000Z
diff --git a/cpu/include/utils.h b/cpu/include/utils.h
@@ -1,6 +1,6 @@
 #pragma once
 #include <torch/extension.h>
 
-#define CHECK_CPU(x) AT_ASSERTM(!x.type().is_cuda(), #x " must be a CPU tensor")
+#define CHECK_CPU(x) AT_ASSERTM(!x.is_cuda(), #x " must be a CPU tensor")
 
-#define CHECK_CONTIGUOUS(x) AT_ASSERTM(x.is_contiguous(), #x " must be a contiguous tensor")
+#define CHECK_CONTIGUOUS(x) AT_ASSERTM(x.is_contiguous(), #x " must be a contiguous tensor")
diff --git a/cuda/include/metrics.h b/cuda/include/metrics.h
@@ -2,4 +2,5 @@
 #include <torch/extension.h>
 
 at::Tensor instance_iou_cuda(at::Tensor instance_idx, at::Tensor instance_offsets,
-                             at::Tensor instance_gt);
+                             at::Tensor gt_instances, at::Tensor gt_instance_sizes,
+                             long num_gt_instances);
diff --git a/cuda/include/utils.h b/cuda/include/utils.h
@@ -5,7 +5,7 @@
 #define CHECK_CUDA(x)                                                                              \
     do                                                                                             \
     {                                                                                              \
-        TORCH_CHECK(x.type().is_cuda(), #x " must be a CUDA tensor");                              \
+        TORCH_CHECK(x.is_cuda(), #x " must be a CUDA tensor");                                     \
     } while (0)
 
 #define CHECK_CONTIGUOUS(x)                                                                        \
diff --git a/cuda/src/ball_query.cpp b/cuda/src/ball_query.cpp
@@ -19,26 +19,18 @@ std::pair<at::Tensor, at::Tensor> ball_query_dense(at::Tensor new_xyz, at::Tenso
     CHECK_IS_FLOAT(new_xyz);
     CHECK_IS_FLOAT(xyz);
 
-    if (new_xyz.type().is_cuda())
-    {
-        CHECK_CUDA(xyz);
-    }
+    CHECK_CUDA(xyz);
+    CHECK_CUDA(new_xyz);
 
     at::Tensor idx = torch::zeros({new_xyz.size(0), new_xyz.size(1), nsample},
                                   at::device(new_xyz.device()).dtype(at::ScalarType::Long));
     at::Tensor dist = torch::full({new_xyz.size(0), new_xyz.size(1), nsample}, -1,
                                   at::device(new_xyz.device()).dtype(at::ScalarType::Float));
 
-    if (new_xyz.type().is_cuda())
-    {
-        query_ball_point_kernel_dense_wrapper(
-            xyz.size(0), xyz.size(1), new_xyz.size(1), radius, nsample, new_xyz.DATA_PTR<float>(),
-            xyz.DATA_PTR<float>(), idx.DATA_PTR<long>(), dist.DATA_PTR<float>());
-    }
-    else
-    {
-        TORCH_CHECK(false, "CPU not supported");
-    }
+    query_ball_point_kernel_dense_wrapper(xyz.size(0), xyz.size(1), new_xyz.size(1), radius,
+                                          nsample, new_xyz.DATA_PTR<float>(), xyz.DATA_PTR<float>(),
+                                          idx.DATA_PTR<long>(), dist.DATA_PTR<float>());
+
     return std::make_pair(idx, dist);
 }
 
@@ -57,14 +49,10 @@ std::pair<at::Tensor, at::Tensor> ball_query_partial_dense(at::Tensor x, at::Ten
     CHECK_CONTIGUOUS(y);
     CHECK_IS_FLOAT(x);
     CHECK_IS_FLOAT(y);
-
-    if (x.type().is_cuda())
-    {
-        CHECK_CUDA(x);
-        CHECK_CUDA(y);
-        CHECK_CUDA(batch_x);
-        CHECK_CUDA(batch_y);
-    }
+    CHECK_CUDA(x);
+    CHECK_CUDA(y);
+    CHECK_CUDA(batch_x);
+    CHECK_CUDA(batch_y);
 
     at::Tensor idx =
         torch::full({y.size(0), nsample}, -1, at::device(y.device()).dtype(at::ScalarType::Long));
@@ -83,17 +71,10 @@ std::pair<at::Tensor, at::Tensor> ball_query_partial_dense(at::Tensor x, at::Ten
     batch_y = degree(batch_y, batch_size);
     batch_y = at::cat({at::zeros(1, batch_y.options()), batch_y.cumsum(0)}, 0);
 
-    if (x.type().is_cuda())
-    {
-        query_ball_point_kernel_partial_wrapper(batch_size, x.size(0), y.size(0), radius, nsample,
-                                                x.DATA_PTR<float>(), y.DATA_PTR<float>(),
-                                                batch_x.DATA_PTR<long>(), batch_y.DATA_PTR<long>(),
-                                                idx.DATA_PTR<long>(), dist.DATA_PTR<float>());
-    }
-    else
-    {
-        TORCH_CHECK(false, "CPU not supported");
-    }
+    query_ball_point_kernel_partial_wrapper(batch_size, x.size(0), y.size(0), radius, nsample,
+                                            x.DATA_PTR<float>(), y.DATA_PTR<float>(),
+                                            batch_x.DATA_PTR<long>(), batch_y.DATA_PTR<long>(),
+                                            idx.DATA_PTR<long>(), dist.DATA_PTR<float>());
 
     return std::make_pair(idx, dist);
 }
diff --git a/cuda/src/bindings.cpp b/cuda/src/bindings.cpp
@@ -1,5 +1,6 @@
 #include "ball_query.h"
 #include "interpolate.h"
+#include "metrics.h"
 #include "sampling.h"
 
 PYBIND11_MODULE(TORCH_EXTENSION_NAME, m)
@@ -12,4 +13,6 @@ PYBIND11_MODULE(TORCH_EXTENSION_NAME, m)
 
     m.def("ball_query_dense", &ball_query_dense);
     m.def("ball_query_partial_dense", &ball_query_partial_dense);
+
+    m.def("instance_iou_cuda", &instance_iou_cuda);
 }
diff --git a/cuda/src/interpolate.cpp b/cuda/src/interpolate.cpp
@@ -16,26 +16,17 @@ std::vector<at::Tensor> three_nn(at::Tensor unknowns, at::Tensor knows)
     CHECK_IS_FLOAT(unknowns);
     CHECK_IS_FLOAT(knows);
 
-    if (unknowns.type().is_cuda())
-    {
-        CHECK_CUDA(knows);
-    }
+    CHECK_CUDA(knows);
+    CHECK_CUDA(unknowns);
 
     at::Tensor idx = torch::zeros({unknowns.size(0), unknowns.size(1), 3},
                                   at::device(unknowns.device()).dtype(at::ScalarType::Int));
     at::Tensor dist2 = torch::zeros({unknowns.size(0), unknowns.size(1), 3},
                                     at::device(unknowns.device()).dtype(at::ScalarType::Float));
 
-    if (unknowns.type().is_cuda())
-    {
-        three_nn_kernel_wrapper(unknowns.size(0), unknowns.size(1), knows.size(1),
-                                unknowns.DATA_PTR<float>(), knows.DATA_PTR<float>(),
-                                dist2.DATA_PTR<float>(), idx.DATA_PTR<int>());
-    }
-    else
-    {
-        TORCH_CHECK(false, "CPU not supported");
-    }
+    three_nn_kernel_wrapper(unknowns.size(0), unknowns.size(1), knows.size(1),
+                            unknowns.DATA_PTR<float>(), knows.DATA_PTR<float>(),
+                            dist2.DATA_PTR<float>(), idx.DATA_PTR<int>());
 
     return {dist2, idx};
 }
@@ -49,25 +40,15 @@ at::Tensor three_interpolate(at::Tensor points, at::Tensor idx, at::Tensor weigh
     CHECK_IS_INT(idx);
     CHECK_IS_FLOAT(weight);
 
-    if (points.type().is_cuda())
-    {
-        CHECK_CUDA(idx);
-        CHECK_CUDA(weight);
-    }
+    CHECK_CUDA(idx);
+    CHECK_CUDA(weight);
 
     at::Tensor output = torch::zeros({points.size(0), points.size(1), idx.size(1)},
                                      at::device(points.device()).dtype(at::ScalarType::Float));
 
-    if (points.type().is_cuda())
-    {
-        three_interpolate_kernel_wrapper(points.size(0), points.size(1), points.size(2),
-                                         idx.size(1), points.DATA_PTR<float>(), idx.DATA_PTR<int>(),
-                                         weight.DATA_PTR<float>(), output.DATA_PTR<float>());
-    }
-    else
-    {
-        TORCH_CHECK(false, "CPU not supported");
-    }
+    three_interpolate_kernel_wrapper(points.size(0), points.size(1), points.size(2), idx.size(1),
+                                     points.DATA_PTR<float>(), idx.DATA_PTR<int>(),
+                                     weight.DATA_PTR<float>(), output.DATA_PTR<float>());
 
     return output;
 }
@@ -80,26 +61,16 @@ at::Tensor three_interpolate_grad(at::Tensor grad_out, at::Tensor idx, at::Tenso
     CHECK_IS_FLOAT(grad_out);
     CHECK_IS_INT(idx);
     CHECK_IS_FLOAT(weight);
-
-    if (grad_out.type().is_cuda())
-    {
-        CHECK_CUDA(idx);
-        CHECK_CUDA(weight);
-    }
+    CHECK_CUDA(idx);
+    CHECK_CUDA(weight);
+    CHECK_CUDA(grad_out);
 
     at::Tensor output = torch::zeros({grad_out.size(0), grad_out.size(1), m},
                                      at::device(grad_out.device()).dtype(at::ScalarType::Float));
 
-    if (grad_out.type().is_cuda())
-    {
-        three_interpolate_grad_kernel_wrapper(grad_out.size(0), grad_out.size(1), grad_out.size(2),
-                                              m, grad_out.DATA_PTR<float>(), idx.DATA_PTR<int>(),
-                                              weight.DATA_PTR<float>(), output.DATA_PTR<float>());
-    }
-    else
-    {
-        TORCH_CHECK(false, "CPU not supported");
-    }
+    three_interpolate_grad_kernel_wrapper(grad_out.size(0), grad_out.size(1), grad_out.size(2), m,
+                                          grad_out.DATA_PTR<float>(), idx.DATA_PTR<int>(),
+                                          weight.DATA_PTR<float>(), output.DATA_PTR<float>());
 
     return output;
 }
diff --git a/cuda/src/metrics.cpp b/cuda/src/metrics.cpp
@@ -2,26 +2,33 @@
 #include "compat.h"
 #include "utils.h"
 
-void instance_iou_kernel_wrapper(int b, int n, int m, const float* dataset, float* temp, int* idxs);
+void instance_iou_kernel_wrapper(int nInstance, int nProposal, long* proposals_idx,
+                                 long* proposals_offset, long* instance_labels,
+                                 long* instance_pointnum, float* proposals_iou);
 
 at::Tensor instance_iou_cuda(at::Tensor instance_idx, at::Tensor instance_offsets,
-                             at::Tensor instance_gt)
+                             at::Tensor gt_instances, at::Tensor gt_instance_sizes,
+                             long num_gt_instances)
 {
     CHECK_CONTIGUOUS(instance_idx);
     CHECK_CONTIGUOUS(instance_offsets);
-    CHECK_CONTIGUOUS(instance_gt);
-    CHECK_CUDA(instance_idx)
-    CHECK_CUDA(instance_offsets)
-    CHECK_CUDA(instance_gt)
+    CHECK_CONTIGUOUS(gt_instances);
+    CHECK_CONTIGUOUS(gt_instance_sizes);
 
-    auto num_gt_instances = instance_gt.max(0);
-    auto num_proposed_instances = instance_offsets.size(0);
+    CHECK_CUDA(instance_idx);
+    CHECK_CUDA(instance_offsets);
+    CHECK_CUDA(gt_instances);
+    CHECK_CUDA(gt_instance_sizes);
+
+    long num_proposed_instances = instance_offsets.size(0) - 1;
     at::Tensor output =
         torch::zeros({num_proposed_instances, num_gt_instances},
-                     at::device(num_gt_instances.device()).dtype(at::ScalarType::Float));
+                     at::device(gt_instances.device()).dtype(at::ScalarType::Float));
 
-    instance_iou_kernel_wrapper(points.size(0), points.size(1), nsamples, points.DATA_PTR<float>(),
-                                tmp.DATA_PTR<float>(), output.DATA_PTR<float>());
+    instance_iou_kernel_wrapper(num_gt_instances, num_proposed_instances,
+                                instance_idx.DATA_PTR<long>(), instance_offsets.DATA_PTR<long>(),
+                                gt_instances.DATA_PTR<long>(), gt_instance_sizes.DATA_PTR<long>(),
+                                output.DATA_PTR<float>());
 
     return output;
 }
diff --git a/cuda/src/metrics.cu b/cuda/src/metrics.cu
diff --git a/cuda/src/metrics_gpu.cu b/cuda/src/metrics_gpu.cu
@@ -0,0 +1,50 @@
+#include <math.h>
+#include <stdio.h>
+#include <stdlib.h>
+
+#include "cuda_utils.h"
+
+#define THREADS 512
+
+__global__ void instance_iou_cuda_kernel(int nInstance, int nProposal, long* proposals_idx,
+                                         long* proposals_offset, long* instance_labels,
+                                         long* instance_pointnum, float* proposals_iou)
+{
+    for (int proposal_id = blockIdx.x; proposal_id < nProposal; proposal_id += gridDim.x)
+    {
+        int start = proposals_offset[proposal_id];
+        int end = proposals_offset[proposal_id + 1];
+        int proposal_total = end - start;
+        for (int instance_id = threadIdx.x; instance_id < nInstance; instance_id += blockDim.x)
+        {
+            int instance_total = instance_pointnum[instance_id];
+            int intersection = 0;
+            for (int i = start; i < end; i++)
+            {
+                int idx = proposals_idx[i];
+                if ((int)instance_labels[idx] == instance_id + 1)
+                { // 0 is reserved for "no instance"
+                    intersection += 1;
+                }
+            }
+            proposals_iou[proposal_id * nInstance + instance_id] =
+                (float)intersection /
+                ((float)(proposal_total + instance_total - intersection) + 1e-5);
+        }
+    }
+}
+
+// input: proposals_idx (sumNPoint), int
+// input: proposals_offset (nProposal + 1), int
+// input: instance_labels (N), long, 0~total_nInst-1, -100
+// input: instance_pointnum (total_nInst), int
+// output: proposals_iou (nProposal, total_nInst), float
+void instance_iou_kernel_wrapper(int nInstance, int nProposal, long* proposals_idx,
+                                 long* proposals_offset, long* instance_labels,
+                                 long* instance_pointnum, float* proposals_iou)
+{
+    instance_iou_cuda_kernel<<<std::min(nProposal, THREADS * THREADS),
+                               std::min(nInstance, THREADS)>>>(nInstance, nProposal, proposals_idx,
+                                                               proposals_offset, instance_labels,
+                                                               instance_pointnum, proposals_iou);
+}
diff --git a/cuda/src/sampling.cpp b/cuda/src/sampling.cpp
@@ -9,23 +9,17 @@ at::Tensor furthest_point_sampling(at::Tensor points, const int nsamples)
 {
     CHECK_CONTIGUOUS(points);
     CHECK_IS_FLOAT(points);
+    CHECK_CUDA(points);
 
     at::Tensor output = torch::zeros({points.size(0), nsamples},
                                      at::device(points.device()).dtype(at::ScalarType::Int));
 
     at::Tensor tmp = torch::full({points.size(0), points.size(1)}, 1e10,
                                  at::device(points.device()).dtype(at::ScalarType::Float));
 
-    if (points.type().is_cuda())
-    {
-        furthest_point_sampling_kernel_wrapper(points.size(0), points.size(1), nsamples,
-                                               points.DATA_PTR<float>(), tmp.DATA_PTR<float>(),
-                                               output.DATA_PTR<int>());
-    }
-    else
-    {
-        TORCH_CHECK(false, "CPU not supported");
-    }
+    furthest_point_sampling_kernel_wrapper(points.size(0), points.size(1), nsamples,
+                                           points.DATA_PTR<float>(), tmp.DATA_PTR<float>(),
+                                           output.DATA_PTR<int>());
 
     return output;
 }
diff --git a/setup.py b/setup.py
@@ -28,9 +28,7 @@ def get_ext_modules():
         extra_compile_args += ["-DVERSION_GE_1_3"]
 
     ext_src_root = "cuda"
-    ext_sources = glob.glob("{}/src/*.cpp".format(ext_src_root)) + glob.glob(
-        "{}/src/*.cu".format(ext_src_root)
-    )
+    ext_sources = glob.glob("{}/src/*.cpp".format(ext_src_root)) + glob.glob("{}/src/*.cu".format(ext_src_root))
 
     ext_modules = []
     if CUDA_HOME:
@@ -39,10 +37,7 @@ def get_ext_modules():
                 name="torch_points_kernels.points_cuda",
                 sources=ext_sources,
                 include_dirs=["{}/include".format(ext_src_root)],
-                extra_compile_args={
-                    "cxx": extra_compile_args,
-                    "nvcc": extra_compile_args,
-                },
+                extra_compile_args={"cxx": extra_compile_args, "nvcc": extra_compile_args,},
             )
         )
 
@@ -69,7 +64,7 @@ def get_cmdclass():
     return {"build_ext": CustomBuildExtension}
 
 
-requirements = ["torch>=1.1.0", "numba"]
+requirements = ["torch>=1.1.0", "numba", "scikit-learn"]
 
 url = "https://github.com/nicolas-chaulet/torch-points-kernels"
 __version__ = "0.6.5"
@@ -85,9 +80,5 @@ def get_cmdclass():
     ext_modules=get_ext_modules(),
     cmdclass=get_cmdclass(),
     long_description=long_description,
-    long_description_content_type="text/markdown",
-    classifiers=[
-        "Programming Language :: Python :: 3",
-        "License :: OSI Approved :: MIT License",
-    ],
+    classifiers=["Programming Language :: Python :: 3", "License :: OSI Approved :: MIT License",],
 )
diff --git a/test/test_metrics.py b/test/test_metrics.py
diff --git a/torch_points_kernels/metrics.py b/torch_points_kernels/metrics.py