pytorch
diff --git a/‎core/conversion/converters/BUILD
Lines changed: 1 addition & 0 deletions b/‎core/conversion/converters/BUILD
Lines changed: 1 addition & 0 deletions
diff --git a/‎core/conversion/converters/impl/cumsum.cpp
Lines changed: 57 additions & 0 deletions b/‎core/conversion/converters/impl/cumsum.cpp
Lines changed: 57 additions & 0 deletions
diff --git a/‎core/conversion/converters/impl/plugins/BUILD
Lines changed: 5 additions & 3 deletions b/‎core/conversion/converters/impl/plugins/BUILD
Lines changed: 5 additions & 3 deletions
diff --git a/‎core/conversion/converters/impl/plugins/cumsum_plugin.cpp
Lines changed: 237 additions & 0 deletions b/‎core/conversion/converters/impl/plugins/cumsum_plugin.cpp
Lines changed: 237 additions & 0 deletions
@@ -38,6 +38,7 @@ cc_library(
         "impl/concat.cpp",
         "impl/constant.cpp",
         "impl/conv_deconv.cpp",
+        "impl/cumsum.cpp",
         "impl/element_wise.cpp",
         "impl/expand.cpp",
         "impl/linear.cpp",
 
@@ -0,0 +1,57 @@
+#include "NvInfer.h"
+#include "core/conversion/converters/converters.h"
+#include "core/conversion/tensorcontainer/TensorContainer.h"
+#include "core/util/prelude.h"
+#include "core/util/trt_util.h"
+#include "plugins/cumsum_plugin.h"
+#include "torch/torch.h"
+
+#include <ATen/ATen.h>
+#include <vector>
+
+namespace trtorch {
+namespace core {
+namespace conversion {
+namespace converters {
+namespace impl {
+namespace {
+
+void create_plugin(ConversionCtx* ctx, const torch::jit::Node* n, nvinfer1::ITensor* in, const char* name, int dim) {
+  LOG_WARNING("Cumsum layer will be run through ATen, not TensorRT. Performance may be lower than expected");
+
+  auto creator = new plugins::CumsumPluginCreator();
+  auto plugin = creator->createPlugin(name, dim);
+
+  auto cumsum_layer = ctx->net->addPluginV2(reinterpret_cast<nvinfer1::ITensor* const*>(&in), 1, *plugin);
+  TRTORCH_CHECK(cumsum_layer, "Unable to create cumsum plugin from node" << *n);
+
+  cumsum_layer->setName(util::node_info(n).c_str());
+
+  auto layer_output = ctx->AssociateValueAndTensor(n->outputs()[0], cumsum_layer->getOutput(0));
+
+  LOG_DEBUG("Output tensor shape: " << layer_output->getDimensions());
+}
+
+auto cumsum_registrations TRTORCH_UNUSED = RegisterNodeConversionPatterns().pattern(
+    {"aten::cumsum(Tensor self, int dim, *, int? dtype=None) -> (Tensor)",
+     [](ConversionCtx* ctx, const torch::jit::Node* n, args& args) -> bool {
+       auto in = args[0].ITensor();
+       auto input_dims = in->getDimensions();
+       int dim = args[1].unwrapToInt();
+       TRTORCH_CHECK(
+           (dim >= 0 && dim < input_dims.nbDims) || (dim < 0 && (input_dims.nbDims + dim >= 0)),
+           "Dimension out of range (expected to be in range of [" << -input_dims.nbDims << ", " << input_dims.nbDims - 1
+                                                                  << "], but got " << dim << ")");
+       if (dim < 0) {
+         dim += input_dims.nbDims;
+       }
+       create_plugin(ctx, n, in, "Cumsum", dim);
+       return true;
+     }});
+
+} // namespace
+} // namespace impl
+} // namespace converters
+} // namespace conversion
+} // namespace core
+} // namespace trtorch
@@ -10,10 +10,12 @@ config_setting(
 cc_library(
     name = "plugins",
     hdrs = [
-        "interpolate_plugin.h"
+        "interpolate_plugin.h",
+        "cumsum_plugin.h"
     ],
     srcs = [
-        "interpolate_plugin.cpp"
+        "interpolate_plugin.cpp",
+        "cumsum_plugin.cpp"
     ],
     deps = [
         "@tensorrt//:nvinfer",
@@ -37,5 +39,5 @@ load("@rules_pkg//:pkg.bzl", "pkg_tar")
 pkg_tar(
     name = "include",
     package_dir = "core/conversion/converters/impl/plugins",
-    srcs = ["interpolate_plugin.h"],
+    srcs = ["interpolate_plugin.h", "cumsum_plugin.h"],
 )
@@ -0,0 +1,237 @@
+#include "cumsum_plugin.h"
+
+using namespace nvinfer1;
+
+namespace trtorch {
+namespace core {
+namespace conversion {
+namespace converters {
+namespace impl {
+namespace plugins {
+
+/*
+ * CumsumPlugin class implementations
+ */
+
+CumsumPlugin::CumsumPlugin(int dim) : dim_(dim) {}
+
+CumsumPlugin::CumsumPlugin(const char* data, size_t length) {
+  std::istringstream data_stream(std::string(data, length));
+
+  torch::serialize::InputArchive input_archive;
+  input_archive.load_from(data_stream);
+
+  {
+    torch::IValue value;
+    input_archive.read("dim", value);
+
+    dim_ = value.toInt();
+  }
+}
+
+int CumsumPlugin::getNbOutputs() const {
+  return 1;
+}
+
+const char* CumsumPlugin::getPluginType() const {
+  return "Cumsum";
+}
+
+const char* CumsumPlugin::getPluginVersion() const {
+  return "1";
+}
+
+const char* CumsumPlugin::getPluginNamespace() const {
+  return "";
+}
+
+nvinfer1::IPluginV2DynamicExt* CumsumPlugin::clone() const {
+  return new CumsumPlugin(dim_);
+}
+
+nvinfer1::DimsExprs CumsumPlugin::getOutputDimensions(
+    int outputIndex,
+    const nvinfer1::DimsExprs* inputs,
+    int nbInputs,
+    nvinfer1::IExprBuilder& exprBuilder) {
+  return inputs[0];
+}
+
+nvinfer1::DataType CumsumPlugin::getOutputDataType(int index, const nvinfer1::DataType* inputTypes, int nbInputs)
+    const {
+  return inputTypes[index];
+}
+
+int CumsumPlugin::initialize() {
+#if NV_TENSORRT_MAJOR < 7 || (NV_TENSORRT_MAJOR == 7 && NV_TENSORRT_MINOR < 1)
+  tensor_options_ = tensor_options_.device(c10::kCUDA);
+#else
+  tensor_options_ = tensor_options_.device(c10::kCPU);
+#endif
+  return 0;
+}
+
+void CumsumPlugin::serialize(void* buffer) const {
+  std::string data = serializeToString();
+  size_t size = getSerializationSize();
+
+  data.copy((char*)buffer, size);
+}
+
+std::string CumsumPlugin::serializeToString() const {
+  torch::serialize::OutputArchive output_archive;
+
+  output_archive.write("dim", torch::IValue(dim_));
+
+  std::ostringstream data_str;
+  output_archive.save_to(data_str);
+
+  return data_str.str();
+}
+
+size_t CumsumPlugin::getSerializationSize() const {
+  return serializeToString().size();
+}
+
+bool CumsumPlugin::supportsFormatCombination(
+    int pos,
+    const nvinfer1::PluginTensorDesc* inOut,
+    int nbInputs,
+    int nbOutputs) {
+  TRTORCH_ASSERT(0 <= pos && pos <= 1, "There should be exactly 2 connections to the plugin - 1 input, 1 output");
+  TRTORCH_ASSERT(nbInputs == 1, "Expected a single tensor as input to cumsum plugin");
+  TRTORCH_ASSERT(nbOutputs == 1, "Expected a single tensor as output to cumsum plugin");
+
+  const PluginTensorDesc& in = inOut[0];
+
+  if (pos == 0) {
+    return (in.type == nvinfer1::DataType::kFLOAT || in.type == nvinfer1::DataType::kHALF ||
+            in.type == nvinfer1::DataType::kINT32) &&
+        (in.format == nvinfer1::TensorFormat::kLINEAR);
+  }
+
+  // pos == 1, accessing information about output tensor
+  const PluginTensorDesc& out = inOut[1];
+
+  return (in.type == out.type) && (in.format == out.format);
+}
+
+void CumsumPlugin::configurePlugin(
+    const nvinfer1::DynamicPluginTensorDesc* in,
+    int nbInputs,
+    const nvinfer1::DynamicPluginTensorDesc* out,
+    int nbOutputs) {}
+
+size_t CumsumPlugin::getWorkspaceSize(
+    const nvinfer1::PluginTensorDesc* inputs,
+    int nbInputs,
+    const nvinfer1::PluginTensorDesc* outputs,
+    int nbOutputs) const {
+  return 0;
+}
+
+int CumsumPlugin::enqueue(
+    const nvinfer1::PluginTensorDesc* inputDesc,
+    const nvinfer1::PluginTensorDesc* outputDesc,
+    const void* const* inputs,
+    void* const* outputs,
+    void* workspace,
+    cudaStream_t stream) {
+  tensor_options_ = tensor_options_.dtype(util::toATenDType(inputDesc[0].type));
+#if NV_TENSORRT_MAJOR < 7 || (NV_TENSORRT_MAJOR == 7 && NV_TENSORRT_MINOR < 1)
+  at::Tensor input = at::from_blob((void*)inputs[0], util::toVec(inputDesc->dims), [](void*) {}, tensor_options_);
+  at::Tensor output = at::from_blob(
+      outputs[0], util::volume(outputDesc->dims), [](void*) {}, tensor_options_);
+
+  at::cuda::CUDAStream torch_stream = at::cuda::getStreamFromPool();
+  at::cuda::CUDAStreamGuard torch_guard(torch_stream);
+
+  cudaEvent_t event;
+  cudaEventCreate(&event);
+  cudaEventRecord(event, stream);
+
+  cudaStreamWaitEvent(torch_stream.stream(), event, 0);
+
+  at::cumsum_out(output, input, dim_);
+
+  cudaEvent_t torch_event;
+  cudaEventCreate(&torch_event);
+  cudaEventRecord(torch_event, torch_stream.stream());
+
+  cudaStreamWaitEvent(stream, torch_event, 0);
+
+  cudaEventDestroy(event);
+  cudaEventDestroy(torch_event);
+
+  return 0;
+#else
+  // TODO: When PyTorch updates to cuDNN 8 try moving back to CUDA based ATen
+  // kernels HACK: WAR because there is a segfault if you try to create a CUDA
+  // Tensor in the context of TensorRT execution
+  float* input_blob = (float*)malloc(util::volume(inputDesc->dims) * sizeof(float));
+  cudaMemcpyAsync(
+      input_blob,
+      static_cast<const void*>(inputs[0]),
+      util::volume(inputDesc->dims) * sizeof(float),
+      cudaMemcpyDeviceToHost,
+      stream);
+  cudaStreamSynchronize(stream);
+
+  at::Tensor input = at::from_blob((void*)input_blob, util::toVec(inputDesc->dims), tensor_options_);
+  at::Tensor output;
+  output = at::cumsum(input, dim_);
+
+  cudaMemcpyAsync(
+      outputs[0], output.data_ptr(), util::volume(outputDesc->dims) * sizeof(float), cudaMemcpyHostToDevice, stream);
+  cudaStreamSynchronize(stream);
+
+  free(input_blob);
+
+  return 0;
+#endif
+}
+
+/*
+ * CumsumPluginCreator class implementations
+ */
+const char* CumsumPluginCreator::getPluginNamespace() const {
+  return "";
+}
+
+const char* CumsumPluginCreator::getPluginName() const {
+  return "Cumsum";
+}
+
+const char* CumsumPluginCreator::getPluginVersion() const {
+  return "1";
+}
+
+nvinfer1::IPluginV2* CumsumPluginCreator::createPlugin(const char* name, const nvinfer1::PluginFieldCollection* fc) {
+  return nullptr;
+}
+
+CumsumPlugin* CumsumPluginCreator::createPlugin(const char* name, int dim) {
+  name_ = name;
+  return new CumsumPlugin(dim);
+}
+
+nvinfer1::IPluginV2* CumsumPluginCreator::deserializePlugin(
+    const char* name,
+    const void* serialData,
+    size_t serialLength) {
+  name_ = name;
+  return new CumsumPlugin((const char*)serialData, serialLength);
+}
+
+const nvinfer1::PluginFieldCollection* CumsumPluginCreator::getFieldNames() {
+  return nullptr;
+}
+
+REGISTER_TENSORRT_PLUGIN(CumsumPluginCreator);
+
+} // namespace plugins
+} // namespace impl
+} // namespace converters
+} // namespace conversion
+} // namespace core
+} // namespace trtorch