add FastGRNNCUDACell

MJ10 · MJ10 · commit 79bd969b7d53 · 2019-09-21T18:01:37.000+05:30
diff --git a/pytorch/edgeml_pytorch/cuda/fastgrnn_cuda.cpp b/pytorch/edgeml_pytorch/cuda/fastgrnn_cuda.cpp
@@ -0,0 +1,103 @@
+#include <torch/extension.h>
+
+#include <vector>
+
+// CUDA forward declarations
+
+std::vector<torch::Tensor> fastgrnn_cuda_forward(
+    torch::Tensor input,
+    torch::Tensor w,
+    torch::Tensor u,
+    torch::Tensor bias_z,
+    torch::Tensor bias_h_prime,
+    torch::Tensor old_h,
+    torch::Tensor zeta,
+    torch::Tensor nu);
+
+std::vector<torch::Tensor> fastgrnn_cuda_backward(
+    torch::Tensor grad_h,
+    torch::Tensor input,
+    torch::Tensor old_h,
+    torch::Tensor z_t,
+    torch::Tensor h_prime_t,
+    torch::Tensor pre_comp,
+    torch::Tensor w,
+    torch::Tensor u,
+    torch::Tensor bias_z,
+    torch::Tensor bias_h_prime,
+    torch::Tensor zeta,
+    torch::Tensor nu);
+
+// C++ interface
+
+// NOTE: AT_ASSERT has become AT_CHECK on master after 0.4.
+#define CHECK_CUDA(x) AT_ASSERTM(x.type().is_cuda(), #x " must be a CUDA tensor")
+#define CHECK_CONTIGUOUS(x) AT_ASSERTM(x.is_contiguous(), #x " must be contiguous")
+#define CHECK_INPUT(x) CHECK_CUDA(x); CHECK_CONTIGUOUS(x)
+
+std::vector<torch::Tensor> fastgrnn_forward(
+    torch::Tensor input,
+    torch::Tensor w,
+    torch::Tensor u,
+    torch::Tensor bias_z,
+    torch::Tensor bias_h_prime,
+    torch::Tensor old_h,
+    torch::Tensor zeta,
+    torch::Tensor nu) {
+  CHECK_INPUT(input);
+  CHECK_INPUT(w);
+  CHECK_INPUT(u);
+  CHECK_INPUT(bias_z);
+  CHECK_INPUT(bias_h_prime);
+  CHECK_INPUT(old_h);
+  CHECK_INPUT(zeta);
+  CHECK_INPUT(nu);
+
+  return fastgrnn_cuda_forward(input, w, u, bias_z, bias_h_prime, old_h, zeta, nu);
+}
+
+std::vector<torch::Tensor> fastgrnn_backward(
+    torch::Tensor grad_h,
+    torch::Tensor input,
+    torch::Tensor old_h,
+    torch::Tensor z_t,
+    torch::Tensor h_prime_t,
+    torch::Tensor pre_comp,
+    torch::Tensor w,
+    torch::Tensor u,
+    torch::Tensor bias_z,
+    torch::Tensor bias_h_prime,
+    torch::Tensor zeta,
+    torch::Tensor nu) {
+  CHECK_INPUT(grad_h);
+  CHECK_INPUT(input);
+  CHECK_INPUT(old_h);
+  CHECK_INPUT(z_t);
+  CHECK_INPUT(h_prime_t);
+  CHECK_INPUT(pre_comp);
+  CHECK_INPUT(w);
+  CHECK_INPUT(u);
+  CHECK_INPUT(bias_z);
+  CHECK_INPUT(bias_h_prime);
+  CHECK_INPUT(zeta);
+  CHECK_INPUT(nu);
+
+  return fastgrnn_cuda_backward(
+    grad_h,
+    input,
+    old_h,
+    z_t,
+    h_prime_t,
+    pre_comp,
+    w,
+    u,
+    bias_z,
+    bias_h_prime,
+    zeta,
+    nu);
+}
+
+PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
+  m.def("forward", &fastgrnn_forward, "FastGRNN forward (CUDA)");
+  m.def("backward", &fastgrnn_backward, "FastGRNN backward (CUDA)");
+}
diff --git a/pytorch/edgeml_pytorch/cuda/fastgrnn_cuda_kernel.cu b/pytorch/edgeml_pytorch/cuda/fastgrnn_cuda_kernel.cu
@@ -0,0 +1,172 @@
+#include <torch/extension.h>
+
+#include <cuda.h>
+#include <cuda_runtime.h>
+
+#include <vector>
+
+namespace {
+template <typename scalar_t>
+__device__ __forceinline__ scalar_t sigmoid(scalar_t z) {
+  return 1.0 / (1.0 + exp(-z));
+}
+
+template <typename scalar_t>
+__device__ __forceinline__ scalar_t d_sigmoid(scalar_t z) {
+  const auto s = sigmoid(z);
+  return (1.0 - s) * s;
+}
+
+template <typename scalar_t>
+__device__ __forceinline__ scalar_t d_tanh(scalar_t z) {
+  const auto t = tanh(z);
+  return 1 - (t * t);
+}
+
+template <typename scalar_t>
+__global__ void fastgrnn_cuda_forward_kernel(
+    const torch::PackedTensorAccessor<scalar_t,2,torch::RestrictPtrTraits,size_t> pre_comp,
+    const torch::PackedTensorAccessor<scalar_t,2,torch::RestrictPtrTraits,size_t> old_h,
+    torch::PackedTensorAccessor<scalar_t,2,torch::RestrictPtrTraits,size_t> new_h,
+    torch::PackedTensorAccessor<scalar_t,2,torch::RestrictPtrTraits,size_t> z_t,
+    torch::PackedTensorAccessor<scalar_t,2,torch::RestrictPtrTraits,size_t> h_prime_t,
+    torch::PackedTensorAccessor<scalar_t,2,torch::RestrictPtrTraits,size_t> bias_z,
+    torch::PackedTensorAccessor<scalar_t,2,torch::RestrictPtrTraits,size_t> bias_h_prime,
+    torch::PackedTensorAccessor<scalar_t,2,torch::RestrictPtrTraits,size_t> zeta,
+    torch::PackedTensorAccessor<scalar_t,2,torch::RestrictPtrTraits,size_t> nu) {
+  //batch index
+  const int n = blockIdx.y;
+  // column index
+  const int c = blockIdx.x * blockDim.x + threadIdx.x;
+  if (c < pre_comp.size(1)){
+    z_t[n][c] = sigmoid(pre_comp[n][c] + bias_z[n][c]);
+    h_prime_t[n][c] = tanh(pre_comp[n][c] + bias_h_prime[n][c]);
+    
+    new_h[n][c] = (sigmoid(zeta[0][0]) * (1 - z_t[n][c]) + sigmoid(nu[0][0])) * h_prime_t[n][c] + z_t[n][c] * old_h[n][c];
+  }
+}
+
+template <typename scalar_t>
+__global__ void fastgrnn_cuda_backward_kernel(
+    torch::PackedTensorAccessor<scalar_t,2,torch::RestrictPtrTraits,size_t> d_zeta,
+    torch::PackedTensorAccessor<scalar_t,2,torch::RestrictPtrTraits,size_t> d_nu,
+    torch::PackedTensorAccessor<scalar_t,2,torch::RestrictPtrTraits,size_t> d_precomp,
+    torch::PackedTensorAccessor<scalar_t,2,torch::RestrictPtrTraits,size_t> d_bias_z,
+    torch::PackedTensorAccessor<scalar_t,2,torch::RestrictPtrTraits,size_t> d_bias_h_prime_t,
+    torch::PackedTensorAccessor<scalar_t,2,torch::RestrictPtrTraits,size_t> d_old_h,
+    const torch::PackedTensorAccessor<scalar_t,2,torch::RestrictPtrTraits,size_t> grad_h,
+    const torch::PackedTensorAccessor<scalar_t,2,torch::RestrictPtrTraits,size_t> old_h,
+    const torch::PackedTensorAccessor<scalar_t,2,torch::RestrictPtrTraits,size_t> z_t,
+    const torch::PackedTensorAccessor<scalar_t,2,torch::RestrictPtrTraits,size_t> h_prime_t,
+    const torch::PackedTensorAccessor<scalar_t,2,torch::RestrictPtrTraits,size_t> pre_comp,
+    const torch::PackedTensorAccessor<scalar_t,2,torch::RestrictPtrTraits,size_t> bias_z,
+    const torch::PackedTensorAccessor<scalar_t,2,torch::RestrictPtrTraits,size_t> bias_h_prime,
+    const torch::PackedTensorAccessor<scalar_t,2,torch::RestrictPtrTraits,size_t> zeta,
+    const torch::PackedTensorAccessor<scalar_t,2,torch::RestrictPtrTraits,size_t> nu) {
+  //batch index
+  const int n = blockIdx.y;
+  // column index
+  const int c = blockIdx.x * blockDim.x + threadIdx.x;
+  if (c < d_precomp.size(1)){
+    auto temp_grad = grad_h[n][c] * h_prime_t[n][c];
+    d_zeta[0][0] = temp_grad * (1 - z_t[n][c]) * d_sigmoid(zeta[0][0]);
+    d_nu[0][0] = temp_grad * d_sigmoid(nu[0][0]);
+    d_bias_z[n][c] = grad_h[n][c] * (sigmoid(zeta[0][0]) * -1 * h_prime_t[n][c] + old_h[n][c]) * d_sigmoid(pre_comp[n][c] + bias_z[n][c]);;
+    d_bias_h_prime_t[n][c] = grad_h[n][c] * (sigmoid(zeta[0][0]) * (1 - z_t[n][c]) + sigmoid(nu[0][0])) * d_tanh(pre_comp[n][c] + bias_h_prime[n][c]);
+    d_old_h[n][c] = grad_h[n][c] * z_t[n][c];
+    d_precomp[n][c] = d_bias_z[n][c] + d_bias_h_prime_t[n][c];
+  }
+}
+} // namespace
+
+std::vector<torch::Tensor> fastgrnn_cuda_forward(
+    torch::Tensor input,
+    torch::Tensor w,
+    torch::Tensor u,
+    torch::Tensor bias_z,
+    torch::Tensor bias_h_prime,
+    torch::Tensor old_h,
+    torch::Tensor zeta,
+    torch::Tensor nu) {
+  auto w_comp = torch::mm(input, w);
+  auto u_comp = torch::mm(old_h, u);
+  auto pre_comp = torch::add(u_comp, w_comp);
+
+  const auto batch_size = old_h.size(0);
+  const auto state_size = old_h.size(1);
+
+  auto new_h = torch::zeros_like(old_h);
+  auto z_t = torch::zeros_like(old_h);
+  auto h_prime_t = torch::zeros_like(old_h);
+
+  const int threads = 1024;
+  const dim3 blocks((state_size + threads - 1) / threads, batch_size);
+
+  AT_DISPATCH_FLOATING_TYPES(pre_comp.type(), "fastgrnn_forward_cuda", ([&] {
+    fastgrnn_cuda_forward_kernel<scalar_t><<<blocks, threads>>>(
+        pre_comp.packed_accessor<scalar_t,2,torch::RestrictPtrTraits,size_t>(),
+        old_h.packed_accessor<scalar_t,2,torch::RestrictPtrTraits,size_t>(),
+        new_h.packed_accessor<scalar_t,2,torch::RestrictPtrTraits,size_t>(),
+        z_t.packed_accessor<scalar_t,2,torch::RestrictPtrTraits,size_t>(),
+        h_prime_t.packed_accessor<scalar_t,2,torch::RestrictPtrTraits,size_t>(),
+        bias_z.packed_accessor<scalar_t,2,torch::RestrictPtrTraits,size_t>(),
+        bias_h_prime.packed_accessor<scalar_t,2,torch::RestrictPtrTraits,size_t>(),
+        zeta.packed_accessor<scalar_t,2,torch::RestrictPtrTraits,size_t>(),
+        nu.packed_accessor<scalar_t,2,torch::RestrictPtrTraits,size_t>());
+  }));
+
+  return {new_h, z_t, h_prime_t, pre_comp};
+}
+
+std::vector<torch::Tensor> fastgrnn_cuda_backward(
+    torch::Tensor grad_h,
+    torch::Tensor input,
+    torch::Tensor old_h,
+    torch::Tensor z_t,
+    torch::Tensor h_prime_t,
+    torch::Tensor pre_comp,
+    torch::Tensor w,
+    torch::Tensor u,
+    torch::Tensor bias_z,
+    torch::Tensor bias_h_prime,
+    torch::Tensor zeta,
+    torch::Tensor nu) {
+  auto d_precomp = torch::zeros_like(pre_comp);
+  auto d_old_h = torch::zeros_like(old_h);
+  auto d_zeta = torch::zeros_like(zeta);
+  auto d_nu = torch::zeros_like(nu);
+  auto d_bias_z = torch::zeros_like(bias_z);
+  auto d_bias_h_prime = torch::zeros_like(bias_h_prime);
+
+  const auto batch_size = old_h.size(0);
+  const auto state_size = old_h.size(1);
+
+  const int threads = 1024;
+  const dim3 blocks((state_size + threads - 1) / threads, batch_size);
+
+  AT_DISPATCH_FLOATING_TYPES(pre_comp.type(), "fastgrnn_forward_cuda", ([&] {
+    fastgrnn_cuda_backward_kernel<scalar_t><<<blocks, threads>>>(
+        d_zeta.packed_accessor<scalar_t,2,torch::RestrictPtrTraits,size_t>(),
+        d_nu.packed_accessor<scalar_t,2,torch::RestrictPtrTraits,size_t>(),
+        d_precomp.packed_accessor<scalar_t,2,torch::RestrictPtrTraits,size_t>(),
+        d_bias_z.packed_accessor<scalar_t,2,torch::RestrictPtrTraits,size_t>(),
+        d_bias_h_prime.packed_accessor<scalar_t,2,torch::RestrictPtrTraits,size_t>(),
+        d_old_h.packed_accessor<scalar_t,2,torch::RestrictPtrTraits,size_t>(),
+        grad_h.packed_accessor<scalar_t,2,torch::RestrictPtrTraits,size_t>(),
+        old_h.packed_accessor<scalar_t,2,torch::RestrictPtrTraits,size_t>(),
+        z_t.packed_accessor<scalar_t,2,torch::RestrictPtrTraits,size_t>(),
+        h_prime_t.packed_accessor<scalar_t,2,torch::RestrictPtrTraits,size_t>(),
+        pre_comp.packed_accessor<scalar_t,2,torch::RestrictPtrTraits,size_t>(),
+        bias_z.packed_accessor<scalar_t,2,torch::RestrictPtrTraits,size_t>(),
+        bias_h_prime.packed_accessor<scalar_t,2,torch::RestrictPtrTraits,size_t>(),
+        zeta.packed_accessor<scalar_t,2,torch::RestrictPtrTraits,size_t>(),
+        nu.packed_accessor<scalar_t,2,torch::RestrictPtrTraits,size_t>());
+  }));
+
+  d_old_h = torch::add(d_old_h, torch::mm(torch::add(d_bias_h_prime, d_bias_z), u.transpose(0, 1)));
+  auto d_input = torch::mm(d_precomp, w.transpose(0, 1));
+  auto d_w = torch::mm(input.transpose(0, 1), d_precomp);  
+  auto d_u = torch::mm(old_h.transpose(0, 1), d_precomp);
+
+  return {d_old_h, d_input, d_w, d_u, d_bias_z, d_bias_h_prime, d_nu, d_zeta};
+}
diff --git a/pytorch/edgeml_pytorch/graph/rnn.py b/pytorch/edgeml_pytorch/graph/rnn.py
@@ -1,13 +1,17 @@
 # Copyright (c) Microsoft Corporation. All rights reserved.
 # Licensed under the MIT license.
 
+import os
 import torch
 import torch.nn as nn
 from torch.autograd import Function
 import numpy as np
 
 import edgeml_pytorch.utils as utils
 
+if "CUDA_HOME" in os.environ:
+    import fastgrnn_cuda
+
 def onnx_exportable_rnn(input, fargs, cell, output):
     class RNNSymbolic(Function):
         @staticmethod
@@ -296,6 +300,63 @@ def getVars(self):
         Vars.extend([self.zeta, self.nu])
         return Vars
 
+class FastGRNNCUDACell(RNNCell):
+    '''
+    A CUDA implementation of FastGRNN Cell with Full Rank Support
+    hidden_size = # hidden units
+
+    zetaInit = init for zeta, the scale param
+    nuInit = init for nu, the translation param
+
+    FastGRNN architecture and compression techniques are found in
+    FastGRNN(LINK) paper
+
+    Basic architecture is like:
+
+    z_t = sigmoid(Wx_t + Uh_{t-1} + B_g)
+    h_t^ = tanh(Wx_t + Uh_{t-1} + B_h)
+    h_t = z_t*h_{t-1} + (sigmoid(zeta)(1-z_t) + sigmoid(nu))*h_t^
+
+    '''
+    def __init__(self, input_size, hidden_size, zetaInit=1.0, nuInit=-4.0, name="FastGRNNCUDACell"):
+        super(FastGRNNCUDACell, self).__init__(input_size, hidden_size, "sigmoid", "tanh", 1, 1, 2)
+        if not "CUDA_HOME" in os.environ:
+            raise Exception('FastGRNNCUDACell is supported only on GPU devices.')
+        self._input_size = input_size
+        self._hidden_size = hidden_size
+        self._gate_non_linearity = gate_non_linearity
+        self._update_non_linearity = update_non_linearity
+        self._zetaInit = zetaInit
+        self._nuInit = nuInit
+        self._name = name
+
+        self.W = nn.Parameter(0.1 * torch.randn([input_size, hidden_size]))
+        self.U = nn.Parameter(0.1 * torch.randn([hidden_size, hidden_size]))
+
+        self.bias_gate = nn.Parameter(torch.ones([1, hidden_size]))
+        self.bias_update = nn.Parameter(torch.ones([1, hidden_size]))
+        self.zeta = nn.Parameter(self._zetaInit * torch.ones([1, 1]))
+        self.nu = nn.Parameter(self._nuInit * torch.ones([1, 1]))
+
+    def reset_parameters(self):
+        stdv = 1.0 / math.sqrt(self.state_size)
+        for weight in self.parameters():
+            weight.data.uniform_(-stdv, +stdv)
+
+    @property
+    def name(self):
+        return self._name
+
+    @property
+    def cellType(self):
+        return "FastGRNNCUDACell"
+
+    def forward(self, input, state):
+        # Calls the custom autograd function while invokes the CUDA implementation
+        return FastGRNNFunction.apply(input, self.W, self.U, self.bias_gate, self.bias_update, state, self.zeta, self.nu)
+
+    def getVars(self):
+        return [self.W, self.U, self.bias_gate, self.bias_update, self.zeta, self.nu]
 
 class FastRNNCell(RNNCell):
     '''
@@ -1117,3 +1178,20 @@ def forward(self, x, brickSize):
         hidd1 = torch.squeeze(hidd1[-1])
         out = torch.matmul(hidd1, self.W) + self.B
         return out
+
+class FastGRNNFunction(Function):
+    @staticmethod
+    def forward(ctx, input, w, u, bias_z, bias_h_prime, old_h, zeta, nu):
+        outputs = fastgrnn_cuda.forward(input, w, u, bias_z, bias_h_prime, old_h, zeta, nu)
+        new_h = outputs[0]
+        variables = [input, old_h] + outputs[1:] + [w, u, bias_z, bias_h_prime, zeta, nu]
+        ctx.save_for_backward(*variables)
+        return new_h
+
+    @staticmethod
+    def backward(ctx, grad_h):
+        outputs = fastgrnn_cuda.backward(
+            grad_h.contiguous(), *ctx.saved_variables)
+        d_old_h, d_input, d_w, d_u, d_bias_z, d_bias_h_prime_t, d_nu, d_zeta = outputs
+        return d_input, d_w, d_u, d_bias_z, d_bias_h_prime_t, d_old_h, d_zeta, d_nu
+
diff --git a/pytorch/setup.py b/pytorch/setup.py