fastgrnncuda: add low rank support to cell

MJ10 · MJ10 · commit 23f6e0c8e9fd · 2019-09-27T14:21:28.000+05:30
diff --git a/pytorch/edgeml_pytorch/cuda/fastgrnn_cuda.cpp b/pytorch/edgeml_pytorch/cuda/fastgrnn_cuda.cpp
@@ -3,27 +3,35 @@
 #include <vector>
 
 std::vector<torch::Tensor> fastgrnn_cuda_forward(
-    torch::Tensor input,
-    torch::Tensor W,
-    torch::Tensor U,
-    torch::Tensor bias_gate,
-    torch::Tensor bias_update,
-    torch::Tensor zeta,
-    torch::Tensor nu,
-    torch::Tensor old_h,
-    int z_non_linearity);
+  torch::Tensor input,
+  torch::Tensor w,
+  torch::Tensor u,
+  torch::Tensor bias_gate,
+  torch::Tensor bias_update,
+  torch::Tensor zeta,
+  torch::Tensor nu,
+  torch::Tensor old_h,
+  int z_non_linearity,
+  torch::Tensor w1,
+  torch::Tensor w2,
+  torch::Tensor u1,
+  torch::Tensor u2);
 
 std::vector<torch::Tensor> fastgrnn_cuda_backward(
-    torch::Tensor grad_h,
-    torch::Tensor input,
-    torch::Tensor old_h,
-    torch::Tensor zeta,
-    torch::Tensor nu,
-    torch::Tensor W,
-    torch::Tensor U,
-    int z_non_linearity,
-    torch::Tensor z,
-    torch::Tensor h_prime);
+  torch::Tensor grad_h,
+  torch::Tensor input,
+  torch::Tensor old_h,
+  torch::Tensor zeta,
+  torch::Tensor nu,
+  torch::Tensor w,
+  torch::Tensor u,
+  int z_non_linearity,
+  torch::Tensor z,
+  torch::Tensor h_prime,
+  torch::Tensor w1,
+  torch::Tensor w2,
+  torch::Tensor u1,
+  torch::Tensor u2);
 
 std::vector<torch::Tensor> fastgrnn_unroll_cuda_forward(
   torch::Tensor input,
@@ -62,49 +70,77 @@ std::vector<torch::Tensor> fastgrnn_unroll_cuda_backward(
 #define CHECK_INPUT(x) CHECK_CUDA(x); CHECK_CONTIGUOUS(x)
 
 std::vector<torch::Tensor> fastgrnn_forward(
-    torch::Tensor input,
-    torch::Tensor W,
-    torch::Tensor U,
-    torch::Tensor bias_gate,
-    torch::Tensor bias_update,
-    torch::Tensor zeta,
-    torch::Tensor nu,
-    torch::Tensor old_h,
-    int z_non_linearity) {
+  torch::Tensor input,
+  torch::Tensor w,
+  torch::Tensor u,
+  torch::Tensor bias_gate,
+  torch::Tensor bias_update,
+  torch::Tensor zeta,
+  torch::Tensor nu,
+  torch::Tensor old_h,
+  int z_non_linearity,
+  torch::Tensor w1,
+  torch::Tensor w2,
+  torch::Tensor u1,
+  torch::Tensor u2) {
   CHECK_INPUT(input);
-  CHECK_INPUT(W);
-  CHECK_INPUT(U);
+  if(w1.size(0) == 0) {
+    CHECK_INPUT(w);
+  } else {
+    CHECK_INPUT(w1);
+    CHECK_INPUT(w2);
+  }
+  if (u1.size(0) == 0) {
+    CHECK_INPUT(u);
+  } else {
+    CHECK_INPUT(u1);
+    CHECK_INPUT(u2);
+  }
   CHECK_INPUT(bias_gate);
   CHECK_INPUT(bias_update);
   CHECK_INPUT(zeta);
   CHECK_INPUT(nu);
   CHECK_INPUT(old_h);
 
-  return fastgrnn_cuda_forward(input, W, U, bias_gate, bias_update, zeta, nu, old_h, z_non_linearity);
+  return fastgrnn_cuda_forward(input, w, u, bias_gate, bias_update, zeta, nu, old_h, z_non_linearity, w1, w2, u1, u2);
 }
 
 std::vector<torch::Tensor> fastgrnn_backward(
-    torch::Tensor grad_h,
-    torch::Tensor input,
-    torch::Tensor old_h,
-    torch::Tensor zeta,
-    torch::Tensor nu,
-    torch::Tensor W,
-    torch::Tensor U,
-    torch::Tensor z,
-    torch::Tensor h_prime,
-    int z_non_linearity) {
+  torch::Tensor grad_h,
+  torch::Tensor input,
+  torch::Tensor old_h,
+  torch::Tensor zeta,
+  torch::Tensor nu,
+  torch::Tensor w,
+  torch::Tensor u,
+  torch::Tensor z,
+  torch::Tensor h_prime,
+  torch::Tensor w1,
+  torch::Tensor w2,
+  torch::Tensor u1,
+  torch::Tensor u2,
+  int z_non_linearity) {
   CHECK_INPUT(grad_h);
   CHECK_INPUT(input);
   CHECK_INPUT(old_h);
   CHECK_INPUT(zeta);
   CHECK_INPUT(nu);
   CHECK_INPUT(z);
   CHECK_INPUT(h_prime);
-  CHECK_INPUT(W);
-  CHECK_INPUT(U);
+  if(w1.size(0) == 0) {
+    CHECK_INPUT(w);
+  } else {
+    CHECK_INPUT(w1);
+    CHECK_INPUT(w2);
+  }
+  if (u1.size(0) == 0) {
+    CHECK_INPUT(u);
+  } else {
+    CHECK_INPUT(u1);
+    CHECK_INPUT(u2);
+  }
 
-  return fastgrnn_cuda_backward(grad_h, input, old_h, zeta, nu, W, U, z_non_linearity, z, h_prime);
+  return fastgrnn_cuda_backward(grad_h, input, old_h, zeta, nu, w, u, z_non_linearity, z, h_prime, w1, w2, u1, u2);
 }
 
 std::vector<torch::Tensor> fastgrnn_unroll_forward(
diff --git a/pytorch/edgeml_pytorch/cuda/fastgrnn_cuda_kernel.cu b/pytorch/edgeml_pytorch/cuda/fastgrnn_cuda_kernel.cu
@@ -129,8 +129,21 @@ std::vector<torch::Tensor> fastgrnn_cuda_forward(
     torch::Tensor zeta,
     torch::Tensor nu,
     torch::Tensor old_h,
-    int z_non_linearity) {
-  
+    int z_non_linearity,
+    torch::Tensor w1,
+    torch::Tensor w2,
+    torch::Tensor u1,
+    torch::Tensor u2) {
+
+  bool w_low_rank = w1.size(0) != 0;
+  bool u_low_rank = u1.size(0) != 0;
+  if (w_low_rank){
+    w = torch::mm(w2, w1);
+  }
+  if (u_low_rank){
+    u = torch::mm(u2, u1);
+  }
+
   auto pre_comp = torch::addmm(torch::mm(input, w.transpose(0, 1)), old_h, u.transpose(0, 1));
   nu = torch::sigmoid(nu);
   zeta = torch::sigmoid(zeta);
@@ -194,13 +207,30 @@ std::vector<torch::Tensor> fastgrnn_cuda_backward(
   torch::Tensor u,
   int z_non_linearity,
   torch::Tensor z,
-  torch::Tensor h_prime) {
+  torch::Tensor h_prime,
+  torch::Tensor w1,
+  torch::Tensor w2,
+  torch::Tensor u1,
+  torch::Tensor u2) {
     auto d_precomp = torch::zeros_like(old_h);
     auto d_bias_z = torch::zeros_like(old_h);
     auto d_bias_h_prime = torch::zeros_like(old_h);
     auto d_nu = torch::zeros_like(old_h);
     auto d_zeta = torch::zeros_like(old_h);
     auto d_old_h = torch::zeros_like(old_h);
+    auto d_w1 = torch::empty(0);
+    auto d_w2 = torch::empty(0);
+    auto d_u1 = torch::empty(0);
+    auto d_u2 = torch::empty(0);
+
+    bool w_low_rank = w1.size(0) != 0;
+    bool u_low_rank = u1.size(0) != 0;
+    if(w_low_rank) {
+      w = torch::mm(w2, w1);
+    }
+    if (u_low_rank) {
+      u = torch::mm(u2, u1);
+    }
     zeta = torch::sigmoid(zeta);
     nu = torch::sigmoid(nu);
     auto d_nu_sigmoid = d_sigmoid(nu);
@@ -274,8 +304,17 @@ std::vector<torch::Tensor> fastgrnn_cuda_backward(
     d_bias_h_prime = d_bias_h_prime.sum(0, true);
     d_zeta = (d_zeta.sum(0, true)).sum(1, true);
     d_nu = (d_nu.sum(0, true)).sum(1, true);
-      
-    return {d_input, d_w, d_u, d_bias_z, d_bias_h_prime, d_zeta, d_nu, d_old_h};
+    if (w_low_rank) {
+      d_w1 = torch::mm(w2.transpose(0, 1), d_w);
+      d_w2 = torch::mm(d_w, w1.transpose(0, 1));
+      d_w = torch::empty(0);
+    }
+    if(u_low_rank) {
+      d_u1 = torch::mm(u2.transpose(0, 1), d_u);
+      d_u2 = torch::mm(d_u, u1.transpose(0, 1));
+      d_u = torch::empty(0);
+    }
+    return {d_input, d_bias_z, d_bias_h_prime, d_zeta, d_nu, d_old_h, d_w, d_u, d_w1, d_w2, d_u1, d_u2};
 }
 
 std::vector<torch::Tensor> fastgrnn_unroll_cuda_forward(
diff --git a/pytorch/edgeml_pytorch/graph/rnn.py b/pytorch/edgeml_pytorch/graph/rnn.py
@@ -318,30 +318,51 @@ class FastGRNNCUDACell(RNNCell):
     h_t = z_t*h_{t-1} + (sigmoid(zeta)(1-z_t) + sigmoid(nu))*h_t^
 
     '''
-    def __init__(self, input_size, hidden_size, gate_non_linearity="sigmoid", zetaInit=1.0, nuInit=-4.0, name="FastGRNNCUDACell"):
-        super(FastGRNNCUDACell, self).__init__(input_size, hidden_size, gate_non_linearity, "tanh", 1, 1, 2)
+    def __init__(self, input_size, hidden_size, gate_nonlinearity="sigmoid", 
+    update_nonlinearity="tanh", wRank=None, uRank=None, zetaInit=1.0, nuInit=-4.0, name="FastGRNNCUDACell"):
+        super(FastGRNNCUDACell, self).__init__(input_size, hidden_size, gate_non_linearity, update_nonlinearity, 1, 1, 2, wRank, uRank)
         if utils.findCUDA() is None:
-            raise Exception('FastGRNNCUDACell is supported only on GPU devices.')
+            raise Exception('FastGRNNCUDA is supported only on GPU devices.')
         NON_LINEARITY = {"sigmoid": 0, "relu": 1, "tanh": 2}
         self._input_size = input_size
         self._hidden_size = hidden_size
         self._zetaInit = zetaInit
         self._nuInit = nuInit
         self._name = name
-        self._gate_non_linearity = NON_LINEARITY[gate_non_linearity]
-        self.W = nn.Parameter(0.1 * torch.randn([hidden_size, input_size]))
-        self.U = nn.Parameter(0.1 * torch.randn([hidden_size, hidden_size]))
+    
+        if wRank is not None:
+            self._num_W_matrices += 1
+            self._num_weight_matrices[0] = self._num_W_matrices
+        if uRank is not None:
+            self._num_U_matrices += 1
+            self._num_weight_matrices[1] = self._num_U_matrices
+        self._name = name
+
+        if wRank is None:
+            self.W = nn.Parameter(0.1 * torch.randn([hidden_size, input_size]))
+            self.W1 = torch.empty(0)
+            self.W2 = torch.empty(0)
+        else:
+            self.W = torch.empty(0)
+            self.W1 = nn.Parameter(0.1 * torch.randn([wRank, input_size]))
+            self.W2 = nn.Parameter(0.1 * torch.randn([hidden_size, wRank]))
+
+        if uRank is None:
+            self.U = nn.Parameter(0.1 * torch.randn([hidden_size, hidden_size]))
+            self.U1 = torch.empty(0)
+            self.U2 = torch.empty(0)
+        else:
+            self.U = torch.empty(0)
+            self.U1 = nn.Parameter(0.1 * torch.randn([uRank, hidden_size]))
+            self.U2 = nn.Parameter(0.1 * torch.randn([hidden_size, uRank]))
+
+        self._gate_non_linearity = NON_LINEARITY[gate_nonlinearity]
 
         self.bias_gate = nn.Parameter(torch.ones([1, hidden_size]))
         self.bias_update = nn.Parameter(torch.ones([1, hidden_size]))
         self.zeta = nn.Parameter(self._zetaInit * torch.ones([1, 1]))
         self.nu = nn.Parameter(self._nuInit * torch.ones([1, 1]))
 
-    def reset_parameters(self):
-        stdv = 1.0 / math.sqrt(self.state_size)
-        for weight in self.parameters():
-            weight.data.uniform_(-stdv, +stdv)
-
     @property
     def name(self):
         return self._name
@@ -352,10 +373,23 @@ def cellType(self):
 
     def forward(self, input, state):
         # Calls the custom autograd function while invokes the CUDA implementation
-        return FastGRNNFunction.apply(input, self.W, self.U, self.bias_gate, self.bias_update, self.zeta, self.nu, state, self._gate_non_linearity)
+        return FastGRNNFunction.apply(input, self.bias_gate, self.bias_update, self.zeta, self.nu, h_state,
+            self.W, self.U, self.W1, self.W2, self.U1, self.U2, self._gate_non_linearity)
 
     def getVars(self):
-        return [self.W, self.U, self.bias_gate, self.bias_update, self.zeta, self.nu]
+        Vars = []
+        if self._num_W_matrices == 1:
+            Vars.append(self.W)
+        else:
+            Vars.extend([self.W1, self.W2])
+
+        if self._num_U_matrices == 1:
+            Vars.append(self.U)
+        else:
+            Vars.extend([self.U1, self.U2])
+
+        Vars.extend([self.bias_gate, self.bias_update, self.zeta, self.nu])
+        return Vars
 
 class FastRNNCell(RNNCell):
     '''
@@ -1104,8 +1138,6 @@ def __init__(self, input_size, hidden_size, gate_nonlinearity="sigmoid",
             self.U2 = nn.Parameter(0.1 * torch.randn([hidden_size, uRank]))
 
         self._gate_non_linearity = NON_LINEARITY[gate_nonlinearity]
-        self.W = nn.Parameter(0.1 * torch.randn([input_size, hidden_size]))
-        self.U = nn.Parameter(0.1 * torch.randn([hidden_size, hidden_size]))
 
         self.bias_gate = nn.Parameter(torch.ones([1, hidden_size]))
         self.bias_update = nn.Parameter(torch.ones([1, hidden_size]))
@@ -1118,9 +1150,19 @@ def forward(self, input, h_state, cell_state=None):
             self.W, self.U, self.W1, self.W2, self.U1, self.U2, self._gate_non_linearity)
 
     def getVars(self):
-        if self._num_W_matrices != 1:
-           return [self.W1, self.W2, self.U1, self.U2, self.bias_gate, self.bias_update, self.zeta, self.nu]
-        return [self.W, self.U, self.bias_gate, self.bias_update, self.zeta, self.nu]
+        Vars = []
+        if self._num_W_matrices == 1:
+            Vars.append(self.W)
+        else:
+            Vars.extend([self.W1, self.W2])
+
+        if self._num_U_matrices == 1:
+            Vars.append(self.U)
+        else:
+            Vars.extend([self.U1, self.U2])
+
+        Vars.extend([self.bias_gate, self.bias_update, self.zeta, self.nu])
+        return Vars
 
 class SRNN2(nn.Module):
 
@@ -1239,10 +1281,10 @@ def forward(self, x, brickSize):
 
 class FastGRNNFunction(Function):
     @staticmethod
-    def forward(ctx, input, w, u, bias_gate, bias_update, zeta, nu, old_h, gate_non_linearity):
-        outputs = fastgrnn_cuda.forward(input, w, u, bias_gate, bias_update, zeta, nu, old_h, gate_non_linearity)
+    def forward(ctx, input, bias_gate, bias_update, zeta, nu, old_h, w, u, w1, w2, u1, u2, gate_non_linearity):
+        outputs = fastgrnn_cuda.forward(input, w, u, bias_gate, bias_update, zeta, nu, old_h, gate_non_linearity, w1, w2, u1, u2)
         new_h = outputs[0]
-        variables = [input, old_h, zeta, nu, w, u] + outputs[1:]
+        variables = [input, old_h, zeta, nu, w, u] + outputs[1:] + [w1, w2, u1, u2]
         ctx.save_for_backward(*variables)
         ctx.non_linearity = gate_non_linearity
         return new_h
@@ -1251,8 +1293,7 @@ def forward(ctx, input, w, u, bias_gate, bias_update, zeta, nu, old_h, gate_non_
     def backward(ctx, grad_h):
         outputs = fastgrnn_cuda.backward(
             grad_h.contiguous(), *ctx.saved_variables, ctx.non_linearity)
-        d_input, d_w, d_u, d_bias_gate, d_bias_update, d_zeta, d_nu, d_old_h = outputs
-        return d_input, d_w, d_u, d_bias_gate, d_bias_update, d_zeta, d_nu, d_old_h, None
+        return tuple(outputs + [None])
 
 class FastGRNNUnrollFunction(Function):
     @staticmethod