Fixed support for ELL format

stephenchouca · stephenchouca · commit cf4509589b72 · 2021-09-16T15:43:19.000-04:00
diff --git a/src/index_notation/index_notation.cpp b/src/index_notation/index_notation.cpp
@@ -3538,6 +3538,22 @@ IndexStmt generatePackStmt(TensorVar tensor,
     packStmt = forall(indexVars[mode], packStmt);
   }
 
+  bool doAppend = true;
+  const Format lhsFormat = otherIsOnRight ? format : otherFormat;
+  for (int i = lhsFormat.getOrder() - 1; i >= 0; --i) {
+    const auto modeFormat = lhsFormat.getModeFormats()[i];
+    if (modeFormat.isBranchless() && i != 0) {
+      const auto parentModeFormat = lhsFormat.getModeFormats()[i - 1];
+      if (parentModeFormat.isUnique() || !parentModeFormat.hasAppend()) {
+        doAppend = false;
+        break;
+      }
+    }
+  }
+  if (!doAppend) {
+    packStmt = packStmt.assemble(otherIsOnRight ? tensor : other, AssembleStrategy::Insert);
+  }
+
   return packStmt; 
 }
 
diff --git a/src/ir/ir_rewriter.cpp b/src/ir/ir_rewriter.cpp
@@ -425,7 +425,7 @@ void IRRewriter::visit(const Allocate* op) {
     stmt = op;
   }
   else {
-    stmt = Allocate::make(var, num_elements, op->is_realloc, op->old_elements);
+    stmt = Allocate::make(var, num_elements, op->is_realloc, op->old_elements, op->clear);
   }
 }
 
diff --git a/src/lower/lowerer_impl_imperative.cpp b/src/lower/lowerer_impl_imperative.cpp
@@ -1335,24 +1335,28 @@ Stmt LowererImplImperative::lowerForallPosition(Forall forall, Iterator iterator
     endBound = endBounds[1];
   }
 
-  LoopKind kind = LoopKind::Serial;
-  if (forall.getParallelUnit() == ParallelUnit::CPUVector && !ignoreVectorize) {
-    kind = LoopKind::Vectorized;
-  }
-  else if (forall.getParallelUnit() != ParallelUnit::NotParallel
-           && forall.getOutputRaceStrategy() != OutputRaceStrategy::ParallelReduction && !ignoreVectorize) {
-    kind = LoopKind::Runtime;
+  Stmt loop = Block::make(strideGuard, declareCoordinate, boundsGuard, body);
+  if (iterator.isBranchless() && iterator.isCompact() && 
+      (iterator.getParent().isRoot() || iterator.getParent().isUnique())) {
+    loop = Block::make(VarDecl::make(iterator.getPosVar(), startBound), loop);
+  } else {
+    LoopKind kind = LoopKind::Serial;
+    if (forall.getParallelUnit() == ParallelUnit::CPUVector && !ignoreVectorize) {
+      kind = LoopKind::Vectorized;
+    }
+    else if (forall.getParallelUnit() != ParallelUnit::NotParallel && 
+	     forall.getOutputRaceStrategy() != OutputRaceStrategy::ParallelReduction && 
+	     !ignoreVectorize) {
+      kind = LoopKind::Runtime;
+    }
+
+    loop = For::make(iterator.getPosVar(), startBound, endBound, 1, loop, kind,
+                     ignoreVectorize ? ParallelUnit::NotParallel : forall.getParallelUnit(), 
+		     ignoreVectorize ? 0 : forall.getUnrollFactor());
   }
 
   // Loop with preamble and postamble
-  return Block::blanks(
-                       boundsCompute,
-                       For::make(iterator.getPosVar(), startBound, endBound, 1,
-                                 Block::make(strideGuard, declareCoordinate, boundsGuard, body),
-                                 kind,
-                                 ignoreVectorize ? ParallelUnit::NotParallel : forall.getParallelUnit(), ignoreVectorize ? 0 : forall.getUnrollFactor()),
-                       posAppend);
-
+  return Block::blanks(boundsCompute, loop, posAppend);
 }
 
 Stmt LowererImplImperative::lowerForallFusedPosition(Forall forall, Iterator iterator,
diff --git a/src/lower/mode_format_singleton.cpp b/src/lower/mode_format_singleton.cpp
@@ -128,7 +128,7 @@ Expr SingletonModeFormat::getAssembledSize(Expr prevSize, Mode mode) const {
 Stmt SingletonModeFormat::getInitCoords(Expr prevSize, 
     std::vector<AttrQueryResult> queries, Mode mode) const {
   Expr crdArray = getCoordArray(mode.getModePack());
-  return Allocate::make(crdArray, prevSize, false, Expr());
+  return Allocate::make(crdArray, prevSize, false, Expr(), true);
 }
 
 ModeFunction SingletonModeFormat::getYieldPos(Expr parentPos, 
diff --git a/src/tensor.cpp b/src/tensor.cpp
@@ -941,6 +941,7 @@ TensorBase::getHelperFunctions(const Format& format, Datatype ctype,
     TensorVar packedTensor(Type(ctype, Shape(dims)), format);
 
     // Define packing and iterator routines in index notation.
+    // TODO: Use `generatePackCOOStmt` function to generate pack routine.
     std::vector<IndexVar> indexVars(format.getOrder());
     IndexStmt packStmt = (packedTensor(indexVars) = bufferTensor(indexVars));
     IndexStmt iterateStmt = Yield(indexVars, packedTensor(indexVars));
@@ -950,6 +951,21 @@ TensorBase::getHelperFunctions(const Format& format, Datatype ctype,
       iterateStmt = forall(indexVars[mode], iterateStmt);
     }
 
+    bool doAppend = true;
+    for (int i = format.getOrder() - 1; i >= 0; --i) {
+      const auto modeFormat = format.getModeFormats()[i];
+      if (modeFormat.isBranchless() && i != 0) {
+        const auto parentModeFormat = format.getModeFormats()[i - 1];
+        if (parentModeFormat.isUnique() || !parentModeFormat.hasAppend()) {
+          doAppend = false;
+          break;
+        }
+      }
+    }
+    if (!doAppend) {
+      packStmt = packStmt.assemble(packedTensor, AssembleStrategy::Insert);
+    }
+
     // Lower packing and iterator code.
     helperModule->addFunction(lower(packStmt, "pack", true, true));
     helperModule->addFunction(lower(iterateStmt, "iterate", false, true));
diff --git a/test/test_tensors.cpp b/test/test_tensors.cpp
@@ -137,6 +137,16 @@ TensorData<double> d5d_data() {
   });
 }
 
+TensorData<double> d5e_data() {
+  return TensorData<double>({5}, {
+    {{0}, 1},
+    {{1}, 2},
+    {{2}, 3},
+    {{3}, 4},
+    {{4}, 5}
+  });
+}
+
 TensorData<double> d8a_data() {
   return TensorData<double>({8}, {
     {{0}, 1},
@@ -328,6 +338,23 @@ TensorData<double> d333a_data() {
   });
 }
 
+TensorData<double> d355a_data() {
+  return TensorData<double>({3,5,5}, {
+    {{0,0,0}, 1},
+    {{0,1,1}, 2},
+    {{0,2,1}, 3},
+    {{0,3,1}, 4},
+    {{0,4,1}, 5},
+    {{1,0,1}, 6},
+    {{1,1,0}, 7},
+    {{1,2,0}, 8},
+    {{1,4,2}, 9},
+    {{2,1,2}, 10},
+    {{2,2,3}, 11},
+    {{2,4,4}, 12},
+  });
+}
+
 TensorData<double> d32b_data() {
   return TensorData<double>({3,2}, {
     {{0,0}, 10},
@@ -406,6 +433,10 @@ Tensor<double> d5d(std::string name, Format format) {
   return d5d_data().makeTensor(name, format);
 }
 
+Tensor<double> d5e(std::string name, Format format) {
+  return d5e_data().makeTensor(name, format);
+}
+
 Tensor<double> d8a(std::string name, Format format) {
   return d8a_data().makeTensor(name, format);
 }
@@ -486,6 +517,10 @@ Tensor<double> d333a(std::string name, Format format) {
   return d333a_data().makeTensor(name, format);
 }
 
+Tensor<double> d355a(std::string name, Format format) {
+  return d355a_data().makeTensor(name, format);
+}
+
 Tensor<double> d32b(std::string name, Format format) {
   return d32b_data().makeTensor(name, format);
 }
diff --git a/test/test_tensors.h b/test/test_tensors.h
@@ -101,6 +101,7 @@ TensorData<double> d5a_data();
 TensorData<double> d5b_data();
 TensorData<double> d5c_data();
 TensorData<double> d5d_data();
+TensorData<double> d5e_data();
 
 TensorData<double> d8a_data();
 TensorData<double> d8b_data();
@@ -127,6 +128,8 @@ TensorData<double> d233c_data();
 
 TensorData<double> d333a_data();
 
+TensorData<double> d355a_data();
+
 TensorData<double> d32b_data();
 TensorData<double> d3322a_data();
 
@@ -146,6 +149,7 @@ Tensor<double> d5a(std::string name, Format format);
 Tensor<double> d5b(std::string name, Format format);
 Tensor<double> d5c(std::string name, Format format);
 Tensor<double> d5d(std::string name, Format format);
+Tensor<double> d5e(std::string name, Format format);
 
 Tensor<double> d8a(std::string name, Format format);
 Tensor<double> d8b(std::string name, Format format);
@@ -175,6 +179,8 @@ Tensor<double> d233c(std::string name, Format format);
 
 Tensor<double> d333a(std::string name, Format format);
 
+Tensor<double> d355a(std::string name, Format format);
+
 Tensor<double> d32b(std::string name, Format format);
 Tensor<double> d3322a(std::string name, Format format);
 
diff --git a/test/tests-expr_storage.cpp b/test/tests-expr_storage.cpp
@@ -957,6 +957,23 @@ INSTANTIATE_TEST_CASE_P(bspmv, expr,
            )
 );
 
+INSTANTIATE_TEST_CASE_P(espmv, expr,
+    Values(
+           TestData(Tensor<double>("a",{5},Format({Dense})),
+                    {i},
+                    d355a("B",Format({Dense, Dense, Singleton(ModeFormat::UNIQUE)}))(j,i,k) *
+                    d5e("c",Format({Dense}))(k),
+                    {
+                      {
+                        // Dense index
+                        {5}
+                      },
+                    },
+                    {13,41,58,8,97}
+                    )
+           )
+);
+
 INSTANTIATE_TEST_CASE_P(matrix_sum, expr,
     Values(
            TestData(Tensor<double>("a",{},Format()),

Original file line number	Diff line number	Diff line change
`@@ -425,7 +425,7 @@ void IRRewriter::visit(const Allocate* op) {`
`425`	`425`	`stmt = op;`
`426`	`426`	`}`
`427`	`427`	`else {`
`428`		`- stmt = Allocate::make(var, num_elements, op->is_realloc, op->old_elements);`
	`428`	`+ stmt = Allocate::make(var, num_elements, op->is_realloc, op->old_elements, op->clear);`
`429`	`429`	`}`
`430`	`430`	`}`
`431`	`431`
Original file line number	Diff line number	Diff line change
`@@ -128,7 +128,7 @@ Expr SingletonModeFormat::getAssembledSize(Expr prevSize, Mode mode) const {`
`128`	`128`	`Stmt SingletonModeFormat::getInitCoords(Expr prevSize,`
`129`	`129`	`std::vector<AttrQueryResult> queries, Mode mode) const {`
`130`	`130`	`Expr crdArray = getCoordArray(mode.getModePack());`
`131`		`- return Allocate::make(crdArray, prevSize, false, Expr());`
	`131`	`+ return Allocate::make(crdArray, prevSize, false, Expr(), true);`
`132`	`132`	`}`
`133`	`133`
`134`	`134`	`ModeFunction SingletonModeFormat::getYieldPos(Expr parentPos,`