libxsmm
diff --git a/‎benchmarks/config/omp/mlir-fp32-vector-to-kernel-avx2.json‎
Lines changed: 126 additions & 0 deletions b/‎benchmarks/config/omp/mlir-fp32-vector-to-kernel-avx2.json‎
Lines changed: 126 additions & 0 deletions
diff --git a/‎include/TPP/Transforms/Utils/VNNIUtils.h‎
Lines changed: 5 additions & 0 deletions b/‎include/TPP/Transforms/Utils/VNNIUtils.h‎
Lines changed: 5 additions & 0 deletions
diff --git a/‎lib/TPP/Transforms/Utils/VNNIUtils.cpp‎
Lines changed: 13 additions & 0 deletions b/‎lib/TPP/Transforms/Utils/VNNIUtils.cpp‎
Lines changed: 13 additions & 0 deletions
diff --git a/‎lib/TPP/Transforms/VectorContractToFMA.cpp‎
Lines changed: 102 additions & 28 deletions b/‎lib/TPP/Transforms/VectorContractToFMA.cpp‎
Lines changed: 102 additions & 28 deletions
@@ -0,0 +1,126 @@
+[ 
+  {
+    "gemm_fp32_24x64_avx2": {
+      "fp32_3x1024_omp_2_mlir": {
+        "type": "IR-GEN",
+        "benchmark": [ "mlir-gen", "--kernel=const --float-type=f32 --batch=96 --layers=1536,1536 --tiles=24,64,4" ],
+        "environment": { "OMP_NUM_THREADS": "2", "KMP_AFFINITY": "granularity=fine,verbose,compact,1,0" },
+        "flags": [ "-n", "100", "-run-args='--def-parallel --parallel-task-grid=8,16'" ],
+        "extensions": [ "(avx2)" ]
+      },
+      "fp32_3x1024_omp_4_mlir": {
+        "type": "IR-GEN",
+        "benchmark": [ "mlir-gen", "--kernel=const --float-type=f32 --batch=96 --layers=1536,1536 --tiles=24,64,4" ],
+        "environment": { "OMP_NUM_THREADS": "4", "KMP_AFFINITY": "granularity=fine,verbose,compact,1,0" },
+        "flags": [ "-n", "100", "-run-args='--def-parallel --parallel-task-grid=8,8'" ],
+        "extensions": [ "(avx2)" ]
+      },
+      "fp32_3x1024_omp_8_mlir": {
+        "type": "IR-GEN",
+        "benchmark": [ "mlir-gen", "--kernel=const --float-type=f32 --batch=96 --layers=1536,1536 --tiles=24,64,4" ],
+        "environment": { "OMP_NUM_THREADS": "8", "KMP_AFFINITY": "granularity=fine,verbose,compact,1,0" }, 
+        "flags": [ "-n", "100", "-run-args='--def-parallel --parallel-task-grid=4,8'" ],
+        "extensions": [ "(avx2)" ]
+      },
+      "fp32_3x1024_omp_16_mlir": {
+        "type": "IR-GEN",
+        "benchmark": [ "mlir-gen", "--kernel=const --float-type=f32 --batch=96 --layers=1536,1536 --tiles=24,64,4" ],
+        "environment": { "OMP_NUM_THREADS": "16", "KMP_AFFINITY": "granularity=fine,verbose,compact,1,0" }, 
+        "flags": [ "-n", "100", "-run-args='--def-parallel --parallel-task-grid=2,8'" ],
+        "extensions": [ "(avx2)" ]
+      }
+    }},
+  {
+  "gemm_fp32_mlir_vector_kernel_24x64_avx2": {
+    "fp32_3x1024_omp_2_mlir": {
+      "type": "IR-GEN",
+      "benchmark": [ "mlir-gen", "--kernel=const --float-type=f32 --batch=96 --layers=1536,1536 --tiles=24,64,4" ],
+      "environment": { "OMP_NUM_THREADS": "2", "KMP_AFFINITY": "granularity=fine,verbose,compact,1,0" },
+      "flags": [ "-n", "100", "-run-args='--def-parallel --parallel-task-grid=8,16 --target-feature=avx2 --vector-to-kernels --registerBlocking=3,32,1 '" ],
+      "extensions": [ "avx2" ]
+    },
+    "fp32_3x1024_omp_4_mlir": {
+      "type": "IR-GEN",
+      "benchmark": [ "mlir-gen", "--kernel=const --float-type=f32 --batch=96 --layers=1536,1536 --tiles=24,64,4" ],
+      "environment": { "OMP_NUM_THREADS": "4", "KMP_AFFINITY": "granularity=fine,verbose,compact,1,0" },
+      "flags": [ "-n", "100", "-run-args='--def-parallel --parallel-task-grid=8,8 --target-feature=avx2 --vector-to-kernels --registerBlocking=3,32,1 '" ],
+      "extensions": [ "avx2" ]
+    },
+    "fp32_3x1024_omp_8_mlir": {
+      "type": "IR-GEN",
+      "benchmark": [ "mlir-gen", "--kernel=const --float-type=f32 --batch=96 --layers=1536,1536 --tiles=24,64,4" ],
+      "environment": { "OMP_NUM_THREADS": "8", "KMP_AFFINITY": "granularity=fine,verbose,compact,1,0" },
+      "flags": [ "-n", "100", "-run-args='--def-parallel --parallel-task-grid=4,8 --target-feature=avx2 --vector-to-kernels --registerBlocking=3,32,1 '" ],
+      "extensions": [ "avx2" ]
+    },
+    "fp32_3x1024_omp_16_mlir": {
+      "type": "IR-GEN",
+      "benchmark": [ "mlir-gen", "--kernel=const --float-type=f32 --batch=96 --layers=1536,1536 --tiles=24,64,4" ],
+      "environment": { "OMP_NUM_THREADS": "16", "KMP_AFFINITY": "granularity=fine,verbose,compact,1,0" },
+      "flags": [ "-n", "100", "-run-args='--def-parallel --parallel-task-grid=2,8 --target-feature=avx2 --vector-to-kernels --registerBlocking=3,32,1 '" ],
+      "extensions": [ "avx2" ]
+    }
+  }},
+  {
+    "mlp_fp32_24x64_avx2": {
+      "fp32_3x1024_omp_2_mlir": {
+        "type": "IR-GEN",
+        "benchmark": [ "mlir-gen", "--kernel=const --bias --relu --float-type=f32 --batch=96 --layers=1536,1536 --tiles=24,64,4" ],
+        "environment": { "OMP_NUM_THREADS": "2", "KMP_AFFINITY": "granularity=fine,verbose,compact,1,0" },
+        "flags": [ "-n", "100", "-run-args='--def-parallel --parallel-task-grid=8,16'" ],
+        "extensions": [ "(avx2)" ]
+      },
+      "fp32_3x1024_omp_4_mlir": {
+        "type": "IR-GEN",
+        "benchmark": [ "mlir-gen", "--kernel=const --bias --relu --float-type=f32 --batch=96 --layers=1536,1536 --tiles=24,64,4" ],
+        "environment": { "OMP_NUM_THREADS": "4", "KMP_AFFINITY": "granularity=fine,verbose,compact,1,0" },
+        "flags": [ "-n", "100", "-run-args='--def-parallel --parallel-task-grid=8,8'" ],
+        "extensions": [ "(avx2)" ]
+      },
+      "fp32_3x1024_omp_8_mlir": {
+        "type": "IR-GEN",
+        "benchmark": [ "mlir-gen", "--kernel=const --bias --relu --float-type=f32 --batch=96 --layers=1536,1536 --tiles=24,64,4" ],
+        "environment": { "OMP_NUM_THREADS": "8", "KMP_AFFINITY": "granularity=fine,verbose,compact,1,0" }, 
+        "flags": [ "-n", "100", "-run-args='--def-parallel --parallel-task-grid=4,8'" ],
+        "extensions": [ "(avx2)" ]
+      },
+      "fp32_3x1024_omp_16_mlir": {
+        "type": "IR-GEN",
+        "benchmark": [ "mlir-gen", "--kernel=const --bias --relu --float-type=f32 --batch=96 --layers=1536,1536 --tiles=24,64,4" ],
+        "environment": { "OMP_NUM_THREADS": "16", "KMP_AFFINITY": "granularity=fine,verbose,compact,1,0" }, 
+        "flags": [ "-n", "100", "-run-args='--def-parallel --parallel-task-grid=2,8'" ],
+        "extensions": [ "(avx2)" ]
+      }
+    }},
+  {
+  "mlp_fp32_mlir_vector_kernel_24x64_avx2": {
+    "fp32_3x1024_omp_2_mlir": {
+      "type": "IR-GEN",
+      "benchmark": [ "mlir-gen", "--kernel=const --bias --relu --float-type=f32 --batch=96 --layers=1536,1536 --tiles=24,64,4" ],
+      "environment": { "OMP_NUM_THREADS": "2", "KMP_AFFINITY": "granularity=fine,verbose,compact,1,0" },
+      "flags": [ "-n", "100", "-run-args='--def-parallel --parallel-task-grid=8,16 --vector-to-kernels --registerBlocking=3,32,1 '" ],
+      "extensions": [ "avx2" ]
+    },
+    "fp32_3x1024_omp_4_mlir": {
+      "type": "IR-GEN",
+      "benchmark": [ "mlir-gen", "--kernel=const --bias --relu --float-type=f32 --batch=96 --layers=1536,1536 --tiles=24,64,4" ],
+      "environment": { "OMP_NUM_THREADS": "4", "KMP_AFFINITY": "granularity=fine,verbose,compact,1,0" },
+      "flags": [ "-n", "100", "-run-args='--def-parallel --parallel-task-grid=8,8 --vector-to-kernels --registerBlocking=3,32,1 '" ],
+      "extensions": [ "avx2" ]
+    },
+    "fp32_3x1024_omp_8_mlir": {
+      "type": "IR-GEN",
+      "benchmark": [ "mlir-gen", "--kernel=const --bias --relu --float-type=f32 --batch=96 --layers=1536,1536 --tiles=24,64,4" ],
+      "environment": { "OMP_NUM_THREADS": "8", "KMP_AFFINITY": "granularity=fine,verbose,compact,1,0" },
+      "flags": [ "-n", "100", "-run-args='--def-parallel --parallel-task-grid=4,8 --vector-to-kernels --registerBlocking=3,32,1 '" ],
+      "extensions": [ "avx2" ]
+    },
+    "fp32_3x1024_omp_16_mlir": {
+      "type": "IR-GEN",
+      "benchmark": [ "mlir-gen", "--kernel=const --bias --relu --float-type=f32 --batch=96 --layers=1536,1536 --tiles=24,64,4" ],
+      "environment": { "OMP_NUM_THREADS": "16", "KMP_AFFINITY": "granularity=fine,verbose,compact,1,0" },
+      "flags": [ "-n", "100", "-run-args='--def-parallel --parallel-task-grid=2,8 --vector-to-kernels --registerBlocking=3,32,1 '" ],
+      "extensions": [ "avx2" ]
+    }
+  }}
+]
@@ -34,6 +34,11 @@ enum class VnniOperandRank {
   BRGEMM_INS = 4,
   BRGEMM_OUTS = 3
 };
+// Returns True if the current architecture supports AVX2 instructions.
+bool hasAVX2();
+
+// Returns True if the current architecture supports AVX512 instructions.
+bool hasAVX512();
 
 // Returns True if the current architecture supports AMX instructions.
 bool hasAMX();
 
@@ -9,6 +9,7 @@
 #include "TPP/Transforms/Utils/VNNIUtils.h"
 #include "TPP/Transforms/Utils/DLTIUtils.h"
 
+#include "libxsmm_cpuid.h"
 #include "mlir/Dialect/Linalg/IR/Linalg.h"
 #include "mlir/Dialect/Linalg/IR/LinalgInterfaces.h"
 #include "mlir/Dialect/Vector/IR/VectorOps.h"
@@ -28,6 +29,18 @@ bool hasAMX() {
          (libxsmm_get_target_archid() < LIBXSMM_X86_ALLFEAT);
 }
 
+// Returns True if the current architecture supports AMX instructions.
+bool hasAVX2() {
+  return (libxsmm_get_target_archid() >= LIBXSMM_X86_AVX2) &&
+         (libxsmm_get_target_archid() < LIBXSMM_X86_ALLFEAT);
+}
+
+// Returns True if the current architecture supports AMX instructions.
+bool hasAVX512() {
+  return (libxsmm_get_target_archid() >= LIBXSMM_X86_AVX512_SKX) &&
+         (libxsmm_get_target_archid() < LIBXSMM_X86_ALLFEAT);
+}
+
 unsigned getVnniBlockingFactor(Type type, Operation *op) {
   unsigned blockingFactor = 0;
 
 
@@ -11,12 +11,15 @@
 
 #include "TPP/Passes.h"
 #include "TPP/Transforms/Transforms.h"
+#include "TPP/Transforms/Utils/VNNIUtils.h"
 #include "mlir/Dialect/MemRef/IR/MemRef.h"
 #include "mlir/Dialect/SCF/IR/SCF.h"
 #include "mlir/Dialect/Tensor/IR/Tensor.h"
 #include "mlir/Dialect/Vector/IR/VectorOps.h"
 #include "mlir/Pass/Pass.h"
 #include "mlir/Transforms/GreedyPatternRewriteDriver.h"
+#include "llvm/ADT/StringRef.h"
+#include "llvm/Support/raw_ostream.h"
 
 #define DEBUG_TYPE "vector-contract-to-fma"
 
@@ -31,6 +34,23 @@ using namespace mlir;
 using namespace mlir::tpp;
 
 namespace {
+
+/// Returns the target vector length based on target features avx2/avx512 for
+/// FP32 data type.
+static unsigned getTargetVectorLengthForFP32(llvm::StringRef targetFeatureStr) {
+  unsigned vecElemTypeSizeInBits = 32;
+  unsigned vecRegSizeInBits = StringSwitch<unsigned>(targetFeatureStr)
+                                  .Case("avx2", 256)
+                                  .Case("avx512", 512)
+                                  .Default(0);
+  if (vecRegSizeInBits > 0)
+    return vecRegSizeInBits / vecElemTypeSizeInBits;
+
+  vecRegSizeInBits = vnni::utils::hasAVX512() ? 512
+                     : vnni::utils::hasAVX2() ? 256
+                                              : 0;
+  return vecRegSizeInBits / vecElemTypeSizeInBits;
+}
 /// Returns true if the \p map is transposed.
 static bool isTransposed(AffineMap map) {
   auto results = map.getResults();
@@ -93,8 +113,12 @@ struct VectorContractToFMA
 struct VectorContractToFMAPattern
     : public OpRewritePattern<vector::ContractionOp> {
   using OpRewritePattern<vector::ContractionOp>::OpRewritePattern;
-  VectorContractToFMAPattern(MLIRContext *context, TransformationContext &ctx)
-      : OpRewritePattern<vector::ContractionOp>(context), ctx(ctx) {}
+
+  VectorContractToFMAPattern(MLIRContext *context,
+                             VectorContractToFMAOptions options,
+                             TransformationContext &ctx)
+      : OpRewritePattern<vector::ContractionOp>(context), options(options),
+        ctx(ctx) {}
 
   LogicalResult matchAndRewrite(vector::ContractionOp op,
                                 PatternRewriter &rewriter) const override {
@@ -135,8 +159,6 @@ struct VectorContractToFMAPattern
         iteratorTypes[outerDimIndex + 2] != vector::IteratorType::reduction)
       return rewriter.notifyMatchFailure(op, "Not a gemm");
 
-    SmallVector<Value, 4> results;
-
     auto lhs = op.getLhs();
     auto rhs = op.getRhs();
     auto acc = op.getAcc();
@@ -246,6 +268,12 @@ struct VectorContractToFMAPattern
     if (K != 1)
       return failure();
 
+    unsigned vecLen = getTargetVectorLengthForFP32(options.targetFeature);
+    if (vecLen == 0)
+      return failure();
+
+    SmallVector<Value, 12> results;
+    SmallVector<Value, 12> argResults;
     auto accSubview = accDefiningOp.getBase();
     Location loc = op.getLoc();
 
@@ -273,12 +301,15 @@ struct VectorContractToFMAPattern
       subview_2_splits.push_back(split);
     }
 
-    // Intialize each accumulator with a vector of size N
+    // Intialize each accumulator with a vector of size vecLen
     SmallVector<Value, 4> initAccs;
     for (auto subview : subview_2_splits) {
-      auto acc = rewriter.create<vector::LoadOp>(
-          loc, VectorType::get({N}, elementType), subview, ValueRange{c0, c0});
-      initAccs.push_back(acc);
+      for (unsigned j = 0; j < N; j += vecLen) {
+        auto acc = rewriter.create<vector::LoadOp>(
+            loc, VectorType::get({vecLen}, elementType), subview,
+            ValueRange{c0, rewriter.create<arith::ConstantIndexOp>(loc, j)});
+        initAccs.push_back(acc);
+      }
     }
 
     // Create new outer loop with M different accumulators.
@@ -314,7 +345,7 @@ struct VectorContractToFMAPattern
                           innerBuilder.create<arith::ConstantIndexOp>(loc, i),
                           c0});
                   auto bcast = innerBuilder.create<vector::BroadcastOp>(
-                      loc, VectorType::get({N}, elem.getType()), elem);
+                      loc, VectorType::get({vecLen}, elem.getType()), elem);
                   broadcasts.push_back(bcast);
                 }
 
@@ -325,18 +356,58 @@ struct VectorContractToFMAPattern
                 rhsMapping.map(
                     rhsDefiningOp.getBase().getDefiningOp()->getOperand(2),
                     innerIv);
+
+                // Create Mx(N/vecLen) different FMAs using broadcasts and
+                // current accumulator values.
                 auto rhsClone = innerBuilder.clone(
                     *rhsDefiningOp.getBase().getDefiningOp(), rhsMapping);
-                auto rowVec = innerBuilder.create<vector::LoadOp>(
-                    loc, VectorType::get({N}, elementType),
-                    rhsClone->getResult(0), ValueRange{c0, c0, c0});
-
-                // Create M different FMAs using broadcasts and current
-                // accumulator values.
-                for (int i = 0; i < M; i++) {
-                  auto fma = innerBuilder.create<vector::FMAOp>(
-                      loc, broadcasts[i], rowVec, innerIterArgs[i]);
-                  results.push_back(fma);
+                if (vecLen == 8) {
+                  for (unsigned j = 0; j < N; j += vecLen) {
+                    auto rowVec = innerBuilder.create<vector::LoadOp>(
+                        loc, VectorType::get({vecLen}, elementType),
+                        rhsClone->getResult(0),
+                        ValueRange{c0, c0,
+                                   innerBuilder.create<arith::ConstantIndexOp>(
+                                       loc, j)});
+                    unsigned iterArgAccessStride = N / vecLen;
+                    unsigned offset = j / vecLen;
+                    for (int i = 0; i < M; i++) {
+                      auto fma = innerBuilder.create<vector::FMAOp>(
+                          loc, broadcasts[i], rowVec,
+                          innerIterArgs[offset + iterArgAccessStride * i]);
+                      argResults.push_back(fma);
+                    }
+                  }
+
+                  // Perform strided circular copy of elements from argResults
+                  // to results.
+                  unsigned stride = (N / vecLen);
+                  unsigned totalElements = argResults.size();
+                  results.resize(totalElements);
+                  for (unsigned i = 0; i < totalElements; ++i) {
+                    unsigned circularIndex =
+                        (i % stride) * (stride - 1) + (i / stride);
+                    results[i] = argResults[circularIndex];
+                  }
+
+                } else {
+                  for (int i = 0; i < M; i++) {
+                    unsigned iterArgAccessStride = (i) * ((N / vecLen));
+                    for (unsigned j = 0; j < N; j += vecLen) {
+                      auto rowVec = innerBuilder.create<vector::LoadOp>(
+                          loc, VectorType::get({vecLen}, elementType),
+                          rhsClone->getResult(0),
+                          ValueRange{
+                              c0, c0,
+                              innerBuilder.create<arith::ConstantIndexOp>(loc,
+                                                                          j)});
+                      unsigned offset = (j / vecLen);
+                      auto fma = innerBuilder.create<vector::FMAOp>(
+                          loc, broadcasts[i], rowVec,
+                          innerIterArgs[offset + iterArgAccessStride]);
+                      results.push_back(fma);
+                    }
+                  }
                 }
 
                 // Yield all M results
@@ -358,9 +429,14 @@ struct VectorContractToFMAPattern
     // Store final results back to original locations.
     if (writeOp) {
       for (int i = 0; i < M; i++) {
-        rewriter.create<vector::StoreOp>(loc, newOuterForOp.getResult(i),
-                                         subview_2_splits[i],
-                                         ValueRange{c0, c0});
+        unsigned iterArgAccessStride = i * (N / vecLen);
+        for (unsigned j = 0; j < N; j += vecLen) {
+          unsigned offset = j / vecLen;
+          rewriter.create<vector::StoreOp>(
+              loc, newOuterForOp.getResult(offset + iterArgAccessStride),
+              subview_2_splits[i],
+              ValueRange{c0, rewriter.create<arith::ConstantIndexOp>(loc, j)});
+        }
       }
     }
 
@@ -372,15 +448,17 @@ struct VectorContractToFMAPattern
   }
 
 private:
+  VectorContractToFMAOptions options;
   TransformationContext &ctx;
 };
 
 void VectorContractToFMA::runOnOperation() {
+  VectorContractToFMAOptions options;
   auto funcOp = getOperation();
   MLIRContext *context = &getContext();
-
+  options.targetFeature = targetFeature;
   RewritePatternSet patterns(context);
-  patterns.add<VectorContractToFMAPattern>(context, ctx);
+  patterns.add<VectorContractToFMAPattern>(context, options, ctx);
 
   if (failed(applyPatternsGreedily(funcOp, std::move(patterns)))) {
     signalPassFailure();
@@ -389,7 +467,3 @@ void VectorContractToFMA::runOnOperation() {
 
 } // namespace tpp
 } // namespace mlir
-
-std::unique_ptr<Pass> createVectorContractToFMA() {
-  return std::make_unique<VectorContractToFMA>();
-}