libxsmm
diff --git a/‎benchmarks/config/omp/mlir-bf16-vector-to-kernel.json‎
Lines changed: 126 additions & 0 deletions b/‎benchmarks/config/omp/mlir-bf16-vector-to-kernel.json‎
Lines changed: 126 additions & 0 deletions
diff --git a/‎include/TPP/Passes.h‎
Lines changed: 4 additions & 0 deletions b/‎include/TPP/Passes.h‎
Lines changed: 4 additions & 0 deletions
diff --git a/‎include/TPP/Passes.td‎
Lines changed: 12 additions & 0 deletions b/‎include/TPP/Passes.td‎
Lines changed: 12 additions & 0 deletions
diff --git a/‎lib/TPP/DefaultPipeline.cpp‎
Lines changed: 2 additions & 2 deletions b/‎lib/TPP/DefaultPipeline.cpp‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎lib/TPP/PassBundles/VectorToKernel.cpp‎
Lines changed: 8 additions & 1 deletion b/‎lib/TPP/PassBundles/VectorToKernel.cpp‎
Lines changed: 8 additions & 1 deletion
diff --git a/‎lib/TPP/Transforms/CMakeLists.txt‎
Lines changed: 1 addition & 0 deletions b/‎lib/TPP/Transforms/CMakeLists.txt‎
Lines changed: 1 addition & 0 deletions
@@ -0,0 +1,126 @@
+[
+  {
+  "gemm_bf16_dp2_mlir": {
+    "bf16_dp2_3x1024_omp_2_mlir": {
+      "type": "IR-GEN",
+      "benchmark": [ "mlir-gen", "--kernel=const --float-type=bf16 --batch=256 --layers=1024,1024,1024,1024 --tiles=32,32,32 --vnni=2" ],
+      "environment": { "OMP_NUM_THREADS": "2", "KMP_AFFINITY": "granularity=fine,verbose,compact,1,0" },
+      "flags": [ "-n", "100", "-run-args='--def-parallel --parallel-task-grid=8,16'" ],
+      "extensions": [ "(avx2)" ]
+    },
+    "bf16_dp2_3x1024_omp_4_mlir": {
+      "type": "IR-GEN",
+      "benchmark": [ "mlir-gen", "--kernel=const --float-type=bf16 --batch=256 --layers=1024,1024,1024,1024 --tiles=32,32,32 --vnni=2" ],
+      "environment": { "OMP_NUM_THREADS": "4", "KMP_AFFINITY": "granularity=fine,verbose,compact,1,0" },
+      "flags": [ "-n", "100", "-run-args='--def-parallel --parallel-task-grid=8,8'" ],
+      "extensions": [ "(avx2)" ]
+    },
+    "bf16_dp2_3x1024_omp_8_mlir": {
+      "type": "IR-GEN",
+      "benchmark": [ "mlir-gen", "--kernel=const --float-type=bf16 --batch=256 --layers=1024,1024,1024,1024 --tiles=32,32,32 --vnni=2" ],
+      "environment": { "OMP_NUM_THREADS": "8", "KMP_AFFINITY": "granularity=fine,verbose,compact,1,0" },
+      "flags": [ "-n", "100", "-run-args='--def-parallel --parallel-task-grid=4,8'" ],
+      "extensions": [ "(avx2)" ]
+    },
+    "bf16_dp2_3x1024_omp_16_mlir": {
+      "type": "IR-GEN",
+      "benchmark": [ "mlir-gen", "--kernel=const --float-type=bf16 --batch=256 --layers=1024,1024,1024,1024 --tiles=32,32,32 --vnni=2" ],
+      "environment": { "OMP_NUM_THREADS": "16", "KMP_AFFINITY": "granularity=fine,verbose,compact,1,0" },
+      "flags": [ "-n", "100", "-run-args='--def-parallel --parallel-task-grid=2,8'" ],
+      "extensions": [ "(avx2)" ]
+    }
+  }},
+  {
+  "gemm_bf16_dp2_mlir_vector_amx": {
+    "bf16_dp2_3x1024_omp_2_mlir": {
+      "type": "IR-GEN",
+      "benchmark": [ "mlir-gen", "--kernel=const --float-type=bf16 --batch=256 --layers=1024,1024,1024,1024 --tiles=32,32,32 --vnni=2" ],
+      "environment": { "OMP_NUM_THREADS": "2", "KMP_AFFINITY": "granularity=fine,verbose,compact,1,0" },
+      "flags": [ "-n", "100", "-run-args='--def-parallel --parallel-task-grid=8,16 --vector-to-kernels --registerBlocking=32,32,32'" ],
+      "extensions": ["(amx_bf16)"]
+    },
+    "bf16_dp2_3x1024_omp_4_mlir": {
+      "type": "IR-GEN",
+      "benchmark": [ "mlir-gen", "--kernel=const --float-type=bf16 --batch=256 --layers=1024,1024,1024,1024 --tiles=32,32,32 --vnni=2" ],
+      "environment": { "OMP_NUM_THREADS": "4", "KMP_AFFINITY": "granularity=fine,verbose,compact,1,0" },
+      "flags": [ "-n", "100", "-run-args='--def-parallel --parallel-task-grid=8,8 --vector-to-kernels --registerBlocking=32,32,32'" ],
+      "extensions": ["(amx_bf16)"]
+    },
+    "bf16_dp2_3x1024_omp_8_mlir": {
+      "type": "IR-GEN",
+      "benchmark": [ "mlir-gen", "--kernel=const --float-type=bf16 --batch=256 --layers=1024,1024,1024,1024 --tiles=32,32,32 --vnni=2" ],
+      "environment": { "OMP_NUM_THREADS": "8", "KMP_AFFINITY": "granularity=fine,verbose,compact,1,0" },
+      "flags": [ "-n", "100", "-run-args='--def-parallel --parallel-task-grid=4,8 --vector-to-kernels --registerBlocking=32,32,32'" ],
+      "extensions": ["(amx_bf16)"]
+    },
+    "bf16_dp2_3x1024_omp_16_mlir": {
+      "type": "IR-GEN",
+      "benchmark": [ "mlir-gen", "--kernel=const --float-type=bf16 --batch=256 --layers=1024,1024,1024,1024 --tiles=32,32,32 --vnni=2" ],
+      "environment": { "OMP_NUM_THREADS": "16", "KMP_AFFINITY": "granularity=fine,verbose,compact,1,0" },
+      "flags": [ "-n", "100", "-run-args='--def-parallel --parallel-task-grid=2,8 --vector-to-kernels --registerBlocking=32,32,32'" ],
+      "extensions": ["(amx_bf16)"]
+    }
+  }},
+  {
+  "mlp_bf16_dp2_mlir": {
+    "bf16_dp2_3x1024_omp_2_mlir": {
+      "type": "IR-GEN",
+      "benchmark": [ "mlir-gen", "--kernel=const --bias --relu --float-type=bf16 --batch=256 --layers=1024,1024,1024,1024 --tiles=32,32,32 --vnni=2" ],
+      "environment": { "OMP_NUM_THREADS": "2", "KMP_AFFINITY": "granularity=fine,verbose,compact,1,0" },
+      "flags": [ "-n", "100", "-run-args='--def-parallel --parallel-task-grid=8,16'" ],
+      "extensions": [ "(avx2)" ]
+    },
+    "bf16_dp2_3x1024_omp_4_mlir": {
+      "type": "IR-GEN",
+      "benchmark": [ "mlir-gen", "--kernel=const --bias --relu --float-type=bf16 --batch=256 --layers=1024,1024,1024,1024 --tiles=32,32,32 --vnni=2" ],
+      "environment": { "OMP_NUM_THREADS": "4", "KMP_AFFINITY": "granularity=fine,verbose,compact,1,0" },
+      "flags": [ "-n", "100", "-run-args='--def-parallel --parallel-task-grid=8,8'" ],
+      "extensions": [ "(avx2)" ]
+    },
+    "bf16_dp2_3x1024_omp_8_mlir": {
+      "type": "IR-GEN",
+      "benchmark": [ "mlir-gen", "--kernel=const --bias --relu --float-type=bf16 --batch=256 --layers=1024,1024,1024,1024 --tiles=32,32,32 --vnni=2" ],
+      "environment": { "OMP_NUM_THREADS": "8", "KMP_AFFINITY": "granularity=fine,verbose,compact,1,0" },
+      "flags": [ "-n", "100", "-run-args='--def-parallel --parallel-task-grid=4,8'" ],
+      "extensions": [ "(avx2)" ]
+    },
+    "bf16_dp2_3x1024_omp_16_mlir": {
+      "type": "IR-GEN",
+      "benchmark": [ "mlir-gen", "--kernel=const --bias --relu --float-type=bf16 --batch=256 --layers=1024,1024,1024,1024 --tiles=32,32,32 --vnni=2" ],
+      "environment": { "OMP_NUM_THREADS": "16", "KMP_AFFINITY": "granularity=fine,verbose,compact,1,0" },
+      "flags": [ "-n", "100", "-run-args='--def-parallel --parallel-task-grid=2,8'" ],
+      "extensions": [ "(avx2)" ]
+    }
+  }},
+  {
+  "mlp_bf16_dp2_mlir_vector_amx": {
+    "bf16_dp2_3x1024_omp_2_mlir": {
+      "type": "IR-GEN",
+      "benchmark": [ "mlir-gen", "--kernel=const --bias --relu --float-type=bf16 --batch=256 --layers=1024,1024,1024,1024 --tiles=32,32,32 --vnni=2" ],
+      "environment": { "OMP_NUM_THREADS": "2", "KMP_AFFINITY": "granularity=fine,verbose,compact,1,0" },
+      "flags": [ "-n", "100", "-run-args='--def-parallel --parallel-task-grid=8,16 --vector-to-kernels --registerBlocking=32,32,32'" ],
+      "extensions": [ "(amx_bf16)" ]
+    },
+    "bf16_dp2_3x1024_omp_4_mlir": {
+      "type": "IR-GEN",
+      "benchmark": [ "mlir-gen", "--kernel=const --bias --relu --float-type=bf16 --batch=256 --layers=1024,1024,1024,1024 --tiles=32,32,32 --vnni=2" ],
+      "environment": { "OMP_NUM_THREADS": "4", "KMP_AFFINITY": "granularity=fine,verbose,compact,1,0" },
+      "flags": [ "-n", "100", "-run-args='--def-parallel --parallel-task-grid=8,8 --vector-to-kernels --registerBlocking=32,32,32'" ],
+      "extensions": [ "(amx_bf16)" ]
+    },
+    "bf16_dp2_3x1024_omp_8_mlir": {
+      "type": "IR-GEN",
+      "benchmark": [ "mlir-gen", "--kernel=const --bias --relu --float-type=bf16 --batch=256 --layers=1024,1024,1024,1024 --tiles=32,32,32 --vnni=2" ],
+      "environment": { "OMP_NUM_THREADS": "8", "KMP_AFFINITY": "granularity=fine,verbose,compact,1,0" },
+      "flags": [ "-n", "100", "-run-args='--def-parallel --parallel-task-grid=4,8  --vector-to-kernels --registerBlocking=32,32,32 '" ],
+      "extensions": [ "(amx_bf16)" ]
+    },
+    "bf16_dp2_3x1024_omp_16_mlir": {
+      "type": "IR-GEN",
+      "benchmark": [ "mlir-gen", "--kernel=const --bias --relu --float-type=bf16 --batch=256 --layers=1024,1024,1024,1024 --tiles=32,32,32 --vnni=2" ],
+      "environment": { "OMP_NUM_THREADS": "16", "KMP_AFFINITY": "granularity=fine,verbose,compact,1,0" },
+      "flags": [ "-n", "100", "-run-args='--def-parallel --parallel-task-grid=2,8  --vector-to-kernels --registerBlocking=32,32,32'" ],
+      "extensions": [ "(amx_bf16)" ]
+    }
+  }}
+]
@@ -96,6 +96,10 @@ namespace xegpu {
 class XeGPUDialect;
 } // namespace xegpu
 
+namespace amx {
+class AMXDialect;
+} // namespace amx
+
 namespace x86vector {
 class X86VectorDialect;
 } // namespace x86vector
 
@@ -88,6 +88,18 @@ def VectorContractToFMA : Pass<
                            "arith::ArithDialect"];
 }
 
+def VectorContractToAMX : Pass<
+    "vector-contract-to-amx"> {
+  let summary = "Perform vector amx lowering of vector contraction ops";
+  let dependentDialects = ["memref::MemRefDialect",
+                           "scf::SCFDialect",
+                           "tensor::TensorDialect",
+                           "vector::VectorDialect",
+                           "arith::ArithDialect",
+                           "amx::AMXDialect",
+                           "x86vector::X86VectorDialect"];
+}
+
 
 def BrgemmLinalgTiling : Pass<"tile-brgemm-linalg"> {
   let summary = "Tile bregmm  matmul and reduction dimension.";
 
@@ -196,8 +196,6 @@ struct DefaultPipeline : public tpp::impl::DefaultPipelineBase<DefaultPipeline>,
     pm.addPass(createConvertVectorToLLVMPass(options));
     pm.addPass(createFinalizeMemRefToLLVMConversionPass());
     pm.addPass(createSCFToControlFlowPass());
-    if (defParallel)
-      pm.addPass(createConvertOpenMPToLLVMPass());
 
     pm.addNestedPass<func::FuncOp>(createGpuAsyncRegionPass());
     pm.addPass(createGpuToLLVMConversionPass());
@@ -214,6 +212,8 @@ struct DefaultPipeline : public tpp::impl::DefaultPipelineBase<DefaultPipeline>,
 
     pm.addPass(createArithToLLVMConversionPass());
     pm.addPass(createConvertControlFlowToLLVMPass());
+    if (defParallel)
+      pm.addPass(createConvertOpenMPToLLVMPass());
     pm.addPass(createUBToLLVMConversionPass());
     pm.addPass(createCanonicalizerPass());
     pm.addPass(createCSEPass());
 
@@ -6,14 +6,15 @@
 //
 //===----------------------------------------------------------------------===//
 
+#include "TPP/Transforms/Utils/VNNIUtils.h"
 #include "mlir/Dialect/Func/IR/FuncOps.h"
 #include "mlir/Dialect/SCF/IR/SCF.h"
 #include "mlir/Dialect/Vector/IR/VectorOps.h"
 #include "mlir/IR/BuiltinOps.h"
 #include "mlir/Pass/Pass.h"
 #include "mlir/Pass/PassManager.h"
-#include "llvm/Support/Debug.h"
 #include "mlir/Transforms/Passes.h"
+#include "llvm/Support/Debug.h"
 
 #include "TPP/PassBundles.h"
 #include "TPP/PassUtils.h"
@@ -49,8 +50,14 @@ struct VectorToKernel : public tpp::impl::VectorToKernelBase<VectorToKernel>,
 
 private:
   void constructPipeline() override {
+    // TODO: Pass ordering based on target architecture starting from AMX ->
+    // avx512 -> avx2 to subset needs to be improved by moving out some logic of
+    // Bf16DotProduct related to iterarg creation and let hoistvectorTransfer
+    // pass address it.
     pm.addNestedPass<func::FuncOp>(createBF16DotProduct());
     pm.addNestedPass<func::FuncOp>(createHoistVectorTransfers());
+    if (vnni::utils::hasAMX())
+      pm.addNestedPass<func::FuncOp>(createVectorContractToAMX());
     pm.addNestedPass<func::FuncOp>(createCanonicalizerPass());
     pm.addNestedPass<func::FuncOp>(createVectorContractToFMA());
   }
 
@@ -31,6 +31,7 @@ add_mlir_library(TPPTransforms
   HoistVectorTransfers.cpp
   VectorContractToFMA.cpp
   VectorContractToBF16DotProduct.cpp
+  VectorContractToAMX.cpp
 
   ADDITIONAL_HEADER_DIRS
     ${PROJECT_SOURCE_DIR}/include/TPP