tile-ai
diff --git a/‎_sources/autoapi/tilelang/intrinsics/utils/index.rst.txt‎
Lines changed: 0 additions & 14 deletions b/‎_sources/autoapi/tilelang/intrinsics/utils/index.rst.txt‎
Lines changed: 0 additions & 14 deletions
diff --git a/‎_sources/autoapi/tilelang/language/index.rst.txt‎
Lines changed: 1 addition & 0 deletions b/‎_sources/autoapi/tilelang/language/index.rst.txt‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎_sources/autoapi/tilelang/language/utils/index.rst.txt‎
Lines changed: 58 additions & 0 deletions b/‎_sources/autoapi/tilelang/language/utils/index.rst.txt‎
Lines changed: 58 additions & 0 deletions
diff --git a/‎_sources/autoapi/tilelang/quantize/index.rst.txt‎
Lines changed: 1 addition & 0 deletions b/‎_sources/autoapi/tilelang/quantize/index.rst.txt‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎_sources/autoapi/tilelang/quantize/mxfp/index.rst.txt‎
Lines changed: 92 additions & 0 deletions b/‎_sources/autoapi/tilelang/quantize/mxfp/index.rst.txt‎
Lines changed: 92 additions & 0 deletions
diff --git a/‎autoapi/index.html‎
Lines changed: 4 additions & 0 deletions b/‎autoapi/index.html‎
Lines changed: 4 additions & 0 deletions
diff --git a/‎autoapi/tilelang/autotuner/capture/index.html‎
Lines changed: 2 additions & 0 deletions b/‎autoapi/tilelang/autotuner/capture/index.html‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎autoapi/tilelang/autotuner/index.html‎
Lines changed: 2 additions & 0 deletions b/‎autoapi/tilelang/autotuner/index.html‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎autoapi/tilelang/autotuner/param/index.html‎
Lines changed: 2 additions & 0 deletions b/‎autoapi/tilelang/autotuner/param/index.html‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎autoapi/tilelang/autotuner/tuner/index.html‎
Lines changed: 2 additions & 0 deletions b/‎autoapi/tilelang/autotuner/tuner/index.html‎
Lines changed: 2 additions & 0 deletions
@@ -16,7 +16,6 @@ Functions
    tilelang.intrinsics.utils.mma_store_index_map
    tilelang.intrinsics.utils.mfma_store_index_map
    tilelang.intrinsics.utils.get_mma_micro_size
-   tilelang.intrinsics.utils.index_to_coordinates
 
 
 Module Contents
@@ -36,16 +35,3 @@ Module Contents
 
 .. py:function:: get_mma_micro_size(dtype)
 
-.. py:function:: index_to_coordinates(index, shape)
-
-   General Implementation of:
-       vjj = index % (micro_size_k // num_elems_per_byte)
-       coordinates[-1] = index % shape[-1];
-       vii = index // (micro_size_k // num_elems_per_byte) % micro_size_y
-       index = index // shape[-1]; coordinates[-2] = index % shape[-2];
-       vj = index // (micro_size_k // num_elems_per_byte * micro_size_y) % block_K // (micro_size_k // num_elems_per_byte)
-       index = index // shape[-2]; coordinates[-3] = index % shape[-3];
-       vi = index // (micro_size_k // num_elems_per_byte * micro_size_y * (block_K // (micro_size_k // num_elems_per_byte))) % block_N // micro_size_y
-       index = index // shape[-3]; coordinates[-4] = index % shape[-4];
-
-
@@ -33,6 +33,7 @@ Submodules
    /autoapi/tilelang/language/proxy/index
    /autoapi/tilelang/language/reduce/index
    /autoapi/tilelang/language/tir/index
+   /autoapi/tilelang/language/utils/index
    /autoapi/tilelang/language/warpgroup/index
 
 
 
@@ -0,0 +1,58 @@
+tilelang.language.utils
+=======================
+
+.. py:module:: tilelang.language.utils
+
+
+Functions
+---------
+
+.. autoapisummary::
+
+   tilelang.language.utils.index_to_coordinates
+   tilelang.language.utils.linear_index
+
+
+Module Contents
+---------------
+
+.. py:function:: index_to_coordinates(index, shape)
+
+   Convert a flat (linear) index to multi-dimensional coordinates for a given shape.
+
+   .. rubric:: Example
+
+   shape = (4, 5, 6)
+   index = 53
+   index_to_coordinates(53, (4, 5, 6)) -> [1, 3, 5]
+   # Explanation:
+   # 53 // (5*6) = 1  (1st coordinate)
+   # 53 % (5*6) = 23
+   # 23 // 6 = 3      (2nd coordinate)
+   # 23 % 6 = 5       (3rd coordinate)
+
+   :param index: The flat index to convert.
+   :type index: int
+   :param shape: The shape of the multi-dimensional array.
+   :type shape: tuple or list of int
+
+   :returns: A list of coordinates corresponding to each dimension.
+   :rtype: list
+
+
+.. py:function:: linear_index(*args)
+
+   Convert a list of coordinates to a flat (linear) index using strides.
+
+   Usage examples:
+       linear_index(i)                         -> i
+       linear_index(i, j)                      -> i * stride + j
+       linear_index(i, j, stride_j)            -> i * stride_j + j
+       linear_index(i, j, k, stride_j, stride_k)
+                                               -> i * stride_j * stride_k + j * stride_k + k
+
+       Example for index = i * threads * local_size + tx * local_size + v:
+       Suppose you have i, tx, v as coordinates, and threads, local_size as strides:
+       linear_index(i, tx, v, threads, local_size) == i * threads * local_size + tx * local_size + v
+
+
@@ -11,6 +11,7 @@ Submodules
    :maxdepth: 1
 
    /autoapi/tilelang/quantize/lop3/index
+   /autoapi/tilelang/quantize/mxfp/index
    /autoapi/tilelang/quantize/quantization/index
    /autoapi/tilelang/quantize/utils/index
 
 
@@ -0,0 +1,92 @@
+tilelang.quantize.mxfp
+======================
+
+.. py:module:: tilelang.quantize.mxfp
+
+
+Attributes
+----------
+
+.. autoapisummary::
+
+   tilelang.quantize.mxfp.decode_f4_to_bf16_twiddling
+
+
+Functions
+---------
+
+.. autoapisummary::
+
+   tilelang.quantize.mxfp.get_mxfp_intrin_group
+
+
+Module Contents
+---------------
+
+.. py:data:: decode_f4_to_bf16_twiddling
+   :value: Multiline-String
+
+   .. raw:: html
+
+      <details><summary>Show Value</summary>
+
+   .. code-block:: python
+
+      """
+      // N should be the number of elements processed by one thread
+      template<typename T1, typename T2>
+      __device__ void decode_fp4_to_bf16_twiddling(T1 *B_local, T2 *B_local_decode, const int N = 8) {
+        #pragma unroll
+        for (int i = 0; i < N; ++i) {
+          uint B_dequantize_local_vec[4];
+          uint tmp, bias, d0, d1, d2, d3, d4, d5, d6;
+          asm volatile(
+            // To handle the endianness issue
+            "prmt.b32 %13, %4, 0, 0x0123;"
+            "mov.b32 %12, 0x7e807e80;"
+            "and.b32 %0, %13, 0b10000001110000001000000111000000;"
+            "mul.bf16x2 %0, %0, %12;"
+            "shl.b32 %1, %13, 3;"
+            "and.b32 %1, %1, 0b10000001110000001000000111000000;"          
+            "mul.bf16x2 %1, %1, %12;"
+            "shl.b32 %2, %13, 6;"
+            "and.b32 %2, %2, 0b10000001110000001000000111000000;"
+            "mul.bf16x2 %2, %2, %12;"
+            "shl.b32 %5, %13, 1;"
+            "and.b32 %6, %5, 0b10000000000000001000000000000000;"
+            "shr.b32 %7, %13, 3;"
+            "and.b32 %8, %7, 0b00000001100000000000000110000000;"
+            "or.b32 %9, %6, %8;"
+            "shr.b32 %10, %13, 7;"
+            "and.b32 %11, %10, 0b00000000010000000000000001000000;"
+            "or.b32 %3, %9, %11;"
+            "mul.bf16x2 %3, %3, %12;"
+            :"=r"(B_dequantize_local_vec[0])
+            ,"=r"(B_dequantize_local_vec[1])
+            ,"=r"(B_dequantize_local_vec[2])
+            ,"=r"(B_dequantize_local_vec[3])
+            :"r"(*(uint*)&B_local[i << 2]), "r"(d0), "r"(d1), "r"(d2), "r"(d3), "r"(d4), "r"(d5), "r"(d6), "r"(bias), "r"(tmp)
+          );
+          for (int j = 0; j < 4; ++j) {
+            // Pay attention to the big-endianness issue
+            B_local_decode[(i << 3) + j] = reinterpret_cast<T2*>(&B_dequantize_local_vec[j])[1];
+            B_local_decode[(i << 3) + j + 4] = reinterpret_cast<T2*>(&B_dequantize_local_vec[j])[0];
+          }    
+        }
+        // Check if the synchronization is needed
+      }
+      """
+
+   .. raw:: html
+
+      </details>
+
+
+
+.. py:function:: get_mxfp_intrin_group(out_dtype = 'bfloat16', source_format = 'uint', source_bit = 4, storage_dtype = 'uint8', use_twiddling = False)
+
+   This function is used to get the intrinsic group of the MXFP operation to avoid the overhead of fast decoding.
+   MXFP is a type of logic operation that takes three inputs. The intrinsic group refers to the set of
+   intrinsic operations that can be performed on these inputs. This function retrieves and returns this group.
+
+
@@ -363,6 +363,7 @@
 <li class="toctree-l4"><a class="reference internal" href="tilelang/language/tir/op/index.html">tilelang.language.tir.op</a></li>
 </ul>
 </li>
+<li class="toctree-l3"><a class="reference internal" href="tilelang/language/utils/index.html">tilelang.language.utils</a></li>
 <li class="toctree-l3"><a class="reference internal" href="tilelang/language/warpgroup/index.html">tilelang.language.warpgroup</a></li>
 </ul>
 </li>
@@ -388,6 +389,7 @@
 </li>
 <li class="toctree-l2 has-children"><a class="reference internal" href="tilelang/quantize/index.html">tilelang.quantize</a><input class="toctree-checkbox" id="toctree-checkbox-27" name="toctree-checkbox-27" role="switch" type="checkbox"/><label for="toctree-checkbox-27"><div class="visually-hidden">Toggle navigation of tilelang.quantize</div><i class="icon"><svg><use href="#svg-arrow-right"></use></svg></i></label><ul>
 <li class="toctree-l3"><a class="reference internal" href="tilelang/quantize/lop3/index.html">tilelang.quantize.lop3</a></li>
+<li class="toctree-l3"><a class="reference internal" href="tilelang/quantize/mxfp/index.html">tilelang.quantize.mxfp</a></li>
 <li class="toctree-l3"><a class="reference internal" href="tilelang/quantize/quantization/index.html">tilelang.quantize.quantization</a></li>
 <li class="toctree-l3"><a class="reference internal" href="tilelang/quantize/utils/index.html">tilelang.quantize.utils</a></li>
 </ul>
@@ -601,6 +603,7 @@ <h1>API Reference<a class="headerlink" href="#api-reference" title="Link to this
 <li class="toctree-l4"><a class="reference internal" href="tilelang/language/tir/op/index.html">tilelang.language.tir.op</a></li>
 </ul>
 </li>
+<li class="toctree-l3"><a class="reference internal" href="tilelang/language/utils/index.html">tilelang.language.utils</a></li>
 <li class="toctree-l3"><a class="reference internal" href="tilelang/language/warpgroup/index.html">tilelang.language.warpgroup</a></li>
 </ul>
 </li>
@@ -626,6 +629,7 @@ <h1>API Reference<a class="headerlink" href="#api-reference" title="Link to this
 </li>
 <li class="toctree-l2"><a class="reference internal" href="tilelang/quantize/index.html">tilelang.quantize</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="tilelang/quantize/lop3/index.html">tilelang.quantize.lop3</a></li>
+<li class="toctree-l3"><a class="reference internal" href="tilelang/quantize/mxfp/index.html">tilelang.quantize.mxfp</a></li>
 <li class="toctree-l3"><a class="reference internal" href="tilelang/quantize/quantization/index.html">tilelang.quantize.quantization</a></li>
 <li class="toctree-l3"><a class="reference internal" href="tilelang/quantize/utils/index.html">tilelang.quantize.utils</a></li>
 </ul>
 
@@ -363,6 +363,7 @@
 <li class="toctree-l4"><a class="reference internal" href="../../language/tir/op/index.html">tilelang.language.tir.op</a></li>
 </ul>
 </li>
+<li class="toctree-l3"><a class="reference internal" href="../../language/utils/index.html">tilelang.language.utils</a></li>
 <li class="toctree-l3"><a class="reference internal" href="../../language/warpgroup/index.html">tilelang.language.warpgroup</a></li>
 </ul>
 </li>
@@ -388,6 +389,7 @@
 </li>
 <li class="toctree-l2 has-children"><a class="reference internal" href="../../quantize/index.html">tilelang.quantize</a><input class="toctree-checkbox" id="toctree-checkbox-27" name="toctree-checkbox-27" role="switch" type="checkbox"/><label for="toctree-checkbox-27"><div class="visually-hidden">Toggle navigation of tilelang.quantize</div><i class="icon"><svg><use href="#svg-arrow-right"></use></svg></i></label><ul>
 <li class="toctree-l3"><a class="reference internal" href="../../quantize/lop3/index.html">tilelang.quantize.lop3</a></li>
+<li class="toctree-l3"><a class="reference internal" href="../../quantize/mxfp/index.html">tilelang.quantize.mxfp</a></li>
 <li class="toctree-l3"><a class="reference internal" href="../../quantize/quantization/index.html">tilelang.quantize.quantization</a></li>
 <li class="toctree-l3"><a class="reference internal" href="../../quantize/utils/index.html">tilelang.quantize.utils</a></li>
 </ul>
 
@@ -363,6 +363,7 @@
 <li class="toctree-l4"><a class="reference internal" href="../language/tir/op/index.html">tilelang.language.tir.op</a></li>
 </ul>
 </li>
+<li class="toctree-l3"><a class="reference internal" href="../language/utils/index.html">tilelang.language.utils</a></li>
 <li class="toctree-l3"><a class="reference internal" href="../language/warpgroup/index.html">tilelang.language.warpgroup</a></li>
 </ul>
 </li>
@@ -388,6 +389,7 @@
 </li>
 <li class="toctree-l2 has-children"><a class="reference internal" href="../quantize/index.html">tilelang.quantize</a><input class="toctree-checkbox" id="toctree-checkbox-27" name="toctree-checkbox-27" role="switch" type="checkbox"/><label for="toctree-checkbox-27"><div class="visually-hidden">Toggle navigation of tilelang.quantize</div><i class="icon"><svg><use href="#svg-arrow-right"></use></svg></i></label><ul>
 <li class="toctree-l3"><a class="reference internal" href="../quantize/lop3/index.html">tilelang.quantize.lop3</a></li>
+<li class="toctree-l3"><a class="reference internal" href="../quantize/mxfp/index.html">tilelang.quantize.mxfp</a></li>
 <li class="toctree-l3"><a class="reference internal" href="../quantize/quantization/index.html">tilelang.quantize.quantization</a></li>
 <li class="toctree-l3"><a class="reference internal" href="../quantize/utils/index.html">tilelang.quantize.utils</a></li>
 </ul>
 
@@ -363,6 +363,7 @@
 <li class="toctree-l4"><a class="reference internal" href="../../language/tir/op/index.html">tilelang.language.tir.op</a></li>
 </ul>
 </li>
+<li class="toctree-l3"><a class="reference internal" href="../../language/utils/index.html">tilelang.language.utils</a></li>
 <li class="toctree-l3"><a class="reference internal" href="../../language/warpgroup/index.html">tilelang.language.warpgroup</a></li>
 </ul>
 </li>
@@ -388,6 +389,7 @@
 </li>
 <li class="toctree-l2 has-children"><a class="reference internal" href="../../quantize/index.html">tilelang.quantize</a><input class="toctree-checkbox" id="toctree-checkbox-27" name="toctree-checkbox-27" role="switch" type="checkbox"/><label for="toctree-checkbox-27"><div class="visually-hidden">Toggle navigation of tilelang.quantize</div><i class="icon"><svg><use href="#svg-arrow-right"></use></svg></i></label><ul>
 <li class="toctree-l3"><a class="reference internal" href="../../quantize/lop3/index.html">tilelang.quantize.lop3</a></li>
+<li class="toctree-l3"><a class="reference internal" href="../../quantize/mxfp/index.html">tilelang.quantize.mxfp</a></li>
 <li class="toctree-l3"><a class="reference internal" href="../../quantize/quantization/index.html">tilelang.quantize.quantization</a></li>
 <li class="toctree-l3"><a class="reference internal" href="../../quantize/utils/index.html">tilelang.quantize.utils</a></li>
 </ul>
 
@@ -363,6 +363,7 @@
 <li class="toctree-l4"><a class="reference internal" href="../../language/tir/op/index.html">tilelang.language.tir.op</a></li>
 </ul>
 </li>
+<li class="toctree-l3"><a class="reference internal" href="../../language/utils/index.html">tilelang.language.utils</a></li>
 <li class="toctree-l3"><a class="reference internal" href="../../language/warpgroup/index.html">tilelang.language.warpgroup</a></li>
 </ul>
 </li>
@@ -388,6 +389,7 @@
 </li>
 <li class="toctree-l2 has-children"><a class="reference internal" href="../../quantize/index.html">tilelang.quantize</a><input class="toctree-checkbox" id="toctree-checkbox-27" name="toctree-checkbox-27" role="switch" type="checkbox"/><label for="toctree-checkbox-27"><div class="visually-hidden">Toggle navigation of tilelang.quantize</div><i class="icon"><svg><use href="#svg-arrow-right"></use></svg></i></label><ul>
 <li class="toctree-l3"><a class="reference internal" href="../../quantize/lop3/index.html">tilelang.quantize.lop3</a></li>
+<li class="toctree-l3"><a class="reference internal" href="../../quantize/mxfp/index.html">tilelang.quantize.mxfp</a></li>
 <li class="toctree-l3"><a class="reference internal" href="../../quantize/quantization/index.html">tilelang.quantize.quantization</a></li>
 <li class="toctree-l3"><a class="reference internal" href="../../quantize/utils/index.html">tilelang.quantize.utils</a></li>
 </ul>