tile-ai
diff --git a/‎_sources/autoapi/tilelang/intrinsics/mfma_macro_generator/index.rst.txt‎
Lines changed: 90 additions & 0 deletions b/‎_sources/autoapi/tilelang/intrinsics/mfma_macro_generator/index.rst.txt‎
Lines changed: 90 additions & 0 deletions
@@ -18,6 +18,7 @@ Classes
 .. autoapisummary::
 
    tilelang.intrinsics.mfma_macro_generator.MatrixCoreIntrinEmitter
+   tilelang.intrinsics.mfma_macro_generator.MatrixCorePreshuffleIntrinEmitter
 
 
 Module Contents
@@ -159,3 +160,92 @@ Module Contents
    .. py:method:: stmatrix(C_local_buf, C_buf, pid_m=None, pid_n=None)
 
 
+.. py:class:: MatrixCorePreshuffleIntrinEmitter(a_dtype = 'float16', b_dtype = 'float16', accum_dtype = 'float16', a_transposed = False, b_transposed = False, block_row_warps = 2, block_col_warps = 2, warp_row_tiles = 8, warp_col_tiles = 8, chunk = 16, reduce_k = 1, num_elems_per_byte = 1, k_pack = None, is_m_first = False, a_preshuffle = False, b_preshuffle = False)
+
+   Bases: :py:obj:`MatrixCoreIntrinEmitter`
+
+
+   To eliminate Python syntax within TIR Macro.
+
+
+   .. py:attribute:: a_dtype
+      :value: 'float16'
+
+
+
+   .. py:attribute:: b_dtype
+      :value: 'float16'
+
+
+
+   .. py:attribute:: accum_dtype
+      :value: 'float16'
+
+
+
+   .. py:attribute:: a_transposed
+      :value: False
+
+
+
+   .. py:attribute:: b_transposed
+      :value: False
+
+
+
+   .. py:attribute:: block_row_warps
+      :value: 2
+
+
+
+   .. py:attribute:: block_col_warps
+      :value: 2
+
+
+
+   .. py:attribute:: warp_row_tiles
+      :value: 8
+
+
+
+   .. py:attribute:: warp_col_tiles
+      :value: 8
+
+
+
+   .. py:attribute:: chunk
+      :value: 16
+
+
+
+   .. py:attribute:: warp_rows
+      :value: 0
+
+
+
+   .. py:attribute:: warp_cols
+      :value: 0
+
+
+
+   .. py:attribute:: reduce_k
+      :value: 1
+
+
+
+   .. py:attribute:: threads
+      :value: 256
+
+
+
+   .. py:attribute:: num_elems_per_byte
+      :value: 1
+
+
+
+   .. py:method:: ldmatrix_a(A_local_buf, A_buf, ki, rk=0, pid_m=None, pid_n=None)
+
+
+   .. py:method:: ldmatrix_b(B_local_buf, B_buf, ki, rk=0, pid_m=None, pid_n=None)
+
+