small refactor

SwayamInSync · SwayamInSync · commit 0eabb677431c · 2025-07-11T07:39:37.000Z
diff --git a/include/quadblas/algorithms/level3.hpp b/include/quadblas/algorithms/level3.hpp
@@ -13,93 +13,79 @@
 namespace QuadBLAS
 {
 
-  // CORRECTED: Scalar micro-kernel for reliability
   inline void gemm_micro_kernel_scalar(size_t mr, size_t nr, size_t kc,
-                                      Sleef_quad alpha,
-                                      Sleef_quad *A_packed, Sleef_quad *B_packed,
-                                      Sleef_quad beta, Sleef_quad *C, size_t ldc)
+                                       Sleef_quad alpha,
+                                       Sleef_quad *A_packed, Sleef_quad *B_packed,
+                                       Sleef_quad beta, Sleef_quad *C, size_t ldc)
   {
-    // A_packed: row-major, mr x kc (A_packed[row * kc + col])
-    // B_packed: row-major, kc x nr (B_packed[row * nr + col])  
-    // C: original matrix with leading dimension ldc
-    
+
     for (size_t i = 0; i < mr; ++i)
     {
       for (size_t j = 0; j < nr; ++j)
       {
         Sleef_quad sum = SLEEF_QUAD_C(0.0);
-        
-        // Compute dot product: A_packed[i,:] • B_packed[:,j]
+
         for (size_t k = 0; k < kc; ++k)
         {
-          Sleef_quad a_val = A_packed[i * kc + k];      // A[i][k]
-          Sleef_quad b_val = B_packed[k * nr + j];      // B[k][j]
-          sum = Sleef_fmaq1_u05(a_val, b_val, sum);     // sum += a * b
+          Sleef_quad a_val = A_packed[i * kc + k];
+          Sleef_quad b_val = B_packed[k * nr + j];
+          sum = Sleef_fmaq1_u05(a_val, b_val, sum);
         }
-        
-        // C[i][j] = alpha * sum + beta * C[i][j]
+
         Sleef_quad c_old = C[i * ldc + j];
         C[i * ldc + j] = Sleef_fmaq1_u05(alpha, sum, Sleef_mulq1_u05(beta, c_old));
       }
     }
   }
 
-  // CORRECTED: Vectorized micro-kernel (more complex but correct)
   inline void gemm_micro_kernel_vectorized(size_t mr, size_t nr, size_t kc,
-                                          Sleef_quad alpha,
-                                          Sleef_quad *A_packed, Sleef_quad *B_packed,
-                                          Sleef_quad beta, Sleef_quad *C, size_t ldc)
+                                           Sleef_quad alpha,
+                                           Sleef_quad *A_packed, Sleef_quad *B_packed,
+                                           Sleef_quad beta, Sleef_quad *C, size_t ldc)
   {
-    // Only use vectorization if dimensions are suitable
+
     if (mr % VECTOR_SIZE != 0 || nr % VECTOR_SIZE != 0 || mr < VECTOR_SIZE || nr < VECTOR_SIZE)
     {
       gemm_micro_kernel_scalar(mr, nr, kc, alpha, A_packed, B_packed, beta, C, ldc);
       return;
     }
-    
+
     const size_t mr_vec = mr / VECTOR_SIZE;
     const size_t nr_vec = nr / VECTOR_SIZE;
-    
-    // Use scalar accumulators for simplicity and correctness
+
     Sleef_quad c_acc[mr][nr];
-    
-    // Initialize accumulators
+
     for (size_t i = 0; i < mr; ++i)
     {
       for (size_t j = 0; j < nr; ++j)
       {
         c_acc[i][j] = SLEEF_QUAD_C(0.0);
       }
     }
-    
-    // Main computation with vectorized inner loop when possible
+
     for (size_t i = 0; i < mr; ++i)
     {
       for (size_t j_vec = 0; j_vec < nr_vec; ++j_vec)
       {
         size_t j_start = j_vec * VECTOR_SIZE;
         QuadVector sum_vec(SLEEF_QUAD_C(0.0));
-        
+
         for (size_t k = 0; k < kc; ++k)
         {
           Sleef_quad a_val = A_packed[i * kc + k];
-          QuadVector a_vec(a_val); // Broadcast a_val to vector
-          
-          // Load VECTOR_SIZE consecutive B values from row k
+          QuadVector a_vec(a_val);
+
           QuadVector b_vec = QuadVector::load(&B_packed[k * nr + j_start]);
-          
-          // Accumulate: sum_vec += a_vec * b_vec
+
           sum_vec = a_vec.fma(b_vec, sum_vec);
         }
-        
-        // Store back to scalar accumulators
+
         for (size_t lane = 0; lane < VECTOR_SIZE; ++lane)
         {
           c_acc[i][j_start + lane] = sum_vec.get(lane);
         }
       }
-      
-      // Handle remaining columns with scalar code
+
       for (size_t j = nr_vec * VECTOR_SIZE; j < nr; ++j)
       {
         for (size_t k = 0; k < kc; ++k)
@@ -108,8 +94,7 @@ namespace QuadBLAS
         }
       }
     }
-    
-    // Apply alpha and beta scaling and store to C
+
     for (size_t i = 0; i < mr; ++i)
     {
       for (size_t j = 0; j < nr; ++j)
@@ -120,13 +105,12 @@ namespace QuadBLAS
     }
   }
 
-  // Choose the best micro-kernel based on size
   inline void gemm_micro_kernel(size_t mr, size_t nr, size_t kc,
                                 Sleef_quad alpha,
                                 Sleef_quad *A_packed, Sleef_quad *B_packed,
                                 Sleef_quad beta, Sleef_quad *C, size_t ldc)
   {
-    // Use vectorized version for larger blocks, scalar for smaller/irregular sizes
+
     if (mr >= VECTOR_SIZE && nr >= VECTOR_SIZE && (mr * nr >= 8))
     {
       gemm_micro_kernel_vectorized(mr, nr, kc, alpha, A_packed, B_packed, beta, C, ldc);
@@ -137,37 +121,10 @@ namespace QuadBLAS
     }
   }
 
-  // CORRECTED: Macro-kernel for medium-sized blocks
   inline void gemm_macro_kernel(size_t mc, size_t nc, size_t kc,
                                 Sleef_quad alpha,
                                 Sleef_quad *A_packed, Sleef_quad *B_packed,
                                 Sleef_quad beta, Sleef_quad *C, size_t ldc)
-  {
-    constexpr size_t MR = 4; // Micro-panel height
-    constexpr size_t NR = 4; // Micro-panel width
-
-    for (size_t i = 0; i < mc; i += MR)
-    {
-      size_t mr = std::min(MR, mc - i);
-
-      for (size_t j = 0; j < nc; j += NR)
-      {
-        size_t nr = std::min(NR, nc - j);
-
-        // FIXED: Correct pointers to packed matrices and C submatrix
-        gemm_micro_kernel(mr, nr, kc, alpha,
-                          &A_packed[i * kc],           // Start of rows i to i+mr-1 in A_packed
-                          &B_packed[j],                // Start of columns j to j+nr-1 in B_packed (but this is still wrong!)
-                          beta, &C[i * ldc + j], ldc);
-      }
-    }
-  }
-
-  // CORRECTED: Macro-kernel with proper B pointer calculation
-  inline void gemm_macro_kernel_fixed(size_t mc, size_t nc, size_t kc,
-                                     Sleef_quad alpha,
-                                     Sleef_quad *A_packed, Sleef_quad *B_packed,
-                                     Sleef_quad beta, Sleef_quad *C, size_t ldc)
   {
     constexpr size_t MR = 4;
     constexpr size_t NR = 4;
@@ -180,38 +137,35 @@ namespace QuadBLAS
       {
         size_t nr = std::min(NR, nc - j);
 
-        // Create temporary B submatrix for this micro-kernel
-        // We need B[:,j:j+nr] but B_packed is row-major, so we need to extract columns
         Sleef_quad *B_sub = aligned_alloc<Sleef_quad>(kc * nr);
         if (B_sub)
         {
-          // Copy the required columns from B_packed
+
           for (size_t k = 0; k < kc; ++k)
           {
             for (size_t jj = 0; jj < nr; ++jj)
             {
               B_sub[k * nr + jj] = B_packed[k * nc + (j + jj)];
             }
           }
-          
+
           gemm_micro_kernel(mr, nr, kc, alpha,
                             &A_packed[i * kc], B_sub,
                             beta, &C[i * ldc + j], ldc);
-          
+
           aligned_free(B_sub);
         }
         else
         {
-          // Fallback to scalar if allocation fails
+
           gemm_micro_kernel_scalar(mr, nr, kc, alpha,
-                                  &A_packed[i * kc], &B_packed[j],  // Note: this is still incorrect but safer
-                                  beta, &C[i * ldc + j], ldc);
+                                   &A_packed[i * kc], &B_packed[j],
+                                   beta, &C[i * ldc + j], ldc);
         }
       }
     }
   }
 
-  // Simple GEMM implementation for small matrices (this was already correct)
   inline void gemm_simple(Layout layout, size_t m, size_t n, size_t k,
                           Sleef_quad alpha,
                           Sleef_quad *A, size_t lda,
@@ -240,7 +194,6 @@ namespace QuadBLAS
     }
   }
 
-  // CORRECTED: Main GEMM function with safer blocked implementation
   inline void gemm(Layout layout, size_t m, size_t n, size_t k,
                    Sleef_quad alpha,
                    Sleef_quad *A, size_t lda,
@@ -250,8 +203,7 @@ namespace QuadBLAS
     if (m == 0 || n == 0 || k == 0)
       return;
 
-    // Use simple implementation for small matrices OR when the blocked version might have issues
-    constexpr size_t SMALL_MATRIX_THRESHOLD = 64; // Increased threshold for safety
+    constexpr size_t SMALL_MATRIX_THRESHOLD = 64;
     if (m <= SMALL_MATRIX_THRESHOLD && n <= SMALL_MATRIX_THRESHOLD && k <= SMALL_MATRIX_THRESHOLD)
     {
       gemm_simple(layout, m, n, k, alpha, A, lda, B, ldb, beta, C, ldc);
@@ -260,7 +212,6 @@ namespace QuadBLAS
 
     BlockingParams params(m, n, k);
 
-    // Allocate temporary packed matrices
     Sleef_quad *A_packed = aligned_alloc<Sleef_quad>(params.mc * params.kc);
     Sleef_quad *B_packed = aligned_alloc<Sleef_quad>(params.kc * params.nc);
 
@@ -272,7 +223,6 @@ namespace QuadBLAS
       return;
     }
 
-    // Blocked GEMM implementation
     for (size_t kk = 0; kk < k; kk += params.kc)
     {
       size_t kc = std::min(params.kc, k - kk);
@@ -281,7 +231,6 @@ namespace QuadBLAS
       {
         size_t mc = std::min(params.mc, m - mm);
 
-        // Pack A panel (this was already correct)
         for (size_t i = 0; i < mc; ++i)
         {
           for (size_t j = 0; j < kc; ++j)
@@ -295,7 +244,6 @@ namespace QuadBLAS
         {
           size_t nc = std::min(params.nc, n - nn);
 
-          // Pack B panel (this was already correct)
           for (size_t i = 0; i < kc; ++i)
           {
             for (size_t j = 0; j < nc; ++j)
@@ -305,14 +253,12 @@ namespace QuadBLAS
             }
           }
 
-          // CORRECTED: Compute C block with proper matrix addressing
           Sleef_quad *C_block = &C[(layout == Layout::RowMajor) ? mm * ldc + nn : nn * ldc + mm];
 
-          // Use the corrected macro-kernel
-          gemm_macro_kernel_fixed(mc, nc, kc, alpha,
-                                 A_packed, B_packed,
-                                 (kk == 0) ? beta : SLEEF_QUAD_C(1.0),
-                                 C_block, ldc);
+          gemm_macro_kernel(mc, nc, kc, alpha,
+                            A_packed, B_packed,
+                            (kk == 0) ? beta : SLEEF_QUAD_C(1.0),
+                            C_block, ldc);
         }
       }
     }
@@ -321,6 +267,6 @@ namespace QuadBLAS
     aligned_free(B_packed);
   }
 
-} // namespace QuadBLAS
+}
 
-#endif // QUADBLAS_ALGORITHMS_LEVEL3_HPP
+#endif

Original file line number	Diff line number	Diff line change
`@@ -13,93 +13,79 @@`
`13`	`13`	`namespace QuadBLAS`
`14`	`14`	`{`
`15`	`15`
`16`		`- // CORRECTED: Scalar micro-kernel for reliability`
`17`	`16`	`inline void gemm_micro_kernel_scalar(size_t mr, size_t nr, size_t kc,`
`18`		`- Sleef_quad alpha,`
`19`		`- Sleef_quad A_packed, Sleef_quad B_packed,`
`20`		`- Sleef_quad beta, Sleef_quad *C, size_t ldc)`
	`17`	`+ Sleef_quad alpha,`
	`18`	`+ Sleef_quad A_packed, Sleef_quad B_packed,`
	`19`	`+ Sleef_quad beta, Sleef_quad *C, size_t ldc)`
`21`	`20`	`{`
`22`		`- // A_packed: row-major, mr x kc (A_packed[row * kc + col])`
`23`		`- // B_packed: row-major, kc x nr (B_packed[row * nr + col])`
`24`		`- // C: original matrix with leading dimension ldc`
`25`		`-`
	`21`	`+`
`26`	`22`	`for (size_t i = 0; i < mr; ++i)`
`27`	`23`	`{`
`28`	`24`	`for (size_t j = 0; j < nr; ++j)`
`29`	`25`	`{`
`30`	`26`	`Sleef_quad sum = SLEEF_QUAD_C(0.0);`
`31`		`-`
`32`		`- // Compute dot product: A_packed[i,:] • B_packed[:,j]`
	`27`	`+`
`33`	`28`	`for (size_t k = 0; k < kc; ++k)`
`34`	`29`	`{`
`35`		`- Sleef_quad a_val = A_packed[i * kc + k]; // A[i][k]`
`36`		`- Sleef_quad b_val = B_packed[k * nr + j]; // B[k][j]`
`37`		`- sum = Sleef_fmaq1_u05(a_val, b_val, sum); // sum += a * b`
	`30`	`+ Sleef_quad a_val = A_packed[i * kc + k];`
	`31`	`+ Sleef_quad b_val = B_packed[k * nr + j];`
	`32`	`+ sum = Sleef_fmaq1_u05(a_val, b_val, sum);`
`38`	`33`	`}`
`39`		`-`
`40`		`- // C[i][j] = alpha * sum + beta * C[i][j]`
	`34`	`+`
`41`	`35`	`Sleef_quad c_old = C[i * ldc + j];`
`42`	`36`	`C[i * ldc + j] = Sleef_fmaq1_u05(alpha, sum, Sleef_mulq1_u05(beta, c_old));`
`43`	`37`	`}`
`44`	`38`	`}`
`45`	`39`	`}`
`46`	`40`
`47`		`- // CORRECTED: Vectorized micro-kernel (more complex but correct)`
`48`	`41`	`inline void gemm_micro_kernel_vectorized(size_t mr, size_t nr, size_t kc,`
`49`		`- Sleef_quad alpha,`
`50`		`- Sleef_quad A_packed, Sleef_quad B_packed,`
`51`		`- Sleef_quad beta, Sleef_quad *C, size_t ldc)`
	`42`	`+ Sleef_quad alpha,`
	`43`	`+ Sleef_quad A_packed, Sleef_quad B_packed,`
	`44`	`+ Sleef_quad beta, Sleef_quad *C, size_t ldc)`
`52`	`45`	`{`
`53`		`- // Only use vectorization if dimensions are suitable`
	`46`	`+`
`54`	`47`	`if (mr % VECTOR_SIZE != 0 \|\| nr % VECTOR_SIZE != 0 \|\| mr < VECTOR_SIZE \|\| nr < VECTOR_SIZE)`
`55`	`48`	`{`
`56`	`49`	`gemm_micro_kernel_scalar(mr, nr, kc, alpha, A_packed, B_packed, beta, C, ldc);`
`57`	`50`	`return;`
`58`	`51`	`}`
`59`		`-`
	`52`	`+`
`60`	`53`	`const size_t mr_vec = mr / VECTOR_SIZE;`
`61`	`54`	`const size_t nr_vec = nr / VECTOR_SIZE;`
`62`		`-`
`63`		`- // Use scalar accumulators for simplicity and correctness`
	`55`	`+`
`64`	`56`	`Sleef_quad c_acc[mr][nr];`
`65`		`-`
`66`		`- // Initialize accumulators`
	`57`	`+`
`67`	`58`	`for (size_t i = 0; i < mr; ++i)`
`68`	`59`	`{`
`69`	`60`	`for (size_t j = 0; j < nr; ++j)`
`70`	`61`	`{`
`71`	`62`	`c_acc[i][j] = SLEEF_QUAD_C(0.0);`
`72`	`63`	`}`
`73`	`64`	`}`
`74`		`-`
`75`		`- // Main computation with vectorized inner loop when possible`
	`65`	`+`
`76`	`66`	`for (size_t i = 0; i < mr; ++i)`
`77`	`67`	`{`
`78`	`68`	`for (size_t j_vec = 0; j_vec < nr_vec; ++j_vec)`
`79`	`69`	`{`
`80`	`70`	`size_t j_start = j_vec * VECTOR_SIZE;`
`81`	`71`	`QuadVector sum_vec(SLEEF_QUAD_C(0.0));`
`82`		`-`
	`72`	`+`
`83`	`73`	`for (size_t k = 0; k < kc; ++k)`
`84`	`74`	`{`
`85`	`75`	`Sleef_quad a_val = A_packed[i * kc + k];`
`86`		`- QuadVector a_vec(a_val); // Broadcast a_val to vector`
`87`		`-`
`88`		`- // Load VECTOR_SIZE consecutive B values from row k`
	`76`	`+ QuadVector a_vec(a_val);`
	`77`	`+`
`89`	`78`	`QuadVector b_vec = QuadVector::load(&B_packed[k * nr + j_start]);`
`90`		`-`
`91`		`- // Accumulate: sum_vec += a_vec * b_vec`
	`79`	`+`
`92`	`80`	`sum_vec = a_vec.fma(b_vec, sum_vec);`
`93`	`81`	`}`
`94`		`-`
`95`		`- // Store back to scalar accumulators`
	`82`	`+`
`96`	`83`	`for (size_t lane = 0; lane < VECTOR_SIZE; ++lane)`
`97`	`84`	`{`
`98`	`85`	`c_acc[i][j_start + lane] = sum_vec.get(lane);`
`99`	`86`	`}`
`100`	`87`	`}`
`101`		`-`
`102`		`- // Handle remaining columns with scalar code`
	`88`	`+`
`103`	`89`	`for (size_t j = nr_vec * VECTOR_SIZE; j < nr; ++j)`
`104`	`90`	`{`
`105`	`91`	`for (size_t k = 0; k < kc; ++k)`
`@@ -108,8 +94,7 @@ namespace QuadBLAS`
`108`	`94`	`}`
`109`	`95`	`}`
`110`	`96`	`}`
`111`		`-`
`112`		`- // Apply alpha and beta scaling and store to C`
	`97`	`+`
`113`	`98`	`for (size_t i = 0; i < mr; ++i)`
`114`	`99`	`{`
`115`	`100`	`for (size_t j = 0; j < nr; ++j)`
`@@ -120,13 +105,12 @@ namespace QuadBLAS`
`120`	`105`	`}`
`121`	`106`	`}`
`122`	`107`
`123`		`- // Choose the best micro-kernel based on size`
`124`	`108`	`inline void gemm_micro_kernel(size_t mr, size_t nr, size_t kc,`
`125`	`109`	`Sleef_quad alpha,`
`126`	`110`	`Sleef_quad A_packed, Sleef_quad B_packed,`
`127`	`111`	`Sleef_quad beta, Sleef_quad *C, size_t ldc)`
`128`	`112`	`{`
`129`		`- // Use vectorized version for larger blocks, scalar for smaller/irregular sizes`
	`113`	`+`
`130`	`114`	`if (mr >= VECTOR_SIZE && nr >= VECTOR_SIZE && (mr * nr >= 8))`
`131`	`115`	`{`
`132`	`116`	`gemm_micro_kernel_vectorized(mr, nr, kc, alpha, A_packed, B_packed, beta, C, ldc);`
`@@ -137,37 +121,10 @@ namespace QuadBLAS`
`137`	`121`	`}`
`138`	`122`	`}`
`139`	`123`
`140`		`- // CORRECTED: Macro-kernel for medium-sized blocks`
`141`	`124`	`inline void gemm_macro_kernel(size_t mc, size_t nc, size_t kc,`
`142`	`125`	`Sleef_quad alpha,`
`143`	`126`	`Sleef_quad A_packed, Sleef_quad B_packed,`
`144`	`127`	`Sleef_quad beta, Sleef_quad *C, size_t ldc)`
`145`		`- {`
`146`		`- constexpr size_t MR = 4; // Micro-panel height`
`147`		`- constexpr size_t NR = 4; // Micro-panel width`
`148`		`-`
`149`		`- for (size_t i = 0; i < mc; i += MR)`
`150`		`- {`
`151`		`- size_t mr = std::min(MR, mc - i);`
`152`		`-`
`153`		`- for (size_t j = 0; j < nc; j += NR)`
`154`		`- {`
`155`		`- size_t nr = std::min(NR, nc - j);`
`156`		`-`
`157`		`- // FIXED: Correct pointers to packed matrices and C submatrix`
`158`		`- gemm_micro_kernel(mr, nr, kc, alpha,`
`159`		`- &A_packed[i * kc], // Start of rows i to i+mr-1 in A_packed`
`160`		`- &B_packed[j], // Start of columns j to j+nr-1 in B_packed (but this is still wrong!)`
`161`		`- beta, &C[i * ldc + j], ldc);`
`162`		`- }`
`163`		`- }`
`164`		`- }`
`165`		`-`
`166`		`- // CORRECTED: Macro-kernel with proper B pointer calculation`
`167`		`- inline void gemm_macro_kernel_fixed(size_t mc, size_t nc, size_t kc,`
`168`		`- Sleef_quad alpha,`
`169`		`- Sleef_quad A_packed, Sleef_quad B_packed,`
`170`		`- Sleef_quad beta, Sleef_quad *C, size_t ldc)`
`171`	`128`	`{`
`172`	`129`	`constexpr size_t MR = 4;`
`173`	`130`	`constexpr size_t NR = 4;`
`@@ -180,38 +137,35 @@ namespace QuadBLAS`
`180`	`137`	`{`
`181`	`138`	`size_t nr = std::min(NR, nc - j);`
`182`	`139`
`183`		`- // Create temporary B submatrix for this micro-kernel`
`184`		`- // We need B[:,j:j+nr] but B_packed is row-major, so we need to extract columns`
`185`	`140`	`Sleef_quad B_sub = aligned_alloc<Sleef_quad>(kc nr);`
`186`	`141`	`if (B_sub)`
`187`	`142`	`{`
`188`		`- // Copy the required columns from B_packed`
	`143`	`+`
`189`	`144`	`for (size_t k = 0; k < kc; ++k)`
`190`	`145`	`{`
`191`	`146`	`for (size_t jj = 0; jj < nr; ++jj)`
`192`	`147`	`{`
`193`	`148`	`B_sub[k * nr + jj] = B_packed[k * nc + (j + jj)];`
`194`	`149`	`}`
`195`	`150`	`}`
`196`		`-`
	`151`	`+`
`197`	`152`	`gemm_micro_kernel(mr, nr, kc, alpha,`
`198`	`153`	`&A_packed[i * kc], B_sub,`
`199`	`154`	`beta, &C[i * ldc + j], ldc);`
`200`		`-`
	`155`	`+`
`201`	`156`	`aligned_free(B_sub);`
`202`	`157`	`}`
`203`	`158`	`else`
`204`	`159`	`{`
`205`		`- // Fallback to scalar if allocation fails`
	`160`	`+`
`206`	`161`	`gemm_micro_kernel_scalar(mr, nr, kc, alpha,`
`207`		`- &A_packed[i * kc], &B_packed[j], // Note: this is still incorrect but safer`
`208`		`- beta, &C[i * ldc + j], ldc);`
	`162`	`+ &A_packed[i * kc], &B_packed[j],`
	`163`	`+ beta, &C[i * ldc + j], ldc);`
`209`	`164`	`}`
`210`	`165`	`}`
`211`	`166`	`}`
`212`	`167`	`}`
`213`	`168`
`214`		`- // Simple GEMM implementation for small matrices (this was already correct)`
`215`	`169`	`inline void gemm_simple(Layout layout, size_t m, size_t n, size_t k,`
`216`	`170`	`Sleef_quad alpha,`
`217`	`171`	`Sleef_quad *A, size_t lda,`
`@@ -240,7 +194,6 @@ namespace QuadBLAS`
`240`	`194`	`}`
`241`	`195`	`}`
`242`	`196`
`243`		`- // CORRECTED: Main GEMM function with safer blocked implementation`
`244`	`197`	`inline void gemm(Layout layout, size_t m, size_t n, size_t k,`
`245`	`198`	`Sleef_quad alpha,`
`246`	`199`	`Sleef_quad *A, size_t lda,`
`@@ -250,8 +203,7 @@ namespace QuadBLAS`
`250`	`203`	`if (m == 0 \|\| n == 0 \|\| k == 0)`
`251`	`204`	`return;`
`252`	`205`
`253`		`- // Use simple implementation for small matrices OR when the blocked version might have issues`
`254`		`- constexpr size_t SMALL_MATRIX_THRESHOLD = 64; // Increased threshold for safety`
	`206`	`+ constexpr size_t SMALL_MATRIX_THRESHOLD = 64;`
`255`	`207`	`if (m <= SMALL_MATRIX_THRESHOLD && n <= SMALL_MATRIX_THRESHOLD && k <= SMALL_MATRIX_THRESHOLD)`
`256`	`208`	`{`
`257`	`209`	`gemm_simple(layout, m, n, k, alpha, A, lda, B, ldb, beta, C, ldc);`
`@@ -260,7 +212,6 @@ namespace QuadBLAS`
`260`	`212`
`261`	`213`	`BlockingParams params(m, n, k);`
`262`	`214`
`263`		`- // Allocate temporary packed matrices`
`264`	`215`	`Sleef_quad A_packed = aligned_alloc<Sleef_quad>(params.mc params.kc);`
`265`	`216`	`Sleef_quad B_packed = aligned_alloc<Sleef_quad>(params.kc params.nc);`
`266`	`217`
`@@ -272,7 +223,6 @@ namespace QuadBLAS`
`272`	`223`	`return;`
`273`	`224`	`}`
`274`	`225`
`275`		`- // Blocked GEMM implementation`
`276`	`226`	`for (size_t kk = 0; kk < k; kk += params.kc)`
`277`	`227`	`{`
`278`	`228`	`size_t kc = std::min(params.kc, k - kk);`
`@@ -281,7 +231,6 @@ namespace QuadBLAS`
`281`	`231`	`{`
`282`	`232`	`size_t mc = std::min(params.mc, m - mm);`
`283`	`233`
`284`		`- // Pack A panel (this was already correct)`
`285`	`234`	`for (size_t i = 0; i < mc; ++i)`
`286`	`235`	`{`
`287`	`236`	`for (size_t j = 0; j < kc; ++j)`
`@@ -295,7 +244,6 @@ namespace QuadBLAS`
`295`	`244`	`{`
`296`	`245`	`size_t nc = std::min(params.nc, n - nn);`
`297`	`246`
`298`		`- // Pack B panel (this was already correct)`
`299`	`247`	`for (size_t i = 0; i < kc; ++i)`
`300`	`248`	`{`
`301`	`249`	`for (size_t j = 0; j < nc; ++j)`
`@@ -305,14 +253,12 @@ namespace QuadBLAS`
`305`	`253`	`}`
`306`	`254`	`}`
`307`	`255`
`308`		`- // CORRECTED: Compute C block with proper matrix addressing`
`309`	`256`	`Sleef_quad C_block = &C[(layout == Layout::RowMajor) ? mm ldc + nn : nn * ldc + mm];`
`310`	`257`
`311`		`- // Use the corrected macro-kernel`
`312`		`- gemm_macro_kernel_fixed(mc, nc, kc, alpha,`
`313`		`- A_packed, B_packed,`
`314`		`- (kk == 0) ? beta : SLEEF_QUAD_C(1.0),`
`315`		`- C_block, ldc);`
	`258`	`+ gemm_macro_kernel(mc, nc, kc, alpha,`
	`259`	`+ A_packed, B_packed,`
	`260`	`+ (kk == 0) ? beta : SLEEF_QUAD_C(1.0),`
	`261`	`+ C_block, ldc);`
`316`	`262`	`}`
`317`	`263`	`}`
`318`	`264`	`}`
`@@ -321,6 +267,6 @@ namespace QuadBLAS`
`321`	`267`	`aligned_free(B_packed);`
`322`	`268`	`}`
`323`	`269`
`324`		`-} // namespace QuadBLAS`
	`270`	`+}`
`325`	`271`
`326`		`-#endif // QUADBLAS_ALGORITHMS_LEVEL3_HPP`
	`272`	`+#endif`