Clang-format issues

Alcpz · Alcpz · commit 7081eda94589 · 2025-10-28T15:26:28.000Z
diff --git a/ggml/src/ggml-cpu/arch/arm/repack.cpp b/ggml/src/ggml-cpu/arch/arm/repack.cpp
@@ -525,9 +525,9 @@ void ggml_gemv_q4_K_8x8_q8_K(int                        n,
     UNUSED(ncols_interleaved);
     UNUSED(blocklen);
 
-#if ! ((defined(_MSC_VER)) && ! defined(__clang__)) && defined(__aarch64__) && defined(__ARM_NEON)
-    constexpr int col_pairs = ncols_interleaved / 2;
-    const uint8x16_t m4b = vdupq_n_u8(0x0f);
+#if !((defined(_MSC_VER)) && !defined(__clang__)) && defined(__aarch64__) && defined(__ARM_NEON)
+    constexpr int    col_pairs = ncols_interleaved / 2;
+    const uint8x16_t m4b       = vdupq_n_u8(0x0f);
 
     // 1x8 tile = 2 x 4
     float32x4_t acc_f32[ncols_interleaved / 4];
@@ -542,25 +542,25 @@ void ggml_gemv_q4_K_8x8_q8_K(int                        n,
         }
 
         for (int b = 0; b < nb; b++) {
-            float32x4_t q4_d_0 = vcvt_f32_f16(vld1_f16((const __fp16 *)q4_ptr[b].d));     // d0 d1 d2 d3
-            float32x4_t q4_d_1 = vcvt_f32_f16(vld1_f16((const __fp16 *)q4_ptr[b].d + 4)); // d4 d5 d6 d7
-            float32x4_t q8_d = vdupq_n_f32(q8_ptr[b].d);
-            float32x4_t sb_scale_0 = vmulq_f32 (q4_d_0, q8_d);
-            float32x4_t sb_scale_1 = vmulq_f32 (q4_d_1, q8_d);
-            float32x4_t q4_dmin_0 = vcvt_f32_f16(vld1_f16((const __fp16 *) q4_ptr[b].dmin));     // dmin 0..3
-            float32x4_t q4_dmin_1 = vcvt_f32_f16(vld1_f16((const __fp16 *) q4_ptr[b].dmin + 4)); // dmin 4..7
-            float32x4_t sb_min_0 = vmulq_f32(q4_dmin_0, q8_d);
-            float32x4_t sb_min_1 = vmulq_f32(q4_dmin_1, q8_d);
+            float32x4_t q4_d_0     = vcvt_f32_f16(vld1_f16((const __fp16 *) q4_ptr[b].d));      // d0 d1 d2 d3
+            float32x4_t q4_d_1     = vcvt_f32_f16(vld1_f16((const __fp16 *) q4_ptr[b].d + 4));  // d4 d5 d6 d7
+            float32x4_t q8_d       = vdupq_n_f32(q8_ptr[b].d);
+            float32x4_t sb_scale_0 = vmulq_f32(q4_d_0, q8_d);
+            float32x4_t sb_scale_1 = vmulq_f32(q4_d_1, q8_d);
+            float32x4_t q4_dmin_0  = vcvt_f32_f16(vld1_f16((const __fp16 *) q4_ptr[b].dmin));      // dmin 0..3
+            float32x4_t q4_dmin_1  = vcvt_f32_f16(vld1_f16((const __fp16 *) q4_ptr[b].dmin + 4));  // dmin 4..7
+            float32x4_t sb_min_0   = vmulq_f32(q4_dmin_0, q8_d);
+            float32x4_t sb_min_1   = vmulq_f32(q4_dmin_1, q8_d);
 
             // interleaved bias_acc: [0]->r0 0123, [1]->r0 4567
-            int32x4_t bias_acc[2] = {vdupq_n_s32(0), vdupq_n_s32(0)};
+            int32x4_t bias_acc[2] = { vdupq_n_s32(0), vdupq_n_s32(0) };
             // 2 sb each iteration
             int32x4_t acc_lo[col_pairs];
             int32x4_t acc_hi[col_pairs];
 
             // Each bsum is 16 elements, pairwise add leaves us with the 8 bsums of the entire block
             const int16x8_t bsums = vpaddq_s16(vld1q_s16(q8_ptr[b].bsums), vld1q_s16(q8_ptr[b].bsums + 8));
-            int16_t bsums_arr[8];
+            int16_t         bsums_arr[8];
             vst1q_s16(bsums_arr, bsums);
             for (int sb = 0; sb < QK_K / 64; sb++) {
                 for (int i = 0; i < col_pairs; i++) {
@@ -578,49 +578,57 @@ void ggml_gemv_q4_K_8x8_q8_K(int                        n,
                     q4sb_scales[i] = vmovl_s8(vld1_s8(aux_q4sb));
                 }
 
-                const uint8_t *q4_base = q4_ptr[b].qs + sb * QK_K;
+                const uint8_t * q4_base = q4_ptr[b].qs + sb * QK_K;
 
                 // Load the 64 quants from q8K duplicated to use vecdots with the interelaved columns
                 // but still need the qs to use the low and hi bits from q4
-                const int8_t *q8_base = q8_ptr[b].qs + sb * 64;
-                int8x16_t q8_qs[8];
+                const int8_t * q8_base = q8_ptr[b].qs + sb * 64;
+                int8x16_t      q8_qs[8];
                 for (int i = 0; i < 8; i++) {
-                    q8_qs[i] = (int8x16_t) vld1q_dup_s64((const int64_t *)(q8_base + i * 8));
+                    q8_qs[i] = (int8x16_t) vld1q_dup_s64((const int64_t *) (q8_base + i * 8));
                 }
 
-
                 // Q4s columns iterated in pairs (01, 23, 45, 67)
                 for (int cp = 0; cp < col_pairs; cp++) {
                     uint8x16_t q4_qs_cp_0 = vld1q_u8(q4_base + 16 * cp);
                     uint8x16_t q4_qs_cp_1 = vld1q_u8(q4_base + 16 * cp + 64);
                     uint8x16_t q4_qs_cp_2 = vld1q_u8(q4_base + 16 * cp + 128);
                     uint8x16_t q4_qs_cp_3 = vld1q_u8(q4_base + 16 * cp + 192);
 
-                    acc_lo[cp] = ggml_vdotq_s32(acc_lo[cp], vreinterpretq_s8_u8(vandq_u8(q4_qs_cp_0, m4b)), q8_qs[0]); // 0 .. 7
-                    acc_lo[cp] = ggml_vdotq_s32(acc_lo[cp], vreinterpretq_s8_u8(vandq_u8(q4_qs_cp_1, m4b)), q8_qs[1]); // 8 ..15
-                    acc_lo[cp] = ggml_vdotq_s32(acc_lo[cp], vreinterpretq_s8_u8(vandq_u8(q4_qs_cp_2, m4b)), q8_qs[2]); // 16..23
-                    acc_lo[cp] = ggml_vdotq_s32(acc_lo[cp], vreinterpretq_s8_u8(vandq_u8(q4_qs_cp_3, m4b)), q8_qs[3]); // 24..31
-
-                    acc_hi[cp] = ggml_vdotq_s32(acc_hi[cp], vreinterpretq_s8_u8(vshrq_n_u8(q4_qs_cp_0, 4)), q8_qs[4]); // 32..39
-                    acc_hi[cp] = ggml_vdotq_s32(acc_hi[cp], vreinterpretq_s8_u8(vshrq_n_u8(q4_qs_cp_1, 4)), q8_qs[5]); // 40..47
-                    acc_hi[cp] = ggml_vdotq_s32(acc_hi[cp], vreinterpretq_s8_u8(vshrq_n_u8(q4_qs_cp_2, 4)), q8_qs[6]); // 48..55
-                    acc_hi[cp] = ggml_vdotq_s32(acc_hi[cp], vreinterpretq_s8_u8(vshrq_n_u8(q4_qs_cp_3, 4)), q8_qs[7]); // 56..63
+                    acc_lo[cp] =
+                        ggml_vdotq_s32(acc_lo[cp], vreinterpretq_s8_u8(vandq_u8(q4_qs_cp_0, m4b)), q8_qs[0]);  // 0 .. 7
+                    acc_lo[cp] =
+                        ggml_vdotq_s32(acc_lo[cp], vreinterpretq_s8_u8(vandq_u8(q4_qs_cp_1, m4b)), q8_qs[1]);  // 8 ..15
+                    acc_lo[cp] =
+                        ggml_vdotq_s32(acc_lo[cp], vreinterpretq_s8_u8(vandq_u8(q4_qs_cp_2, m4b)), q8_qs[2]);  // 16..23
+                    acc_lo[cp] =
+                        ggml_vdotq_s32(acc_lo[cp], vreinterpretq_s8_u8(vandq_u8(q4_qs_cp_3, m4b)), q8_qs[3]);  // 24..31
+
+                    acc_hi[cp] =
+                        ggml_vdotq_s32(acc_hi[cp], vreinterpretq_s8_u8(vshrq_n_u8(q4_qs_cp_0, 4)), q8_qs[4]);  // 32..39
+                    acc_hi[cp] =
+                        ggml_vdotq_s32(acc_hi[cp], vreinterpretq_s8_u8(vshrq_n_u8(q4_qs_cp_1, 4)), q8_qs[5]);  // 40..47
+                    acc_hi[cp] =
+                        ggml_vdotq_s32(acc_hi[cp], vreinterpretq_s8_u8(vshrq_n_u8(q4_qs_cp_2, 4)), q8_qs[6]);  // 48..55
+                    acc_hi[cp] =
+                        ggml_vdotq_s32(acc_hi[cp], vreinterpretq_s8_u8(vshrq_n_u8(q4_qs_cp_3, 4)), q8_qs[7]);  // 56..63
                 }
 
-
                 // Iterates over a pair of column pairs (4 columns) to use a single 128 register
                 // p = 0 -> 0123  p2 -> 4567
                 for (int i = 0, p = 0; p < col_pairs; i++, p += 2) {
-                    int16x4_t group_scales_lo = p == 0 ? vget_low_s16(q4sb_scales[0]) : vget_high_s16(q4sb_scales[0]);
-                    int16x4_t group_scales_hi = p == 0 ? vget_low_s16(q4sb_scales[1]) : vget_high_s16(q4sb_scales[1]);
-                    float32x4_t sb_scale = p == 0 ? sb_scale_0 : sb_scale_1;
+                    int16x4_t   group_scales_lo = p == 0 ? vget_low_s16(q4sb_scales[0]) : vget_high_s16(q4sb_scales[0]);
+                    int16x4_t   group_scales_hi = p == 0 ? vget_low_s16(q4sb_scales[1]) : vget_high_s16(q4sb_scales[1]);
+                    float32x4_t sb_scale        = p == 0 ? sb_scale_0 : sb_scale_1;
 
                     // 0123 or 4567
                     // TODO: Single superblock mul at the end of the superblock
-                    float32x4_t sumf_0 = vcvtq_f32_s32(vmulq_s32(vmovl_s16(group_scales_lo), vpaddq_s32(acc_lo[p], acc_lo[p + 1])));
+                    float32x4_t sumf_0 =
+                        vcvtq_f32_s32(vmulq_s32(vmovl_s16(group_scales_lo), vpaddq_s32(acc_lo[p], acc_lo[p + 1])));
                     acc_f32[i] = vfmaq_f32(acc_f32[i], sb_scale, sumf_0);
 
-                    float32x4_t sumf_1 = vcvtq_f32_s32(vmulq_s32(vmovl_s16(group_scales_hi), vpaddq_s32(acc_hi[p], acc_hi[p + 1])));
+                    float32x4_t sumf_1 =
+                        vcvtq_f32_s32(vmulq_s32(vmovl_s16(group_scales_hi), vpaddq_s32(acc_hi[p], acc_hi[p + 1])));
                     acc_f32[i] = vfmaq_f32(acc_f32[i], sb_scale, sumf_1);
                 }
 
@@ -631,16 +639,12 @@ void ggml_gemv_q4_K_8x8_q8_K(int                        n,
                 int16x4_t bsums_vec_hi = vdup_n_s16(bsums_arr[2 * sb + 1]);
 
                 // cols 0-3 bias
-                bias_acc[0] =
-                    vmlal_s16(bias_acc[0], bsums_vec_lo, vget_low_s16(q4sb_mins[0]));
-                bias_acc[0] =
-                    vmlal_s16(bias_acc[0], bsums_vec_hi, vget_low_s16(q4sb_mins[1]));
+                bias_acc[0] = vmlal_s16(bias_acc[0], bsums_vec_lo, vget_low_s16(q4sb_mins[0]));
+                bias_acc[0] = vmlal_s16(bias_acc[0], bsums_vec_hi, vget_low_s16(q4sb_mins[1]));
 
                 // cols 4-7 bias
-                bias_acc[1] = vmlal_s16(bias_acc[1], bsums_vec_lo,
-                        vget_high_s16(q4sb_mins[0]));
-                bias_acc[1] = vmlal_s16(bias_acc[1], bsums_vec_hi,
-                        vget_high_s16(q4sb_mins[1]));
+                bias_acc[1] = vmlal_s16(bias_acc[1], bsums_vec_lo, vget_high_s16(q4sb_mins[0]));
+                bias_acc[1] = vmlal_s16(bias_acc[1], bsums_vec_hi, vget_high_s16(q4sb_mins[1]));
             }  // for sb
 
             acc_f32[0] = vmlsq_f32(acc_f32[0], vcvtq_f32_s32(bias_acc[0]), sb_min_0);
@@ -652,7 +656,7 @@ void ggml_gemv_q4_K_8x8_q8_K(int                        n,
         vst1q_f32(s + base + 4, acc_f32[1]);
     }  // for x
     return;
-#endif // #if ! ((defined(_MSC_VER)) && ! defined(__clang__)) && defined(__aarch64__) && defined(__ARM_NEON)
+#endif  // #if ! ((defined(_MSC_VER)) && ! defined(__clang__)) && defined(__aarch64__) && defined(__ARM_NEON)
     ggml_gemv_q4_K_8x8_q8_K_generic(n, s, bs, vx, vy, nr, nc);
 }
 
@@ -2101,9 +2105,10 @@ void ggml_gemm_q4_K_8x8_q8_K(int                        n,
     UNUSED(ncols_interleaved);
     UNUSED(blocklen);
 
-#if ! ((defined(_MSC_VER)) && ! defined(__clang__)) && defined(__aarch64__) && defined(__ARM_NEON) && defined(__ARM_FEATURE_MATMUL_INT8)
-    constexpr int q8_k_blocklen     = 4;
-    const uint8x16_t m4b = vdupq_n_u8(0x0f);
+#if !((defined(_MSC_VER)) && !defined(__clang__)) && defined(__aarch64__) && defined(__ARM_NEON) && \
+    defined(__ARM_FEATURE_MATMUL_INT8)
+    constexpr int    q8_k_blocklen = 4;
+    const uint8x16_t m4b           = vdupq_n_u8(0x0f);
 
     // 8 accumulators: 2 row pairs × 4 col pairs
     float32x4_t acc_f32[blocklen];
@@ -2131,9 +2136,9 @@ void ggml_gemm_q4_K_8x8_q8_K(int                        n,
                     vst1q_s16(bsums_arr[q8_row], bsums[q8_row]);
                 }
 
-                int32x4_t sb_acc[4];   // Aux accumulators to store subblock (partial) results
-                int32x4_t acc[8];      // rows 01 stored in [0][1][2][3] rows 23 stored in [4][5][6][7]
-                int32x4_t bias_acc[8]; // interleaved bias_acc: [0]->r0 0123, [1]->r0 4567, [2]->r1 0123 ...
+                int32x4_t sb_acc[4];    // Aux accumulators to store subblock (partial) results
+                int32x4_t acc[8];       // rows 01 stored in [0][1][2][3] rows 23 stored in [4][5][6][7]
+                int32x4_t bias_acc[8];  // interleaved bias_acc: [0]->r0 0123, [1]->r0 4567, [2]->r1 0123 ...
                 for (int i = 0; i < 8; i++) {
                     acc[i]      = vdupq_n_s32(0);
                     bias_acc[i] = vdupq_n_s32(0);
@@ -2150,16 +2155,16 @@ void ggml_gemm_q4_K_8x8_q8_K(int                        n,
                     }
 
                     // q8_ptr[b].qs has interleaved Q8 rows (01, 23)
-                    const int8_t *q8_base = q8_ptr[b].qs + sb * 256;
+                    const int8_t * q8_base = q8_ptr[b].qs + sb * 256;
 
                     int8x16_t q8_qs_01[8];
                     int8x16_t q8_qs_23[8];
 
                     // Load 32-byte per row pair, 1 subblock each time
                     for (int i = 0; i < 8; i++) {
                         const int offset = i * 32;  // 16 for row 01, 16 for row 23
-                        q8_qs_01[i] = vld1q_s8(q8_base + offset);
-                        q8_qs_23[i] = vld1q_s8(q8_base + offset + 16);
+                        q8_qs_01[i]      = vld1q_s8(q8_base + offset);
+                        q8_qs_23[i]      = vld1q_s8(q8_base + offset + 16);
                     }
 
                     const int8x16_t q8s[2][8] = {
@@ -2234,10 +2239,10 @@ void ggml_gemm_q4_K_8x8_q8_K(int                        n,
                             vmlal_s16(bias_acc[2 * q8_row], bsums_vec_lo, vget_low_s16(q4sb_mins[0]));
                         bias_acc[2 * q8_row] =
                             vmlal_s16(bias_acc[2 * q8_row], bsums_vec_hi, vget_low_s16(q4sb_mins[1]));
-                        bias_acc[2 * q8_row + 1] = vmlal_s16(bias_acc[2 * q8_row + 1], bsums_vec_lo,
-                                                             vget_high_s16(q4sb_mins[0]));
-                        bias_acc[2 * q8_row + 1] = vmlal_s16(bias_acc[2 * q8_row + 1], bsums_vec_hi,
-                                                             vget_high_s16(q4sb_mins[1]));
+                        bias_acc[2 * q8_row + 1] =
+                            vmlal_s16(bias_acc[2 * q8_row + 1], bsums_vec_lo, vget_high_s16(q4sb_mins[0]));
+                        bias_acc[2 * q8_row + 1] =
+                            vmlal_s16(bias_acc[2 * q8_row + 1], bsums_vec_hi, vget_high_s16(q4sb_mins[1]));
                     }
                 }  // for sb
 
@@ -2259,11 +2264,11 @@ void ggml_gemm_q4_K_8x8_q8_K(int                        n,
 
                 for (int i = 0; i < q8_k_blocklen; i++) {
                     for (int j = 0; j < 2; j++) {
-                        float32x4_t q8_d = vdupq_n_f32(q8_ptr[b].d[i]);
-                        float32x4_t q4_dmin = vcvt_f32_f16(vld1_f16((const __fp16 *)(q4_ptr[b].dmin + j * 4)));
-                        const float32x4_t dmins = vmulq_f32(q4_dmin, q8_d);
+                        float32x4_t       q8_d    = vdupq_n_f32(q8_ptr[b].d[i]);
+                        float32x4_t       q4_dmin = vcvt_f32_f16(vld1_f16((const __fp16 *) (q4_ptr[b].dmin + j * 4)));
+                        const float32x4_t dmins   = vmulq_f32(q4_dmin, q8_d);
 
-                        float32x4_t q4_d = vcvt_f32_f16(vld1_f16((const __fp16 *)(q4_ptr[b].d + j * 4)));
+                        float32x4_t       q4_d  = vcvt_f32_f16(vld1_f16((const __fp16 *) (q4_ptr[b].d + j * 4)));
                         const float32x4_t scale = vmulq_f32(q4_d, q8_d);
 
                         acc_f32[2 * i + j] = vmlsq_f32(acc_f32[2 * i + j], vcvtq_f32_s32(bias_acc[2 * i + j]), dmins);