ggml-cpu : optimize RVV q2_k and q3_k kernels #16887

xctan · 2025-10-31T07:59:08Z

This PR optimizes the q2_k and q3_k vector dot product kernels, applying similar techniques from #15720.

This change removes vector-length-dependent designs, allowing the kernels to support vector lengths wider than 128 bits.

The generation speedup decreases from 1.72x (16 threads) to 1.36x (64 threads), likely due to memory bandwidth constraints.

Perplexity was measured to ensure correctness and remains unchanged:

PR: PPL = 18.8338 +/- 0.18369
master: PPL = 18.8338 +/- 0.18369

xctan · 2025-10-31T07:59:52Z

Performance data is shown below:

model	size	params	backend	threads	test	t/s	branch
gemma3 4B Q2_K - Medium	1.60 GiB	3.88 B	CPU	64	pp512	71.91 ± 0.38	PR
gemma3 4B Q2_K - Medium	1.60 GiB	3.88 B	CPU	64	pp512	66.27 ± 0.06	master
gemma3 4B Q2_K - Medium	1.60 GiB	3.88 B	CPU	64	tg128	23.21 ± 1.23	PR
gemma3 4B Q2_K - Medium	1.60 GiB	3.88 B	CPU	64	tg128	17.07 ± 0.41	master
gemma3 4B Q2_K - Medium	1.60 GiB	3.88 B	CPU	32	pp512	38.13 ± 0.01	PR
gemma3 4B Q2_K - Medium	1.60 GiB	3.88 B	CPU	32	pp512	34.97 ± 0.01	master
gemma3 4B Q2_K - Medium	1.60 GiB	3.88 B	CPU	32	tg128	18.43 ± 0.08	PR
gemma3 4B Q2_K - Medium	1.60 GiB	3.88 B	CPU	32	tg128	11.58 ± 0.02	master
gemma3 4B Q2_K - Medium	1.60 GiB	3.88 B	CPU	16	pp512	19.42 ± 0.01	PR
gemma3 4B Q2_K - Medium	1.60 GiB	3.88 B	CPU	16	pp512	17.59 ± 0.04	master
gemma3 4B Q2_K - Medium	1.60 GiB	3.88 B	CPU	16	tg128	10.76 ± 0.06	PR
gemma3 4B Q2_K - Medium	1.60 GiB	3.88 B	CPU	16	tg128	6.26 ± 0.01	master

ggml-cpu : optimize RVV q2_k and q3_k kernels

27ee658

xctan requested review from ggerganov and slaren as code owners October 31, 2025 07:59

github-actions bot added the ggml changes relating to the ggml tensor library for machine learning label Oct 31, 2025

ggerganov approved these changes Oct 31, 2025

View reviewed changes

Provide feedback