CUDA: Optimize `reduce_rows_f32` kernel, leading up to 25x perf improvement on kernel-level and 10% perf increase for Gemma3n #17276

Job	Run time
server-windows	7m 12s
server (ADDRESS, RelWithDebInfo)	10m 12s
server (UNDEFINED, RelWithDebInfo)	11m 52s
server (Release)	6m 54s
	36m 10s

Provide feedback