Server

CUDA: Optimize `reduce_rows_f32` kernel, leading up to 25x perf improvement on kernel-level and 10% perf increase for Gemma3n #17276

Sign in to view logs

Triggered via pull request August 7, 2025 12:31

ORippler

synchronize #15132

ORippler:osimons/optimize_reduce_rows_f32

Status Success

Total duration 11m 57s

Artifacts –

server.yml

on: pull_request

Matrix: server