Pull Request Labeler

CUDA: Optimize `reduce_rows_f32` kernel, leading up to 25x perf improvement on kernel-level and 10% perf increase for Gemma3n #14625

Sign in to view logs

Summary
Jobs
- labeler
Run details
- Usage
- Workflow file

Triggered via pull request August 11, 2025 13:29

ORippler

synchronize #15132

Status Success

Total duration 12m 9s

Artifacts –

labeler.yml

on: pull_request_target