feat(`grpo_trainer.py`): Variational Sequence-Level Soft Policy Optimization (VESPO)#5199

Open

casinca wants to merge 8 commits intohuggingface:mainfrom

Commits on Feb 27, 2026

init
casinca
committed

Commits on Feb 28, 2026

Commits on Mar 1, 2026

Commits on Mar 2, 2026

docs: fix vespo training example
casinca
committed

Commits on Mar 5, 2026

Merge branch 'main' into VESPO
casinca
authored