Logging how vllm importance ratios are truncated/masked in GRPOTrainer

### Feature request

I think logging more values related to vllm importance ratios will be helpful, e.g. logging max/min/mean of raw importance ratios (before truncation/mask) and the fraction of importance samples being truncated/masked.

### Motivation

As of now, all the logged values related to vllm importance sampling correction are based on already truncated/masked values, so it is hard to see what the raw values look like and how many importance ratios are truncated/masked.

Where the importance ratios are truncated/masked:
https://github.com/huggingface/trl/blob/1850da5a3cbaeb043b483ae78986c43246501d40/trl/trainer/grpo_trainer.py#L1807-L1814

Where the values are logged:
https://github.com/huggingface/trl/blob/1850da5a3cbaeb043b483ae78986c43246501d40/trl/trainer/grpo_trainer.py#L1955-L1977

### Your contribution

~I can send a PR to add metrics using importance ratios before truncation/masking.~
I made a PR: #5243 

	if self.vllm_importance_sampling_mode in ["sequence_truncate", "token_truncate"]:
	vllm_importance_sampling_ratio = torch.clamp(
	vllm_importance_sampling_ratio, max=self.vllm_importance_sampling_cap
	)
	elif self.vllm_importance_sampling_mode in ["sequence_mask", "token_mask"]:
	vllm_importance_sampling_ratio = vllm_importance_sampling_ratio.masked_fill(
	vllm_importance_sampling_ratio > self.vllm_importance_sampling_cap, value=0.0
	)

	if sequence_level_is:
	flat_is_ratio = vllm_importance_sampling_ratio.flatten()
	else:
	flat_is_ratio = vllm_importance_sampling_ratio[mask]

	min_importance_sampling_ratio = (
	torch.min(flat_is_ratio) if flat_is_ratio.numel() > 0 else torch.tensor(0.0, device=device)
	)
	mean_importance_sampling_ratio = (
	torch.mean(flat_is_ratio) if flat_is_ratio.numel() > 0 else torch.tensor(0.0, device=device)
	)
	max_importance_sampling_ratio = (
	torch.max(flat_is_ratio) if flat_is_ratio.numel() > 0 else torch.tensor(0.0, device=device)
	)
	self._metrics[mode]["sampling/importance_sampling_ratio/min"].append(
	nanmin(self.accelerator.gather(min_importance_sampling_ratio)).item()
	)
	self._metrics[mode]["sampling/importance_sampling_ratio/mean"].append(
	self.accelerator.gather(mean_importance_sampling_ratio).nanmean().item()
	)
	self._metrics[mode]["sampling/importance_sampling_ratio/max"].append(
	nanmax(self.accelerator.gather(max_importance_sampling_ratio)).item()
	)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Logging how vllm importance ratios are truncated/masked in GRPOTrainer #5231

Feature request

Motivation

Your contribution

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Logging how vllm importance ratios are truncated/masked in GRPOTrainer #5231

Description

Feature request

Motivation

Your contribution

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions