Add logits_to_keep parameter to BertForSequenceClassification #41369

Kraga922 · 2025-10-06T13:08:07Z

Summary

This PR adds support for the logits_to_keep parameter to BertForSequenceClassification

Motivation

The logits_to_keep parameter enables memory-efficient inference by computing logits only for the last N token positions. This optimization is particularly useful for:

Generation tasks where only recent tokens are needed
Memory-constrained environments
Processing long sequences efficiently

Implementation Details

Added logits_to_keep parameter to the forward() method signature
Implemented token slicing logic that activates when parameter is specified
Updated docstring with comprehensive parameter documentation
Maintains full backward compatibility (parameter defaults to None)

Code Changes

The implementation adds approximately 10 lines of code:

New optional parameter in function signature
Conditional slicing logic for sequence outputs
Documentation in docstring

Testing

Comprehensive local testing performed with bert-base-uncased:

Single input and batch processing verified
Multiple logits_to_keep values tested (1, 2, 3, 5, 10, None)
Edge cases handled (0, negative values, values > sequence length)
Training compatibility confirmed (gradient flow works)
Output structure validation passed
Small performance improvement observed (~0.6% faster)

Backward Compatibility

Parameter is optional and defaults to None
When None, behavior is identical to current implementation
No breaking changes to existing code

Related Issues

Inspired by #40984

…mmit adds support for the logits_to_keep parameter to BertForSequenceClassification. The logits_to_keep parameter allows computing logits only for the last N tokens, reducing memory usage during generation. Changes: - Added logits_to_keep parameter to forward() method - Implemented token slicing logic when parameter is specified - Updated docstring with parameter documentation - Tested locally with bert-base-uncased model

github-actions · 2025-10-06T13:10:08Z

[For maintainers] Suggested jobs to run (before merge)

run-slow: bert

Rocketknight1 · 2025-10-06T13:46:28Z

Hi @Kraga922, I'm going to close this in favour of #41335. Although we appreciate the PR, it's easier to review a big block of similar changes together!

[email protected] added 2 commits October 5, 2025 16:11

fixed formatting on add logits to BERT

91db0a4

Rocketknight1 closed this Oct 6, 2025

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Add logits_to_keep parameter to BertForSequenceClassification #41369

Add logits_to_keep parameter to BertForSequenceClassification #41369

Kraga922 commented Oct 6, 2025

Uh oh!

github-actions bot commented Oct 6, 2025

Uh oh!

Rocketknight1 commented Oct 6, 2025

Uh oh!

Uh oh!

Add logits_to_keep parameter to BertForSequenceClassification #41369

Add logits_to_keep parameter to BertForSequenceClassification #41369

Conversation

Kraga922 commented Oct 6, 2025

Summary

Motivation

Implementation Details

Code Changes

Testing

Backward Compatibility

Related Issues

Uh oh!

github-actions bot commented Oct 6, 2025

Uh oh!

Rocketknight1 commented Oct 6, 2025

Uh oh!

Uh oh!