[BUG] SwitchTransformersConfig creates sparse layer when num_sparse_encoder_layers=0 with single layer model

### System Info

* `transformers` version: `5.0.0.dev0`
* Platform: `Linux-5.15.167.4-microsoft-standard-WSL2-x86_64-with-glibc2.39`
* Python version: `3.12.3`
* `huggingface_hub` version: `1.3.2`
* `safetensors` version: `0.7.0`
* `accelerate` version: `1.12.0`
* Accelerate config: `not installed`
* DeepSpeed version: `not installed`
* PyTorch version (accelerator?): `2.9.1+cu128 (CUDA)`
* GPU type: `NVIDIA GeForce RTX 4060 Laptop GPU`

### Who can help?

_No response_

### Information

- [ ] The official example scripts
- [x] My own modified scripts

### Tasks

- [ ] An officially supported task in the `examples` folder (such as GLUE/SQuAD, ...)
- [x] My own task or dataset (give details below)

### Reproduction

```python
from transformers import SwitchTransformersConfig, SwitchTransformersModel

config = SwitchTransformersConfig(
    num_layers=1,
    num_sparse_encoder_layers=0,
    num_decoder_layers=1,
    num_sparse_decoder_layers=0,
    vocab_size=100,
    d_model=64,
    d_ff=128,
    num_heads=4,
    d_kv=16
)
model = SwitchTransformersModel(config)
encoder_sparse_count = sum(
    1 for block in model.encoder.block if block.is_sparse
)
print(f"Encoder sparse layers: {encoder_sparse_count}")
```
The bug is in `configuration_switch_transformers.py` ([lines 151 and 157](https://github.com/huggingface/transformers/blob/main/src/transformers/models/switch_transformers/configuration_switch_transformers.py#L151-L157)). When `num_sparse_encoder_layers=0`, the code sets `encoder_sparse_step = num_layers` (marked with a `HACK` comment). Combined with the [modeling logic](https://github.com/huggingface/transformers/blob/main/src/transformers/models/switch_transformers/configuration_switch_transformers.py) in [line 668](https://github.com/huggingface/transformers/blob/24807bfcf4a21286fa2a7e728f381ddaaca7bbc7/src/transformers/models/switch_transformers/modeling_switch_transformers.py#L668) → when `num_layers=1`, `sparse_step=1` triggers the `sparse_step==1` condition, and incorrectly creates a sparse layer.

### Expected behavior

When `num_sparse_encoder_layers=0` is set, zero sparse layers should be created regardless of `num_layers` value.

cc: @Rocketknight1 @sayakpaul

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[BUG] SwitchTransformersConfig creates sparse layer when num_sparse_encoder_layers=0 with single layer model #43335

System Info

Who can help?

Information

Tasks

Reproduction

Expected behavior

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

[BUG] SwitchTransformersConfig creates sparse layer when num_sparse_encoder_layers=0 with single layer model #43335

Description

System Info

Who can help?

Information

Tasks

Reproduction

Expected behavior

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions