Gradient accumulation may requires scaling before backward

In function train_one_epoch, in the file [src/training/train.py ](https://github.com/mlfoundations/open_clip/blob/main/src/training/train.py#L159)from line 156 to 162, as shown below:
```python                   
                    losses = loss(**inputs, **inputs_no_accum, output_dict=True)
                    del inputs
                    del inputs_no_accum
                    total_loss = sum(losses.values())
                    losses["loss"] = total_loss

                backward(total_loss, scaler)
```

Shouldn't we take the average of loss for gradient accumulation before calling backward()?



Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Gradient accumulation may requires scaling before backward #761

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Gradient accumulation may requires scaling before backward #761

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions