Strange behavior using PyTorch DDP

@1ytic 
Hi,

So far I have been able to use the loss with DDP on a single GPU , it behaves more or less as expected.

But when I use more than 1 device, the following happens:

- On `GPU-0` loss is calculated properly
- On `GPU-1` loss is close to zero for each batch

I checked the input tensors, devices, tensor values, etc - so far everything seems to be identical for `GPU-0` and other GPUs.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Strange behavior using PyTorch DDP #32

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Strange behavior using PyTorch DDP #32

Description

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions