Is FlashOptim compatible with ZeRO1/ZeRO2/ZeRO3 using deepspeed ？

Thanks for your great work! 

I consider how to train in transformers models with deepspeed, code likes this：

```
accelerator = Accelerator(...)
model = Qwen3_5ForConditionalGeneration.from_pretrained(...)
optimizer = FlashAdamW(model.parameters(), ...)
train_dataloader = build_dataloader(...)
model, optimizer, train_dataloader = accelerator.prepare(model, optimizer, train_dataloader)

for batch in train_dataloader:
    with accelerator.accumulate(model):
        outputs = model(**batch)
        loss = outputs.loss
        accelerator.backward(loss)
        optimizer.step()
        optimizer.zero_grad()
```

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Is FlashOptim compatible with ZeRO1/ZeRO2/ZeRO3 using deepspeed ？ #4

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Is FlashOptim compatible with ZeRO1/ZeRO2/ZeRO3 using deepspeed ？ #4

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions