修改gradient checkpointing方法，进一步降低训练显存 #648

ninghongbo123 · 2023-12-25T09:06:17Z

ninghongbo123
Dec 25, 2023

1、目前的gradient checkpointing是对每一层进行checkpoint，即28个checkpoint;
2、我想进一步降低显存，于是只对其中14个进行checkpoint，但是为什么显存需求更大导致oom？理论上会进一步降低显存才对呢？
3、可能是我修改的方式不对，或者理解不对？
请大佬指导一二。

zRzRzRzRzRzRzR · 2024-01-03T14:01:16Z

zRzRzRzRzRzRzR
Jan 3, 2024
Maintainer

你可以到 #253 问问？我没有太看懂

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

修改gradient checkpointing方法，进一步降低训练显存 #648

Uh oh!

{{title}}

Uh oh!

Replies: 1 comment

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

修改gradient checkpointing方法，进一步降低训练显存 #648

Uh oh!

ninghongbo123 Dec 25, 2023

Replies: 1 comment

Uh oh!

zRzRzRzRzRzRzR Jan 3, 2024 Maintainer

ninghongbo123
Dec 25, 2023

zRzRzRzRzRzRzR
Jan 3, 2024
Maintainer