Use torch.amp instead of torch.cuda.amp (#877)

alanhdu · facebook-github-bot · commit 123453efc534 · 2024-08-16T09:22:06.000-07:00
Summary: Pull Request resolved: #877 `torch.cuda.amp` throws up some deprecation warnings, so let's jus use `torch.amp` instead. This requires Pytorch 2.3+, so I've also modified the requirements.txt to add a minimum supported torch version. Reviewed By: JKSenthil Differential Revision: D61151603 fbshipit-source-id: 83ff784132ed21565a51e06c5e7bfa69c113aeda
diff --git a/requirements.txt b/requirements.txt
@@ -1,4 +1,4 @@
-torch
+torch>=2.3.0
 numpy==1.24.4
 fsspec
 tensorboard
diff --git a/tests/framework/test_app_state_mixin.py b/tests/framework/test_app_state_mixin.py
@@ -32,7 +32,7 @@ def __init__(self) -> None:
         self.lr_scheduler_d = torch.optim.lr_scheduler.StepLR(
             self.optimizer_c, step_size=30, gamma=0.1
         )
-        self.grad_scaler_e = torch.cuda.amp.GradScaler()
+        self.grad_scaler_e = torch.amp.GradScaler("cuda")
         self.optimizer_class_f = torch.optim.SGD
 
 
@@ -218,7 +218,7 @@ def __init__(self) -> None:
                 self.lr_2 = torch.optim.lr_scheduler.StepLR(
                     self.optimizer_placeholder, step_size=50, gamma=0.3
                 )
-                self.grad_scaler_e = torch.cuda.amp.GradScaler()
+                self.grad_scaler_e = torch.amp.GradScaler("cuda")
 
             def tracked_modules(self) -> Dict[str, nn.Module]:
                 ret = super().tracked_modules()
@@ -235,7 +235,7 @@ def tracked_lr_schedulers(
 
             def tracked_misc_statefuls(self) -> Dict[str, Any]:
                 ret = super().tracked_misc_statefuls()
-                ret["another_scaler"] = torch.cuda.amp.GradScaler()
+                ret["another_scaler"] = torch.amp.GradScaler("cuda")
                 return ret
 
         o = Override()
@@ -266,6 +266,6 @@ def test_construct_tracked_optimizers_and_schedulers(self) -> None:
         ):
             result = auto_unit._construct_tracked_optimizers_and_schedulers()
 
-        self.assertTrue(isinstance(result["optimizer"], FSDPOptimizerWrapper))
-        self.assertTrue(isinstance(result["optim2"], torch.optim.Optimizer))
-        self.assertTrue(isinstance(result["lr_scheduler"], TLRScheduler))
+        self.assertIsInstance(result["optimizer"], FSDPOptimizerWrapper)
+        self.assertIsInstance(result["optim2"], torch.optim.Optimizer)
+        self.assertIsInstance(result["lr_scheduler"], TLRScheduler)
diff --git a/tests/framework/test_auto_unit.py b/tests/framework/test_auto_unit.py
@@ -62,11 +62,9 @@ def test_app_state_mixin(self) -> None:
         )
 
         self.assertEqual(auto_unit.tracked_modules()["module"], my_module)
-        self.assertTrue(
-            isinstance(
-                auto_unit.tracked_misc_statefuls()["grad_scaler"],
-                torch.cuda.amp.GradScaler,
-            )
+        self.assertIsInstance(
+            auto_unit.tracked_misc_statefuls()["grad_scaler"],
+            torch.amp.GradScaler,
         )
         for key in ("module", "optimizer", "lr_scheduler", "grad_scaler"):
             self.assertIn(key, auto_unit.app_state())
diff --git a/tests/utils/test_precision.py b/tests/utils/test_precision.py
@@ -10,7 +10,7 @@
 import unittest
 
 import torch
-from torch.cuda.amp.grad_scaler import GradScaler
+from torch.amp.grad_scaler import GradScaler
 from torch.distributed.fsdp.sharded_grad_scaler import ShardedGradScaler
 
 from torchtnt.utils.precision import (
@@ -49,7 +49,7 @@ def test_get_grad_scaler_from_precision(self) -> None:
         grad_scaler = get_grad_scaler_from_precision(
             torch.float16, is_fsdp_module=False
         )
-        self.assertTrue(isinstance(grad_scaler, GradScaler))
+        self.assertIsInstance(grad_scaler, GradScaler)
 
         grad_scaler = get_grad_scaler_from_precision(torch.float16, is_fsdp_module=True)
-        self.assertTrue(isinstance(grad_scaler, ShardedGradScaler))
+        self.assertIsInstance(grad_scaler, ShardedGradScaler)
diff --git a/torchtnt/utils/precision.py b/torchtnt/utils/precision.py
@@ -10,12 +10,7 @@
 from typing import Mapping, Optional
 
 import torch
-from torch.cuda.amp.grad_scaler import GradScaler as CudaGradScaler
-
-try:
-    from torch.amp.grad_scaler import GradScaler
-except Exception:
-    GradScaler = CudaGradScaler
+from torch.amp.grad_scaler import GradScaler
 
 _DTYPE_STRING_TO_DTYPE_MAPPING: Mapping[str, Optional[torch.dtype]] = {
     "fp16": torch.float16,
@@ -63,5 +58,5 @@ def get_grad_scaler_from_precision(
 
             return ShardedGradScaler()
         else:
-            return CudaGradScaler()
+            return GradScaler("cuda")
     return None

Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,4 @@`
`1`		`-torch`
	`1`	`+torch>=2.3.0`
`2`	`2`	`numpy==1.24.4`
`3`	`3`	`fsspec`
`4`	`4`	`tensorboard`
Original file line number	Diff line number	Diff line change
`@@ -62,11 +62,9 @@ def test_app_state_mixin(self) -> None:`
`62`	`62`	`)`
`63`	`63`
`64`	`64`	`self.assertEqual(auto_unit.tracked_modules()["module"], my_module)`
`65`		`- self.assertTrue(`
`66`		`- isinstance(`
`67`		`- auto_unit.tracked_misc_statefuls()["grad_scaler"],`
`68`		`- torch.cuda.amp.GradScaler,`
`69`		`- )`
	`65`	`+ self.assertIsInstance(`
	`66`	`+ auto_unit.tracked_misc_statefuls()["grad_scaler"],`
	`67`	`+ torch.amp.GradScaler,`
`70`	`68`	`)`
`71`	`69`	`for key in ("module", "optimizer", "lr_scheduler", "grad_scaler"):`
`72`	`70`	`self.assertIn(key, auto_unit.app_state())`