intelligent-machine-learning
diff --git a/‎.flake8‎
Lines changed: 1 addition & 1 deletion b/‎.flake8‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎.github/actions/atorch-python-test/action.yml‎
Lines changed: 1 addition & 0 deletions b/‎.github/actions/atorch-python-test/action.yml‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎.gitignore‎
Lines changed: 19 additions & 0 deletions b/‎.gitignore‎
Lines changed: 19 additions & 0 deletions
diff --git a/‎.isort.cfg‎
Lines changed: 1 addition & 1 deletion b/‎.isort.cfg‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎.pre-commit-config.yaml‎
Lines changed: 2 additions & 2 deletions b/‎.pre-commit-config.yaml‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎atorch/auto/opt_lib/amp_optimization.py‎
Lines changed: 7 additions & 4 deletions b/‎atorch/auto/opt_lib/amp_optimization.py‎
Lines changed: 7 additions & 4 deletions
diff --git a/‎atorch/auto/opt_lib/zero_optimization.py‎
Lines changed: 6 additions & 1 deletion b/‎atorch/auto/opt_lib/zero_optimization.py‎
Lines changed: 6 additions & 1 deletion
diff --git a/‎atorch/checkpoint/__init__.py‎ b/‎atorch/checkpoint/__init__.py‎
diff --git a/‎atorch/common/env.py‎
Lines changed: 3 additions & 0 deletions b/‎atorch/common/env.py‎
Lines changed: 3 additions & 0 deletions
diff --git a/‎atorch/distributed/hooks.py‎
Lines changed: 5 additions & 2 deletions b/‎atorch/distributed/hooks.py‎
Lines changed: 5 additions & 2 deletions
@@ -1,5 +1,5 @@
 [flake8]
-ignore = E203, E266, W503, E741
+ignore = E203, E266, W503, E741, F824
 max-line-length = 120
 per-file-ignores = __init__.py:F401 atorch/distributed/distributed.py:F401
 
@@ -10,4 +10,5 @@ runs:
     - "pip install dlrover[torch]==0.4.0 --no-deps \
 && echo -e 'import math\ninf = math.inf\nnan = math.nan\nstring_classes = \
 (str, bytes)' > /opt/conda/lib/python3.8/site-packages/torch/_six.py \
+&& pip install dependency_injector \
 && PYTHONPATH=. pytest atorch/tests/common_tests"
@@ -0,0 +1,19 @@
+.vscode
+.idea*
+*egg-info*
+dist
+build
+*~
+*__pycache__*
+*.pyc
+.mypy_cache
+.DS_Store
+.cache
+.bazelrc
+.build_platform
+.platform_version
+bazel-bin
+bazel-out
+bazel-testlogs
+bazel-xpu_timer
+*.whl
@@ -1,5 +1,5 @@
 [settings]
 multi_line_output=3
 line_length=120
-known_third_party = accelerate,agd,apex,datasets,deepspeed,distutils,dlrover,einops,evaluate,example_utils,fairscale,flash_attn,google,grpc,instruction_dataset_utils,matplotlib,megatron,model,model_registry,moe_modules,networkx,numpy,packaging,pandas,peft,psutil,pytest,redis,safetensors,scipy,seaborn,sklearn,tiktoken,torch,torch_npu,torchvision,tqdm,transformers,triton,typing_extensions,utils,wrapt,yaml
+known_third_party = accelerate,agd,apex,datasets,deepspeed,dependency_injector,distutils,dlrover,einops,evaluate,example_utils,fairscale,flash_attn,google,grpc,instruction_dataset_utils,matplotlib,megatron,model,model_registry,moe_modules,networkx,numpy,packaging,pandas,peft,psutil,pytest,redis,safetensors,scipy,seaborn,sklearn,tiktoken,torch,torch_npu,torchvision,tqdm,transformers,triton,typing_extensions,utils,wrapt,yaml
 include_trailing_comma=True
@@ -19,12 +19,12 @@ repos:
         exclude: __init__.py|_pb2.py|_pb2_grpc.py
         args: [
           "--max-line-length=120",
-          "--ignore=E721,W503,E203,E266,E741",
+          "--ignore=E721,W503,E203,E266,E741,F824",
         ]
   - repo: https://github.com/pre-commit/mirrors-mypy
     rev: v0.981
     hooks:
       - id: mypy
         exclude: _pb2.py|_pb2_grpc.py|auto/engine/servicer.py
         args: [--ignore-missing-imports, --follow-imports=skip, --namespace-packages,  --no-strict-optional, --show-error-codes]
-        additional_dependencies: ["types_requests", "types-PyYAML"]
+        additional_dependencies: ["types_requests", "types-PyYAML"]
@@ -243,8 +243,8 @@ def apply_wrapper(model_context, wrapper_name, wrapper_config=None):
         precision_switchable_fp8_input_current_scaling: if use current scaling when use precision_switchable.
         use_te: if True, use te.Linear for fp8 implementation. If False, use atorch ScaledLinear. Default True.
         scale_method: scale method used for ScaledLinear. "tensorwise", "axiswise", "tileblock". default "tensorwise".
-        quantization_method: quantization method used for quantization.  "default", "pytorch", "fbgemm", "triton".
-        compute_method: compute method used for fp8 gemm. "default", "pytorch", "fbgemm", "triton", "cuda".
+        quantization_method: quantization method used for quantization.  "default", "pytorch", "cutlass", "triton".
+        compute_method: compute method used for fp8 gemm. "default", "pytorch", "cutlass", "triton".
         recipe.DelayedScaling's parameter (only applicable when use_te):
             margin: default 0
             interval (te < 1.8): default 1
@@ -340,6 +340,9 @@ def get_fp8_module(
             has_bias = hasattr(module, "bias") and module.bias is not None
             if isinstance(module, torch.nn.Linear):
                 need_copy_weight = True
+                weight_requires_grad = module.weight.requires_grad
+                if has_bias:
+                    bias_requires_grad = module.bias.requires_grad
                 if use_te:
                     if switchable:
                         from atorch.modules.fp8 import PrecisionSwitchableLinear
@@ -381,9 +384,9 @@ def get_fp8_module(
                             scale_method, quantization_method, compute_method, scale_block_size
                         ),
                     )
-                new_module.weight.requires_grad = module.weight.requires_grad
+                new_module.weight.requires_grad = weight_requires_grad
                 if has_bias:
-                    new_module.bias.requires_grad = module.bias.requires_grad
+                    new_module.bias.requires_grad = bias_requires_grad
                 if need_copy_weight:
                     with torch.no_grad():
                         new_module.weight.copy_(module.weight)
 
@@ -44,17 +44,22 @@
     patch_fsdp2_get_managed_states,
     patch_fsdp2_post_forward,
     patch_fsdp2_pre_backward,
+    patch_fsdp2_pre_forward,
 )
 from atorch.utils.version import get_version, torch_version
 
 if torch_version() >= FSDP2PatchContext().FSDP2_PATCH_TORCH_VERSION:  # type: ignore
-    from torch.distributed._composable.fsdp import MixedPrecisionPolicy, fully_shard
+    try:
+        from torch.distributed._composable.fsdp import MixedPrecisionPolicy, fully_shard
+    except (ImportError, ModuleNotFoundError):
+        from torch.distributed.fsdp import MixedPrecisionPolicy, fully_shard
     from torch.distributed.fsdp.wrap import ModuleWrapPolicy
 
     patch_fsdp2_get_managed_states()
     patch_fsdp2_pre_backward()
     patch_fsdp2_backward_prefetch()
     patch_fsdp2_post_forward()
+    patch_fsdp2_pre_forward()
 else:
     fully_shard = None
     MixedPrecisionPolicy = object
 
@@ -29,3 +29,6 @@ class EnvSetting(metaclass=SingletonMeta):
     DEBUG = parse_bool_env("ATORCH_DEBUG", "False")
     FORCE_FSDP2_RESHARD_AFTER_FORWARD = parse_bool_env("FORCE_FSDP2_RESHARD_AFTER_FORWARD", "False")
     CLOSE_FSDP2_BACKWARD_PREFETCH = parse_bool_env("CLOSE_FSDP2_BACKWARD_PREFETCH", "False")
+
+    # FP8
+    FORCE_QUANTIZE_PER_MICROBATCH = parse_bool_env("FORCE_QUANTIZE_PER_MICROBATCH", "False")
@@ -10,7 +10,7 @@
     from torch.distributed.elastic.utils.distributed import get_socket_with_port as _get_socket_with_port
 
 
-def hook_set_master_addr_port():
+def hook_set_master_addr_port(args=None):
     def _hook(store, master_addr, master_port, local_dir=None):
         """
         PyTorch use master node's hostname as the MASTER_ADDR of process group. However, hostname may not be resolved
@@ -32,4 +32,7 @@ def _hook(store, master_addr, master_port, local_dir=None):
         store.set("MASTER_PORT", str(master_port).encode(encoding="UTF-8"))
 
     # hook SimpleElasticAgent._set_master_addr_port
-    setattr(SimpleElasticAgent, "_set_master_addr_port", staticmethod(_hook))
+    if hasattr(SimpleElasticAgent, "_set_master_addr_port"):
+        setattr(SimpleElasticAgent, "_set_master_addr_port", staticmethod(_hook))
+    elif args and args.local_addr is None:
+        args.local_addr = os.environ.get("POD_IP") or socket.getfqdn()