fixes

pggPL · pggPL · commit 32e2e0544c3b · 2025-01-30T02:33:53.000-08:00
Signed-off-by: Pawel Gadzinski &lt;pgadzinski@nvidia.com&gt;
diff --git a/tests/pytorch/debug/test_api_features.py b/tests/pytorch/debug/test_api_features.py
@@ -12,7 +12,7 @@
 # limitations under the License.
 
 import torch
-from transformer_engine.pytorch.tensor import Float8Tensor, Float8Quantizer
+from transformer_engine.pytorch.tensor.float8_tensor import Float8Tensor, Float8Quantizer
 
 import nvdlfw_inspect.api as nvinspect_api
 
diff --git a/tests/pytorch/debug/test_numerics.py b/tests/pytorch/debug/test_numerics.py
@@ -19,7 +19,7 @@
 from transformer_engine.common.recipe import DelayedScaling, Format
 from transformer_engine.pytorch.constants import TE_DType
 from transformer_engine.pytorch.fp8 import _default_sf_compute
-from transformer_engine.pytorch.tensor import Float8Quantizer
+from transformer_engine.pytorch.tensor.float8_tensor import Float8Quantizer
 from transformer_engine.pytorch.module.base import (
     _2X_ACC_DGRAD,
     _2X_ACC_FPROP,
diff --git a/tests/pytorch/debug/test_sanity.py b/tests/pytorch/debug/test_sanity.py
@@ -19,7 +19,7 @@
 from transformer_engine.common.recipe import DelayedScaling, Format
 from transformer_engine.pytorch.constants import TE_DType
 from transformer_engine.pytorch.fp8 import _default_sf_compute
-from transformer_engine.pytorch.tensor import Float8Quantizer
+from transformer_engine.pytorch.tensor.float8_tensor import Float8Quantizer
 
 from test_numerics import create_config_file
 
diff --git a/tests/pytorch/distributed/test_fusible_ops.py b/tests/pytorch/distributed/test_fusible_ops.py
@@ -21,12 +21,8 @@
 import transformer_engine.common.recipe
 import transformer_engine.pytorch as te
 from transformer_engine.pytorch.fp8 import FP8GlobalStateManager
-<<<<<<< HEAD
-from transformer_engine.pytorch.tensor import Float8Quantizer
-=======
 from transformer_engine.pytorch.tensor import QuantizedTensor
 from transformer_engine.pytorch.tensor.float8_tensor import Float8Quantizer
->>>>>>> origin/release_v2.0
 import transformer_engine.pytorch.ops as te_ops
 from transformer_engine.pytorch.ops._common import is_float8_tensor
 from transformer_engine.pytorch.utils import is_bf16_compatible
diff --git a/transformer_engine/debug/debug_quantization.py b/transformer_engine/debug/debug_quantization.py
@@ -9,6 +9,7 @@
 
 from ..pytorch.tensor.quantized_tensor import QuantizedTensor, Quantizer, _IdentityFunc, prepare_for_saving, restore_from_saved
 from transformer_engine.debug.debug_state import TEDebugState
+import transformer_engine_torch as tex
 
 """
     This file contains DebugQuantizer and DebugQuantizedTensor objects, which are wrapper along Quantizer and QuantizedTensor
@@ -235,33 +236,40 @@ def update_quantized(
         noop_flag: Optional[torch.Tensor] = None,
     ) -> QuantizedTensor:
         assert noop_flag is None, "CUDA Graphs are not supported with debug=True!"
+        iteration = nvinspect_api.DEBUG_MANAGER._trainer_iteration_count
         updated_second_gemm = False
         updated_first_gemm = False
         if self.parent_quantizer is not None:
-            if self.first_gemm_usage and self.fp8_quantize_first_gemm:
-                dst.first_gemm.quantize_(src) 
+            if dst.first_gemm_tensor is not None and self.fp8_quantize_first_gemm:
+                if hasattr(dst.first_gemm_tensor, "quantize_"):
+                    dst.first_gemm_tensor.quantize_(src, noop_flag=None)
+                else:
+                    tex.quantize(src, self.parent_quantizer, dst.first_gemm_tensor, None)
                 updated_first_gemm = True
-            elif self.second_gemm_usage and self.fp8_quantize_first_gemm:
-                dst.second_gemm.quantize_(src) 
+            if dst.second_gemm_tensor is not None and self.fp8_quantize_second_gemm:
+                if hasattr(dst.second_gemm_tensor, "quantize_"):
+                    dst.second_gemm_tensor.quantize_(src, noop_flag=None)
+                else:
+                    tex.quantize(src, self.parent_quantizer, dst.second_gemm_tensor, None)
                 updated_second_gemm = True
         
         if self.process_tensor_second_gemm:
             out = nvinspect_api.transformer_engine.process_tensor(
                 layer_name=self.layer_name, tensor_name=self.tensor_name, 
-                gemm=self.second_gemm_gemm_name, tensor=src, 
-                default_quantizer=self.parent_quantizer, out=dst.second_gemm)
+                gemm=self.second_gemm_name, tensor=src, 
+                default_quantizer=self.parent_quantizer, out=dst.second_gemm_tensor, iteration=iteration)
             assert out is None, "API call nvinspect_api.transformer_engine.process_tensor with out != None should return None"
             updated_second_gemm = True
         if self.process_tensor_first_gemm:
             nvinspect_api.transformer_engine.process_tensor(
                 layer_name=self.layer_name, tensor_name=self.tensor_name, 
-                gemm=self.process_tensor_first_gemm, default_quantizer=self.parent_quantizer, 
-                tensor=src, out=dst.first_gemm)
+                gemm=self.first_gemm_name, tensor=src,
+                default_quantizer=self.parent_quantizer, out=dst.first_gemm_tensor, iteration=iteration)
             updated_first_gemm = True
         if not updated_second_gemm:
-            dst.second_gemm.copy_(src)
+            dst.second_gemm_tensor.copy_(src)
         if updated_second_gemm and not updated_first_gemm:
-            dst.first_gemm.copy_(src)
+            dst.first_gemm_tensor.copy_(src)
             # if updated_first_gemm and updated_second_gemm, then
             # dst.second_gemm and dst.first_gemm. is the same tensor,
             # and it is already updated.
@@ -313,11 +321,12 @@ def restore_from_saved(self, tensors):
             restore_from_saved([self.first_gemm_tensor, self.second_gemm_tensor], tensors, return_saved_tensors=True)
         return saved_tensors
 
-    def _quantize(self, tensor):
+    def quantize_(self, tensor, *, noop_flag = None):
+        assert noop_flag is None, "CUDA Graphs are not supported with debug=True!"
         self.quantizer.update_quantized(tensor, self)
     
     def dequantize(self, *, dtype = torch.float32):
-        return self.first_gemm.dequantize().to(dtype)
+        return self.first_gemm_tensor.dequantize().to(dtype)
 
     def get_tensor(self, transpose:bool):
         # Is used in the python gemm() to get tensor or transpose of the tensor.
diff --git a/transformer_engine/debug/debug_state.py b/transformer_engine/debug/debug_state.py
@@ -30,6 +30,7 @@ def initialize(cls):
     def reset(cls):
         from .features.utils.stats_buffer import STATS_BUFFERS, StatsBuffers
         STATS_BUFFERS.reset()
+        cls.debug_enabled = None
         cls.layers_initialized.clear()
     
     @classmethod
diff --git a/transformer_engine/debug/features/api.py b/transformer_engine/debug/features/api.py
@@ -100,7 +100,7 @@ def use_process_tensor(self, *args, **kwargs):
         return False
     
     def process_tensor(self, *args, **kwargs):
-        return kwargs["tensor"]
+        raise RuntimeError("use_process_tensor() returned True, process_tensor() was invoked, but it is not handled by any API.")
     
     def look_at_tensor_before_process(self, *args, **kwargs):
         pass
@@ -167,9 +167,10 @@ def routing_condition(self, api_name, config, layer_name, feature_obj, **kwargs)
         return status, modified_config
 
     def output_assertions_hook(self, api_name, ret, **kwargs):
-        if api_name in {"process_tensor"}:
-            assert type(ret) in [torch.Tensor, Float8Tensor, Float8TensorBase, MXFP8Tensor, MXFP8TensorBase], \
-                f"This API {api_name} must return a tensor."
+        pass
+        #if api_name in {"process_tensor"}:
+        #    assert type(ret) in [torch.Tensor, Float8Tensor, Float8TensorBase, MXFP8Tensor, MXFP8TensorBase], \
+        #        f"This API {api_name} must return a tensor."
         
 
         
diff --git a/transformer_engine/debug/features/disable_fp8_layer.py b/transformer_engine/debug/features/disable_fp8_layer.py
@@ -33,7 +33,7 @@ class DisableFp8Layer:
     """
 
     @api_method
-    def fp8_gemm(self, config, layer_name, gemm):
+    def fp8_gemm(self, config, layer_name, *args, **kwargs):
         for key in config:
             if key not in ["enabled", "gemm"]:
               raise ValueError(f"[NVTORCH INSPECT ERROR] Unexpected key in config: \"{key}\".")
diff --git a/transformer_engine/debug/features/log_tensor_stats.py b/transformer_engine/debug/features/log_tensor_stats.py
@@ -66,9 +66,10 @@ def look_at_tensor_before_process(self, config, layer_name,
         options = (config.get('start_step', None), config.get('end_step', None), config.get('start_end_list', None),)
         skip_reduction = False
         reduction_group = nvinspect_api.get_tensor_reduction_group()
-        if self.tensor_name == "weight":
+        if tensor_name == "weight":
             if TEDebugState.weight_tensor_tp_group_reduce:
-                reduction_group = self.tp_group
+                pass
+                #reduction_group = self.tp_group
             else:
                 skip_reduction = True
 
diff --git a/transformer_engine/debug/features/utils/stats_buffer.py b/transformer_engine/debug/features/utils/stats_buffer.py
@@ -102,7 +102,7 @@ def log(self):
             combiner = STATS[stat_name][1]
             stat_value = combiner(gathered_helper_stats)
 
-            MetricLogger.log_scalar(f"{self.layer_name}_{self.tensor_name}_{stat_name}", stat_value.float(), self.iteration)
+            MetricLogger.log_scalar(f"{self.layer_name}_{self.tensor_name}_{stat_name}", stat_value, self.iteration)
             output[(self.layer_name, self.tensor_name, stat_name, self.iteration)] = stat_value # for debuggin purpouses
         self._reset_before_next_step()
         return output
diff --git a/transformer_engine/pytorch/attention.py b/transformer_engine/pytorch/attention.py
@@ -23,6 +23,7 @@
 
 import transformer_engine_torch as tex
 import transformer_engine as te
+from transformer_engine.debug.debug_state import TEDebugState
 from transformer_engine.pytorch.utils import get_cudnn_version
 from transformer_engine.pytorch.cpp_extensions.fused_attn import (
     fused_attn_fwd,
@@ -7649,6 +7650,7 @@ def forward(
             raise ValueError("No dot product attention support for the provided inputs!")
 
 
+
 class MultiheadAttention(torch.nn.Module):
     r"""
     Multi-head Attention (MHA), including Query,
@@ -7824,6 +7826,7 @@ def __init__(
         normalization: str = "LayerNorm",
         device: Union[torch.device, str] = "cuda",
         qkv_format: str = "sbhd",
+        debug_name: str = None
     ) -> None:
         super().__init__()
 
@@ -7875,6 +7878,10 @@ def __init__(
         self.hidden_size_q = self.hidden_size_per_attention_head * num_attention_heads
         self.hidden_size_kv = self.hidden_size_per_attention_head * self.num_gqa_groups
 
+        self.debug = TEDebugState.debug_enabled 
+        self.debug_name = debug_name
+
+
         common_gemm_kwargs = {
             "fuse_wgrad_accumulation": fuse_wgrad_accumulation,
             "tp_group": tp_group,
@@ -7915,6 +7922,7 @@ def __init__(
                     ub_overlap_ag=ub_overlap_ag,
                     normalization=normalization,
                     ub_name="qkv",
+                    debug_name=debug_name + ".layernorm_qkv" if debug_name is not None else None,
                     **common_gemm_kwargs,
                 )
             else:
@@ -7926,6 +7934,7 @@ def __init__(
                     return_bias=False,
                     parallel_mode=qkv_parallel_mode,
                     parameters_split=parameters_split,
+                    debug_name=debug_name + ".qkv" if debug_name is not None else None,
                     **common_gemm_kwargs,
                 )
         elif self.attention_type == "cross":
@@ -7947,6 +7956,7 @@ def __init__(
                     ub_overlap_ag=ub_overlap_ag,
                     normalization=normalization,
                     ub_name="qkv",
+                    debug_name=debug_name + ".layernorm_query" if debug_name is not None else None,
                     **common_gemm_kwargs,
                 )
             else:
@@ -7957,6 +7967,7 @@ def __init__(
                     bias=bias,
                     return_bias=False,
                     parallel_mode=qkv_parallel_mode,
+                    debug_name=debug_name + ".query_layer" if debug_name is not None else None,
                     **common_gemm_kwargs,
                 )
             self.key_value = Linear(
@@ -7967,6 +7978,7 @@ def __init__(
                 return_bias=False,
                 parallel_mode=qkv_parallel_mode,
                 parameters_split=("key", "value") if not fuse_qkv_params else None,
+                debug_name=debug_name + ".key_value" if debug_name is not None else None,
                 **common_gemm_kwargs,
             )
 
@@ -7982,7 +7994,7 @@ def __init__(
             sequence_parallel=sequence_parallel,
             tp_group=tp_group,
             layer_number=self.layer_number,
-            attention_type=self.attention_type,
+            attention_type=self.attention_type
         )
 
         # Linear
@@ -7996,6 +8008,7 @@ def __init__(
             ub_overlap_rs=ub_overlap_rs,
             ub_overlap_ag=ub_overlap_ag,
             ub_name="proj",
+            debug_name=debug_name + ".proj" if debug_name is not None else None,
             **common_gemm_kwargs,
         )
 
@@ -8100,6 +8113,7 @@ def forward(
         max_seqlen_q: Optional[int] = None,
         max_seqlen_kv: Optional[int] = None,
         fast_zero_fill: bool = True,
+        overwrite_debug_name: str = None
     ) -> Tuple[Union[torch.Tensor, None], ...]:
         """
         Forward propagation for MultiheadAttention layer.
@@ -8195,6 +8209,9 @@ def forward(
             core_attention_bias_type in AttnBiasTypes
         ), f"core_attention_bias_type {core_attention_bias_type} is not supported!"
 
+        if self.debug:
+            TransformerEngineBaseModule._validate_debug_name(self, overwrite_debug_name)
+
         # =================================================
         # Pre-allocate memory for key-values for inference
         # =================================================
@@ -8239,6 +8256,7 @@ def forward(
                     hidden_states,
                     is_first_microbatch=is_first_microbatch,
                     fp8_output=fp8_mha and rotary_pos_emb is None,
+                    overwrite_debug_name=overwrite_debug_name + ".layernorm_qkv" if overwrite_debug_name is not None else None
                 )
                 if self.return_layernorm_output:
                     mixed_x_layer, layernorm_output = layernorm_qkv_outputs
@@ -8249,6 +8267,7 @@ def forward(
                     hidden_states,
                     is_first_microbatch=is_first_microbatch,
                     fp8_output=fp8_mha and rotary_pos_emb is None,
+                    overwrite_debug_name=overwrite_debug_name + ".qkv" if overwrite_debug_name is not None else None
                 )
 
             num_queries_per_key_value = (
@@ -8303,6 +8322,7 @@ def forward(
                 encoder_output,
                 is_first_microbatch=is_first_microbatch,
                 fp8_output=fp8_mha and rotary_pos_emb is None,
+                overwrite_debug_name=overwrite_debug_name + ".key_value" if overwrite_debug_name is not None else None
             )
 
             if self.qkv_weight_interleaved:
@@ -8346,6 +8366,7 @@ def forward(
                     hidden_states,
                     is_first_microbatch=is_first_microbatch,
                     fp8_output=fp8_mha and rotary_pos_emb is None,
+                    overwrite_debug_name=overwrite_debug_name + ".layernorm_query" if overwrite_debug_name is not None else None
                 )
                 if self.return_layernorm_output:
                     query_layer, layernorm_output = layernorm_query_outputs
@@ -8356,6 +8377,7 @@ def forward(
                     hidden_states,
                     is_first_microbatch=is_first_microbatch,
                     fp8_output=fp8_mha and rotary_pos_emb is None,
+                    overwrite_debug_name=overwrite_debug_name + ".query_layer" if overwrite_debug_name is not None else None
                 )
 
             # [sq, b, hp] --> [sq, b, np, hn]
diff --git a/transformer_engine/pytorch/cpp_extensions/gemm.py b/transformer_engine/pytorch/cpp_extensions/gemm.py
@@ -115,8 +115,6 @@ def general_gemm(
     quantization_params_final = quantization_params
     if debug:
         quantization_params_final = quantization_params.parent_quantizer
-
-        #import pdb; pdb.set_trace()
         # Get tensor object from transposes
         A = A.get_tensor(not transa)
         B = B.get_tensor(transb)
@@ -137,7 +135,6 @@ def general_gemm(
     if bias is None and not grad:
         bias = _empty_tensor()
     
-
     args = (
         A,
         transa,  # transa
diff --git a/transformer_engine/pytorch/fp8.py b/transformer_engine/pytorch/fp8.py
@@ -711,10 +711,6 @@ class RecipeState(abc.ABC):
 
     """
 
-<<<<<<< HEAD
-
-=======
->>>>>>> origin/release_v2.0
     @staticmethod
     def create(
         recipe: Recipe,
@@ -825,10 +821,6 @@ class BlockScalingRecipeState(RecipeState):
 
     """
 
-<<<<<<< HEAD
-
-=======
->>>>>>> origin/release_v2.0
     recipe: BlockScaling
     mode: str
     dtype: tex.DType
diff --git a/transformer_engine/pytorch/module/base.py b/transformer_engine/pytorch/module/base.py
@@ -1045,7 +1045,6 @@ def get_weight_workspace(
             if cache_name is not None:
                 self._fp8_workspaces[cache_name] = out
             return out
-
         # Update workspace if needed
         if skip_update_flag is not None:
             update_workspace = True
@@ -1056,7 +1055,6 @@ def get_weight_workspace(
                 out.quantize_(tensor, noop_flag=skip_update_flag)
             else:
                 tex.quantize(tensor, quantizer, out, skip_update_flag)
-
         return out
 
     def _load_from_state_dict(
diff --git a/transformer_engine/pytorch/module/layernorm_linear.py b/transformer_engine/pytorch/module/layernorm_linear.py
@@ -256,6 +256,7 @@ def forward(
             ub=ub_obj_lnout if ub_overlap_ag else None,
             debug=debug
         )
+
         if not weight.requires_grad:
             if not return_layernorm_output:
                 ln_out = ln_out_total = None
@@ -601,6 +602,7 @@ def backward(
         # if ctx.fp8 and not isinstance(weight, QuantizedTensor):
         #    _fsdp_scatter_tensors(ctx.fsdp_group, weight_fp8)
 
+
         return (
             dgrad.view(ctx.inp_shape) if ctx.requires_dgrad else None,
             dgamma,
diff --git a/transformer_engine/pytorch/module/layernorm_mlp.py b/transformer_engine/pytorch/module/layernorm_mlp.py
diff --git a/transformer_engine/pytorch/module/linear.py b/transformer_engine/pytorch/module/linear.py
diff --git a/transformer_engine/pytorch/tensor/quantized_tensor.py b/transformer_engine/pytorch/tensor/quantized_tensor.py
diff --git a/transformer_engine/pytorch/utils.py b/transformer_engine/pytorch/utils.py