Extends rewrite list for cond (#114)

xadupre · web-flow · commit d316ba63cd52 · 2025-05-29T12:20:07.000+02:00
* extend rewrite list

* improve rewritings

* spell

* fix

* shrinks
diff --git a/CHANGELOGS.rst b/CHANGELOGS.rst
@@ -4,6 +4,7 @@ Change Logs
 0.6.1
 +++++
 
+* :pr:`114`: extends the list of known rewritings
 * :pr:`113`: fixes a couple of issues with ModelBuilder
 
 0.6.0
diff --git a/onnx_diagnostic/helpers/helper.py b/onnx_diagnostic/helpers/helper.py
@@ -1306,11 +1306,11 @@ def max_diff(
         rdiff = diff / (exp_cpu.abs() + 1e-3)
         if diff.numel() > 0:
             abs_diff, rel_diff, sum_diff, n_diff, nan_diff = (
-                float(diff.max()),
-                float(rdiff.max()),
-                float(diff.sum()),
+                float(diff.max().detach()),
+                float(rdiff.max().detach()),
+                float(diff.sum().detach()),
                 float(diff.numel()),
-                float(ndiff.sum()),
+                float(ndiff.sum().detach()),
             )
             argm = tuple(map(int, torch.unravel_index(diff.argmax(), diff.shape)))
         elif got_cpu.numel() == exp_cpu.numel():
diff --git a/onnx_diagnostic/tasks/image_classification.py b/onnx_diagnostic/tasks/image_classification.py
@@ -58,8 +58,8 @@ def get_inputs(
     shapes = {
         "pixel_values": {
             0: torch.export.Dim("batch", min=1, max=1024),
-            2: torch.export.Dim("width", min=1, max=4096),
-            3: torch.export.Dim("height", min=1, max=4096),
+            2: "width",
+            3: "height",
         },
     }
     inputs = dict(
diff --git a/onnx_diagnostic/torch_export_patches/patch_module_helper.py b/onnx_diagnostic/torch_export_patches/patch_module_helper.py
@@ -1,5 +1,6 @@
 import ast
-from typing import Any, List, Optional
+import functools
+from typing import Any, Dict, List, Optional
 
 
 class OrToBitOrTransformer(ast.NodeTransformer):
@@ -19,10 +20,129 @@ def ast_or_into_bitor(node: "ast.Node") -> "ast.Node":
     return new_node
 
 
-def _rewrite_bart_encoder_layer():
-    "BartEncoderLayer, PLBartEncoderLayer"
+@functools.lru_cache
+def _rewrite_forward_clamp_float16() -> Dict[str, List[type]]:
+
     import transformers
 
+    _known = {
+        "AutoformerEncoderLayer": [
+            transformers.models.autoformer.modeling_autoformer.AutoformerEncoderLayer
+        ],
+        "BartEncoderLayer": [
+            transformers.models.bart.modeling_bart.BartEncoderLayer,
+            transformers.models.plbart.modeling_plbart.PLBartEncoderLayer,
+        ],
+        "BigBirdPegasusEncoderLayer": [
+            transformers.models.bigbird_pegasus.modeling_bigbird_pegasus.BigBirdPegasusEncoderLayer
+        ],
+        "BlenderbotSmallEncoderLayer": [
+            transformers.models.blenderbot_small.modeling_blenderbot_small.BlenderbotSmallEncoderLayer
+        ],
+        "InformerEncoderLayer": [
+            transformers.models.informer.modeling_informer.InformerEncoderLayer
+        ],
+        "LEDEncoderLayer": [transformers.models.led.modeling_led.LEDEncoderLayer],
+        "MarianEncoderLayer": [transformers.models.marian.modeling_marian.MarianEncoderLayer],
+        "MvpEncoderLayer": [transformers.models.mvp.modeling_mvp.MvpEncoderLayer],
+        "NllbMoeEncoderLayer": [
+            transformers.models.nllb_moe.modeling_nllb_moe.NllbMoeEncoderLayer
+        ],
+        "TimeSeriesTransformerEncoderLayer": [
+            transformers.models.time_series_transformer.modeling_time_series_transformer.TimeSeriesTransformerEncoderLayer
+        ],
+    }
+    return _known
+
+
+@functools.lru_cache
+def known_transformers_rewritings_clamp_float16() -> Dict[str, str]:
+    """
+    This functions returns the list of known classes to be rewritten.
+    in :epkg:`transformers`. Each class is mapped to an alias,
+    this alias is then given to :func:`rewritings_transformers_clamp_float16`
+    to rewrite the encoder layers because of a specific control flow.
+
+    .. runpython::
+        :showcode:
+
+        import pprint
+        from onnx_diagnostic.torch_export_patches.patch_model_helper import (
+            known_transformers_rewritings,
+        )
+
+        pprint.pprint(known_transformers_rewritings())
+    """
+    _alias = {
+        "AutoformerEncoder": "AutoformerEncoderLayer",
+        "AutoformerEncoderLayer": "AutoformerEncoderLayer",
+        "AutoformerForPrediction": "AutoformerEncoderLayer",
+        "AutoformerModel": "AutoformerEncoderLayer",
+        "BartEncoderLayer": "BartEncoderLayer",
+        "BartForConditionalGeneration": "BartEncoderLayer",
+        "BigBirdPegasusForConditionalGeneration": "BigBirdPegasusEncoderLayer",
+        "BigBirdPegasusForQuestionAnswering": "BigBirdPegasusEncoderLayer",
+        "BigBirdPegasusForCausalLM": "BigBirdPegasusEncoderLayer",
+        "BlenderbotSmallEncoderLayer": "BlenderbotSmallEncoderLayer",
+        "BlenderbotSmallForConditionalGeneration": "BlenderbotSmallEncoderLayer",
+        "BlenderbotSmallForCausalLM": "BlenderbotSmallEncoderLayer",
+        "InformerEncoderLayer": "InformerEncoderLayer",
+        "InformerForPrediction": "InformerEncoderLayer",
+        "LEDEncoderLayer": "LEDEncoderLayer",
+        "LEDClassificationHead": "LEDEncoderLayer",
+        "LEDForConditionalGeneration": "LEDEncoderLayer",
+        "MarianEncoderLayer": "MarianEncoderLayer",
+        "MarianEncoder": "MarianEncoderLayer",
+        "MarianModel": "MarianEncoderLayer",
+        "MarianMTModel": "MarianEncoderLayer",
+        "MvpEncoderLayer": "MvpEncoderLayer",
+        "MvpPrompt": "MvpEncoderLayer",
+        "MvpForConditionalGeneration": "MvpEncoderLayer",
+        "MvpForSequenceClassification": "MvpEncoderLayer",
+        "MvpForQuestionAnswering": "MvpEncoderLayer",
+        "MvpForCausalLM": "MvpEncoderLayer",
+        "NllbMoeEncoderLayer": "NllbMoeEncoderLayer",
+        "NllbMoeForConditionalGeneration": "NllbMoeEncoderLayer",
+        "PLBartEncoderLayer": "BartEncoderLayer",
+        "PLBartForConditionalGeneration": "BartEncoderLayer",
+        "TimeSeriesTransformerEncoderLayer": "TimeSeriesTransformerEncoderLayer",
+        "TimeSeriesTransformerForPrediction": "TimeSeriesTransformerEncoderLayer",
+    }
+    return _alias
+
+
+def rewritings_transformers_clamp_float16(cls_name) -> List[type]:
+    """
+    Rewrites known control flows equal to this:
+
+    .. code-block:: python
+
+        if hidden_states.dtype == torch.float16 and (
+            torch.isinf(hidden_states).any() or torch.isnan(hidden_states).any()
+        ):
+            clamp_value = torch.finfo(hidden_states.dtype).max - 1000
+            hidden_states = torch.clamp(hidden_states, min=-clamp_value, max=clamp_value)
+
+    *cls_name* is the class name. It is mapped with a list of other class names
+    to rename. Here is the known list:
+
+    .. runpython::
+        :showcode:
+
+        import pprint
+        from onnx_diagnostic.torch_export_patches.patch_model_helper import (
+            _rewrite_forward_clamp_float16,
+        )
+
+        pprint.pprint(_rewrite_forward_clamp_float16()
+
+    Function :func:`known_transformers_rewritings` collects
+    all model classes using those layers.
+    """
+    _known = _rewrite_forward_clamp_float16()
+
+    assert cls_name in _known, f"cls_name={cls_name!r} unknown in {sorted(_known)}."
+
     bd = dict(
         filter_node=(
             lambda node: isinstance(node, ast.If) and not isinstance(node.test, ast.Name)
@@ -35,16 +155,13 @@ def _add(f):
         g["function"] = f
         return g
 
-    return [
-        _add(transformers.models.bart.modeling_bart.BartEncoderLayer.forward),
-        _add(transformers.models.plbart.modeling_plbart.PLBartEncoderLayer.forward),
-    ]
+    return [_add(cls.forward) for cls in _known[cls_name]]
 
 
 def code_needing_rewriting(cls_name: str) -> Optional[List[Any]]:
     """
-    Returns a known list of methods or functions to rewrite because of control flow
-    for a specific model class.
+    Returns a known list of classes mapped to a known rewritings
+    because of control flow. See :func:`registered_transformers_rewritings`.
 
     :param cls_name: name of the class
     :return: a list of rewriting
@@ -59,11 +176,8 @@ def code_needing_rewriting(cls_name: str) -> Optional[List[Any]]:
 
         pprint.pprint(code_needing_rewriting("BartForConditionalGeneration"))
     """
-    if cls_name in {
-        "BartEncoderLayer",
-        "BartForConditionalGeneration",
-        "PLBartEncoderLayer",
-        "PLBartForConditionalGeneration",
-    }:
-        return _rewrite_bart_encoder_layer()
+    aliases = known_transformers_rewritings_clamp_float16()
+    if cls_name in aliases:
+        alias = aliases[cls_name]
+        return rewritings_transformers_clamp_float16(alias)
     return None
diff --git a/onnx_diagnostic/torch_models/test_helper.py b/onnx_diagnostic/torch_models/test_helper.py
@@ -209,6 +209,19 @@ def _quiet_or_not_quiet(
     return res
 
 
+def shrink_config(cfg: Dict[str, Any]) -> Dict[str, Any]:
+    """Shrinks the configuration before it gets added to the information to log."""
+    new_cfg = {}
+    for k, v in cfg.items():
+
+        new_cfg[k] = (
+            v
+            if (not isinstance(v, (list, tuple, set, dict)) or len(v) < 50)
+            else (v.__class__("...") if isinstance(v, (list, tuple)) else "...")
+        )
+    return new_cfg
+
+
 def validate_model(
     model_id: str,
     task: Optional[str] = None,
@@ -436,7 +449,9 @@ def validate_model(
     if summary["model_module"] in sys.modules:
         summary["model_file"] = str(sys.modules[summary["model_module"]].__file__)  # type: ignore[index]
     summary["model_config_class"] = data["configuration"].__class__.__name__
-    summary["model_config"] = str(data["configuration"].to_dict()).replace(" ", "")
+    summary["model_config"] = str(shrink_config(data["configuration"].to_dict())).replace(
+        " ", ""
+    )
     summary["model_id"] = model_id
 
     if verbose: