improve

xadupre · xadupre · commit 1b20294d3016 · 2025-06-08T12:09:30.000+02:00
diff --git a/_doc/technical/plot_layer_norm_discrepancies.py b/_doc/technical/plot_layer_norm_discrepancies.py
@@ -14,38 +14,48 @@
 +++++++++
 """
 
+import itertools
 import pandas
 import onnx
 import onnx.helper as oh
 import onnxruntime
 import torch
 from onnx_array_api.plotting.graphviz_helper import plot_dot
+from onnx_diagnostic.ext_test_case import unit_test_going
 from onnx_diagnostic.helpers import max_diff, string_diff, string_type
+from onnx_diagnostic.helpers.onnx_helper import onnx_dtype_name, onnx_dtype_to_np_dtype
+from onnx_diagnostic.helpers.torch_helper import onnx_dtype_to_torch_dtype
+from onnx_diagnostic.helpers.doc_helper import LayerNormalizationOrt, MatMulOrt
 from onnx_diagnostic.reference import TorchOnnxEvaluator
 
+TFLOAT = onnx.TensorProto.FLOAT
 TFLOAT16 = onnx.TensorProto.FLOAT16
 
-model = oh.make_model(
-    oh.make_graph(
-        [
-            oh.make_node("LayerNormalization", ["X", "scale", "bias"], ["norm"], axis=-1),
-            oh.make_node("MatMul", ["norm", "weights"], ["mm"]),
-            oh.make_node("Add", ["mm", "bias2"], ["Z"]),
-        ],
-        "layer_norm_matmul_add",
-        [
-            oh.make_tensor_value_info("X", TFLOAT16, ["a", "b", "c"]),
-            oh.make_tensor_value_info("scale", TFLOAT16, ["c"]),
-            oh.make_tensor_value_info("bias", TFLOAT16, ["c"]),
-            oh.make_tensor_value_info("weights", TFLOAT16, ["c", "c"]),
-            oh.make_tensor_value_info("bias2", TFLOAT16, ["c"]),
-        ],
-        [oh.make_tensor_value_info("Z", TFLOAT16, ["a", "b", "c"])],
-    ),
-    ir_version=9,
-    opset_imports=[oh.make_opsetid("", 18)],
-)
 
+def get_model(itype: int = TFLOAT16):
+    return oh.make_model(
+        oh.make_graph(
+            [
+                oh.make_node("LayerNormalization", ["X", "scale", "bias"], ["norm"], axis=-1),
+                oh.make_node("MatMul", ["norm", "weights"], ["mm"]),
+                oh.make_node("Add", ["mm", "bias2"], ["Z"]),
+            ],
+            "layer_norm_matmul_add",
+            [
+                oh.make_tensor_value_info("X", itype, ["a", "b", "c"]),
+                oh.make_tensor_value_info("scale", itype, ["c"]),
+                oh.make_tensor_value_info("bias", itype, ["c"]),
+                oh.make_tensor_value_info("weights", itype, ["c", "c"]),
+                oh.make_tensor_value_info("bias2", itype, ["c"]),
+            ],
+            [oh.make_tensor_value_info("Z", itype, ["a", "b", "c"])],
+        ),
+        ir_version=9,
+        opset_imports=[oh.make_opsetid("", 18)],
+    )
+
+
+model = get_model()
 plot_dot(model)
 
 # %%
@@ -55,50 +65,146 @@
 # That will be :epkg:`onnxruntime` and
 # :class:`onnx_diagnostic.reference.TorchOnnxEvaluator`.
 
-feeds = {
-    "X": (torch.rand((32, 1024, 1152), dtype=torch.float16) - 0.5) * 120,
-    "scale": torch.rand((1152,), dtype=torch.float16),
-    "bias": torch.rand((1152,), dtype=torch.float16),
-    "weights": torch.rand((1152, 1152), dtype=torch.float16),
-    "bias2": torch.rand((1152,), dtype=torch.float16),
-}
-np_feeds = {k: v.detach().numpy() for k, v in feeds.items()}
-kws = dict(with_shape=True, with_min_max=True, with_device=True)
-data = []
+last_dim = 64 if unit_test_going() else 1152
 
-for provider in ["CPU", "CUDA"]:
+
+def make_feeds(last_dim: int):
+    return {
+        "X": (torch.rand((32, 1024, last_dim), dtype=torch.float16) - 0.5) * 120,
+        "scale": torch.rand((last_dim,), dtype=torch.float16),
+        "bias": torch.rand((last_dim,), dtype=torch.float16),
+        "weights": torch.rand((last_dim, last_dim), dtype=torch.float16),
+        "bias2": torch.rand((last_dim,), dtype=torch.float16),
+    }
+
+
+def cast_feeds(itype, provider, feeds):
+    np_feeds = {k: v.detach().numpy() for k, v in feeds.items()}
     if provider == "CUDA":
         if not torch.cuda.is_available():
-            continue
+            return None, None
         tch_feeds = {k: v.to("cuda") for k, v in feeds.items()}
         ort_feeds = np_feeds
     else:
         tch_feeds = feeds.copy()
         tch_feeds["X"] = tch_feeds["X"][:2]  # too long otherwise
         ort_feeds = np_feeds.copy()
         ort_feeds["X"] = ort_feeds["X"][:2]
+    tch_feeds = {k: v.to(ttype) for k, v in tch_feeds.items()}
+    ort_feeds = {k: v.astype(np_dtype) for k, v in ort_feeds.items()}
+    return tch_feeds, ort_feeds
+
+
+feeds = make_feeds(last_dim)
+kws = dict(with_shape=True, with_min_max=True, with_device=True)
+data = []
+baseline = {}
+
+for provider, itype in itertools.product(["CPU", "CUDA"], [TFLOAT, TFLOAT16]):
+    ttype = onnx_dtype_to_torch_dtype(itype)
+    np_dtype = onnx_dtype_to_np_dtype(itype)
+    tch_feeds, ort_feeds = cast_feeds(itype, provider, feeds)
+    if tch_feeds is None:
+        continue
+
+    model = get_model(itype)
     print()
-    print(f"-- running on {provider}")
+    print(f"-- running on {provider} with {onnx_dtype_name(itype)}")
     print("-- running with torch")
     torch_sess = TorchOnnxEvaluator(model, providers=[f"{provider}ExecutionProvider"])
     expected = torch_sess.run(None, tch_feeds)
+    baseline[itype, provider, "torch"] = expected
     print(f"-- torch: {string_type(expected, **kws)}")
 
     print("-- running with ort")
     ort_sess = onnxruntime.InferenceSession(
         model.SerializeToString(), providers=[f"{provider}ExecutionProvider"]
     )
     got = ort_sess.run(None, ort_feeds)
+    baseline[itype, provider, "ort"] = got
     print(f"-- ort: {string_type(got, **kws)}")
     diff = max_diff(expected, got, hist=True)
     print(f"-- diff {string_diff(diff)}")
 
     # memorize the data
+    diff["dtype"] = onnx_dtype_name(itype)
     diff["provider"] = provider
     diff.update(diff["rep"])
     del diff["rep"]
+    del diff["dnan"]
+    del diff[">100.0"]
+    del diff[">10.0"]
     data.append(diff)
 
 # %%
-df = pandas.DataFrame(data).set_index("provider")
+df = pandas.DataFrame(data).set_index(["provider", "dtype"])
 print(df)
+
+# %%
+# Visually.
+
+df["abs"].plot(title="Discrepancies ORT / torch for LayerNorm(X) @ W + B")
+
+# %%
+# The discrepancies are significant on CUDA, higher for float16.
+# Let's see which operator is responsible for them,
+# *LayerNormalization* or *MatMul*.
+
+# %%
+# The discrepancies come from?
+# ++++++++++++++++++++++++++++
+#
+# We mix torch and onnxruntime to execute the kernels.
+
+data = []
+
+for mod, provider, itype in itertools.product(
+    ["ORT-TORCH", "TORCH-ORT"], ["CPU", "CUDA"], [TFLOAT, TFLOAT16]
+):
+    ttype = onnx_dtype_to_torch_dtype(itype)
+    np_dtype = onnx_dtype_to_np_dtype(itype)
+    tch_feeds, _ = cast_feeds(itype, provider, feeds)
+    if tch_feeds is None:
+        continue
+
+    custom_kernels = (
+        {("", "LayerNormalization"): LayerNormalizationOrt}
+        if mod == "ORT-TORCH"
+        else {("", "MatMul"): MatMulOrt}
+    )
+
+    model = get_model(itype)
+    print()
+    print(f"-- {mod} running on {provider} with {onnx_dtype_name(itype)}")
+    sess = TorchOnnxEvaluator(
+        model,
+        custom_kernels=custom_kernels,
+        providers=[f"{provider}ExecutionProvider"],
+    )
+    got = sess.run(None, tch_feeds)
+    print(f"-- {mod}: {string_type(got, **kws)}")
+
+    difft = max_diff(baseline[itype, provider, "torch"], got)
+    print(f"-- diff with torch {string_diff(difft)}")
+    diffo = max_diff(baseline[itype, provider, "ort"], got)
+    print(f"-- diff with ort {string_diff(diffo)}")
+
+    data.append(
+        dict(
+            model=mod,
+            dtype=onnx_dtype_name(itype),
+            provider=provider,
+            diff_ort=diffo["abs"],
+            diff_torch=difft["abs"],
+        )
+    )
+
+# %%
+df = pandas.DataFrame(data).set_index(["model", "provider", "dtype"])
+df = df.sort_index()
+print(df)
+
+# %%
+# Visually.
+
+df[["diff_ort", "diff_torch"]].plot(title="ORT/Torch or Torch/ORT for LayerNorm(X) @ W + B")
diff --git a/onnx_diagnostic/helpers/doc_helper.py b/onnx_diagnostic/helpers/doc_helper.py
@@ -2,8 +2,9 @@
 import onnx
 import onnx.helper as oh
 import torch
-from .torch_helper import onnx_dtype_to_torch_dtype, torch_dtype_to_onnx_dtype
 from ..reference.torch_ops import OpRunKernel, OpRunTensor
+from .torch_helper import onnx_dtype_to_torch_dtype, torch_dtype_to_onnx_dtype
+from .ort_session import InferenceSessionForTorch
 
 
 class LayerNormalizationOrt(OpRunKernel):
@@ -36,50 +37,55 @@ def __init__(
         self._cache: Dict[Tuple[int, int], onnx.ModelProto] = {}
         self.is_cpu = torch.device("cpu") == self.device
 
-    def _make_model(self, itype: int, rank: int) -> onnx.ModelProto:
+    def _make_model(self, itype: int, rank: int, has_bias: bool) -> onnx.ModelProto:
         shape = [*["d{i}" for i in range(rank - 1)], "last"]
         layer_model = oh.make_model(
             oh.make_graph(
                 [
                     oh.make_node(
                         "LayerNormalization",
-                        ["X", "W", "B"],
+                        ["X", "W", "B"] if has_bias else ["X", "W"],
                         ["Z"],
                         axis=self.axis,
                         epsilon=self.epsilon,
                     )
                 ],
                 "dummy",
-                [
-                    oh.make_tensor_value_info("X", itype, shape),
-                    oh.make_tensor_value_info("W", itype, ["last"]),
-                    oh.make_tensor_value_info("B", itype, ["last"]),
-                ],
+                (
+                    [
+                        oh.make_tensor_value_info("X", itype, shape),
+                        oh.make_tensor_value_info("W", itype, ["last"]),
+                        oh.make_tensor_value_info("B", itype, ["last"]),
+                    ]
+                    if has_bias
+                    else [
+                        oh.make_tensor_value_info("X", itype, shape),
+                        oh.make_tensor_value_info("W", itype, ["last"]),
+                    ]
+                ),
                 [oh.make_tensor_value_info("Z", itype, shape)],
             ),
             ir_version=9,
             opset_imports=[oh.make_opsetid("", 18)],
         )
-        import onnxruntime
-
         provider = "CPUExecutionProvider" if self.is_cpu else "CUDAExecutionProvider"
-        return onnxruntime.InferenceSession(
-            layer_model.SerializeToString(), providers=[provider]
-        )
+        self._provider = provider
+        return InferenceSessionForTorch(layer_model, providers=[provider])
 
     def run(self, x, scale, bias=None):
         itype = torch_dtype_to_onnx_dtype(x.dtype)
         rank = len(x.shape)
         key = itype, rank
         if key not in self._cache:
-            self._cache[key] = self._make_model(itype, rank)
+            self._cache[key] = self._make_model(itype, rank, bias is not None)
         sess = self._cache[key]
-        feeds = dict(X=x, W=scale)
+        if self.verbose:
+            print(f"[LayerNormalizationOrt] running on {self._provider!r}")
+        feeds = dict(X=x.tensor, W=scale.tensor)
         if bias is not None:
-            feeds["B"] = bias
-        feeds = {k: v.tensor.detach().cpu().numpy() for k, v in feeds.items()}
+            feeds["B"] = bias.tensor
         got = sess.run(None, feeds)[0]
-        return OpRunTensor(torch.from_numpy(got).to(x.dtype).to(x.device))
+        return OpRunTensor(got)
 
 
 class MatMulOrt(OpRunKernel):
@@ -117,12 +123,11 @@ def _make_model(self, itype: int, ranka: int, rankb: int) -> onnx.ModelProto:
                 [oh.make_tensor_value_info("C", itype, shapec)],
             ),
             ir_version=9,
-            opset_imports=[oh.make_opsetid("", 17)],
+            opset_imports=[oh.make_opsetid("", 18)],
         )
-        import onnxruntime
-
         provider = "CPUExecutionProvider" if self.is_cpu else "CUDAExecutionProvider"
-        return onnxruntime.InferenceSession(model.SerializeToString(), providers=[provider])
+        self._provider = provider
+        return InferenceSessionForTorch(model, providers=[provider])
 
     def run(self, a, b):
         itype = torch_dtype_to_onnx_dtype(a.dtype)
@@ -131,7 +136,8 @@ def run(self, a, b):
         if key not in self._cache:
             self._cache[key] = self._make_model(itype, ranka, rankb)
         sess = self._cache[key]
-        feeds = dict(A=a, B=b)
-        feeds = {k: v.tensor.detach().cpu().numpy() for k, v in feeds.items()}
+        if self.verbose:
+            print(f"[MatMulOrt] running on {self._provider!r}")
+        feeds = dict(A=a.tensor, B=b.tensor)
         got = sess.run(None, feeds)[0]
-        return OpRunTensor(torch.from_numpy(got).to(a.dtype).to(a.device))
+        return OpRunTensor(got)