Add one example on LayerNormalization (#135)

xadupre · web-flow · commit 625b02849f90 · 2025-06-08T18:04:21.000+02:00
* add one example

* doc

* improve
diff --git a/.github/workflows/documentation.yml b/.github/workflows/documentation.yml
@@ -82,7 +82,7 @@ jobs:
       - name: Generate coverage report
         run: |
           pip install pytest pytest-cov          
-          PYTHONPATH=. UNITTEST_GOING=1 pytest --cov=./onnx_diagnostic/ --cov-report=xml --durations=10 _unittests --ignore _unittests/ut_reference/test_backend_extended_reference_evaluator.py  --ignore _unittests/ut_reference/test_backend_onnxruntime_evaluator.py --ignore _unittests/ut_torch_models/test_tiny_llms_bypassed.py
+          PYTHONPATH=. UNITTEST_GOING=1 UNITTEST_DOT=1 pytest --cov=./onnx_diagnostic/ --cov-report=xml --durations=10 _unittests --ignore _unittests/ut_reference/test_backend_extended_reference_evaluator.py  --ignore _unittests/ut_reference/test_backend_onnxruntime_evaluator.py --ignore _unittests/ut_torch_models/test_tiny_llms_bypassed.py
 
       - name: Upload coverage reports to Codecov
         uses: codecov/codecov-action@v3
diff --git a/_doc/technical/plot_layer_norm_discrepancies.py b/_doc/technical/plot_layer_norm_discrepancies.py
@@ -0,0 +1,210 @@
+"""
+LayerNormalization implementation cannot be exchanged
+=====================================================
+
+This example applies what was illustrated
+:ref:`l-plot-parallelized-reduction`, reduction operations
+are sensitive to parallelization.
+
+We consider a small model including a layer normalization
+followed by a matrix multiplication and we show that replacing
+a kernel by another one may significantly impact the output.
+
+The model
++++++++++
+"""
+
+import itertools
+import pandas
+import onnx
+import onnx.helper as oh
+import onnxruntime
+import torch
+from onnx_array_api.plotting.graphviz_helper import plot_dot
+from onnx_diagnostic.ext_test_case import unit_test_going
+from onnx_diagnostic.helpers import max_diff, string_diff, string_type
+from onnx_diagnostic.helpers.onnx_helper import onnx_dtype_name, onnx_dtype_to_np_dtype
+from onnx_diagnostic.helpers.torch_helper import onnx_dtype_to_torch_dtype
+from onnx_diagnostic.helpers.doc_helper import LayerNormalizationOrt, MatMulOrt
+from onnx_diagnostic.reference import TorchOnnxEvaluator
+
+TFLOAT = onnx.TensorProto.FLOAT
+TFLOAT16 = onnx.TensorProto.FLOAT16
+
+
+def get_model(itype: int = TFLOAT16):
+    return oh.make_model(
+        oh.make_graph(
+            [
+                oh.make_node("LayerNormalization", ["X", "scale", "bias"], ["norm"], axis=-1),
+                oh.make_node("MatMul", ["norm", "weights"], ["mm"]),
+                oh.make_node("Add", ["mm", "bias2"], ["Z"]),
+            ],
+            "layer_norm_matmul_add",
+            [
+                oh.make_tensor_value_info("X", itype, ["a", "b", "c"]),
+                oh.make_tensor_value_info("scale", itype, ["c"]),
+                oh.make_tensor_value_info("bias", itype, ["c"]),
+                oh.make_tensor_value_info("weights", itype, ["c", "c"]),
+                oh.make_tensor_value_info("bias2", itype, ["c"]),
+            ],
+            [oh.make_tensor_value_info("Z", itype, ["a", "b", "c"])],
+        ),
+        ir_version=9,
+        opset_imports=[oh.make_opsetid("", 18)],
+    )
+
+
+model = get_model()
+plot_dot(model)
+
+# %%
+# Let's compare two runtimes
+# ++++++++++++++++++++++++++
+#
+# That will be :epkg:`onnxruntime` and
+# :class:`onnx_diagnostic.reference.TorchOnnxEvaluator`.
+
+last_dim = 64 if unit_test_going() else 1152
+
+
+def make_feeds(last_dim: int):
+    return {
+        "X": (torch.rand((32, 1024, last_dim), dtype=torch.float16) - 0.5) * 120,
+        "scale": torch.rand((last_dim,), dtype=torch.float16),
+        "bias": torch.rand((last_dim,), dtype=torch.float16),
+        "weights": torch.rand((last_dim, last_dim), dtype=torch.float16),
+        "bias2": torch.rand((last_dim,), dtype=torch.float16),
+    }
+
+
+def cast_feeds(itype, provider, feeds):
+    np_feeds = {k: v.detach().numpy() for k, v in feeds.items()}
+    if provider == "CUDA":
+        if not torch.cuda.is_available():
+            return None, None
+        tch_feeds = {k: v.to("cuda") for k, v in feeds.items()}
+        ort_feeds = np_feeds
+    else:
+        tch_feeds = feeds.copy()
+        tch_feeds["X"] = tch_feeds["X"][:2]  # too long otherwise
+        ort_feeds = np_feeds.copy()
+        ort_feeds["X"] = ort_feeds["X"][:2]
+    tch_feeds = {k: v.to(ttype) for k, v in tch_feeds.items()}
+    ort_feeds = {k: v.astype(np_dtype) for k, v in ort_feeds.items()}
+    return tch_feeds, ort_feeds
+
+
+feeds = make_feeds(last_dim)
+kws = dict(with_shape=True, with_min_max=True, with_device=True)
+data = []
+baseline = {}
+
+for provider, itype in itertools.product(["CPU", "CUDA"], [TFLOAT, TFLOAT16]):
+    ttype = onnx_dtype_to_torch_dtype(itype)
+    np_dtype = onnx_dtype_to_np_dtype(itype)
+    tch_feeds, ort_feeds = cast_feeds(itype, provider, feeds)
+    if tch_feeds is None:
+        continue
+
+    model = get_model(itype)
+    print()
+    print(f"-- running on {provider} with {onnx_dtype_name(itype)}")
+    print("-- running with torch")
+    torch_sess = TorchOnnxEvaluator(model, providers=[f"{provider}ExecutionProvider"])
+    expected = torch_sess.run(None, tch_feeds)
+    baseline[itype, provider, "torch"] = expected
+    print(f"-- torch: {string_type(expected, **kws)}")
+
+    print("-- running with ort")
+    ort_sess = onnxruntime.InferenceSession(
+        model.SerializeToString(), providers=[f"{provider}ExecutionProvider"]
+    )
+    got = ort_sess.run(None, ort_feeds)
+    baseline[itype, provider, "ort"] = got
+    print(f"-- ort: {string_type(got, **kws)}")
+    diff = max_diff(expected, got, hist=True)
+    print(f"-- diff {string_diff(diff)}")
+
+    # memorize the data
+    diff["dtype"] = onnx_dtype_name(itype)
+    diff["provider"] = provider
+    diff.update(diff["rep"])
+    del diff["rep"]
+    del diff["dnan"]
+    del diff[">100.0"]
+    del diff[">10.0"]
+    data.append(diff)
+
+# %%
+df = pandas.DataFrame(data).set_index(["provider", "dtype"])
+print(df)
+
+# %%
+# Visually.
+
+df["abs"].plot(title="Discrepancies ORT / torch for LayerNorm(X) @ W + B")
+
+# %%
+# The discrepancies are significant on CUDA, higher for float16.
+# Let's see which operator is responsible for them,
+# *LayerNormalization* or *MatMul*.
+
+# %%
+# The discrepancies come from?
+# ++++++++++++++++++++++++++++
+#
+# We mix torch and onnxruntime to execute the kernels.
+
+data = []
+
+for mod, provider, itype in itertools.product(
+    ["ORT-TORCH", "TORCH-ORT"], ["CPU", "CUDA"], [TFLOAT, TFLOAT16]
+):
+    ttype = onnx_dtype_to_torch_dtype(itype)
+    np_dtype = onnx_dtype_to_np_dtype(itype)
+    tch_feeds, _ = cast_feeds(itype, provider, feeds)
+    if tch_feeds is None:
+        continue
+
+    custom_kernels = (
+        {("", "LayerNormalization"): LayerNormalizationOrt}
+        if mod == "ORT-TORCH"
+        else {("", "MatMul"): MatMulOrt}
+    )
+
+    model = get_model(itype)
+    print()
+    print(f"-- {mod} running on {provider} with {onnx_dtype_name(itype)}")
+    sess = TorchOnnxEvaluator(
+        model,
+        custom_kernels=custom_kernels,
+        providers=[f"{provider}ExecutionProvider"],
+    )
+    got = sess.run(None, tch_feeds)
+    print(f"-- {mod}: {string_type(got, **kws)}")
+
+    difft = max_diff(baseline[itype, provider, "torch"], got)
+    print(f"-- diff with torch {string_diff(difft)}")
+    diffo = max_diff(baseline[itype, provider, "ort"], got)
+    print(f"-- diff with ort {string_diff(diffo)}")
+
+    data.append(
+        dict(
+            model=mod,
+            dtype=onnx_dtype_name(itype),
+            provider=provider,
+            diff_ort=diffo["abs"],
+            diff_torch=difft["abs"],
+        )
+    )
+
+# %%
+df = pandas.DataFrame(data).set_index(["model", "provider", "dtype"])
+df = df.sort_index()
+print(df)
+
+# %%
+# Visually.
+
+df[["diff_ort", "diff_torch"]].plot(title="ORT/Torch or Torch/ORT for LayerNorm(X) @ W + B")
diff --git a/_doc/technical/plot_parallelized_reduction.py b/_doc/technical/plot_parallelized_reduction.py
@@ -1,4 +1,6 @@
 """
+.. _l-plot-parallelized-reduction:
+
 Reproducible Parallelized Reduction is difficult
 ================================================
 
diff --git a/_unittests/ut_xrun_doc/test_documentation_technical.py b/_unittests/ut_xrun_doc/test_documentation_technical.py
@@ -68,10 +68,13 @@ def add_test_methods(cls):
         this = os.path.abspath(os.path.dirname(__file__))
         fold = os.path.normpath(os.path.join(this, "..", "..", "_doc", "technical"))
         found = os.listdir(fold)
+        has_dot = int(os.environ.get("UNITTEST_DOT", "0"))
         for name in found:
             if not name.endswith(".py") or not name.startswith("plot_"):
                 continue
             reason = None
+            if not reason and not has_dot and name in {"plot_layer_norm_discrepancies.py"}:
+                reason = "dot not installed"
 
             if reason:
 
diff --git a/onnx_diagnostic/helpers/doc_helper.py b/onnx_diagnostic/helpers/doc_helper.py
@@ -2,8 +2,9 @@
 import onnx
 import onnx.helper as oh
 import torch
-from .torch_helper import onnx_dtype_to_torch_dtype, torch_dtype_to_onnx_dtype
 from ..reference.torch_ops import OpRunKernel, OpRunTensor
+from .torch_helper import onnx_dtype_to_torch_dtype, torch_dtype_to_onnx_dtype
+from .ort_session import InferenceSessionForTorch
 
 
 class LayerNormalizationOrt(OpRunKernel):
@@ -36,50 +37,55 @@ def __init__(
         self._cache: Dict[Tuple[int, int], onnx.ModelProto] = {}
         self.is_cpu = torch.device("cpu") == self.device
 
-    def _make_model(self, itype: int, rank: int) -> onnx.ModelProto:
+    def _make_model(self, itype: int, rank: int, has_bias: bool) -> onnx.ModelProto:
         shape = [*["d{i}" for i in range(rank - 1)], "last"]
         layer_model = oh.make_model(
             oh.make_graph(
                 [
                     oh.make_node(
                         "LayerNormalization",
-                        ["X", "W", "B"],
+                        ["X", "W", "B"] if has_bias else ["X", "W"],
                         ["Z"],
                         axis=self.axis,
                         epsilon=self.epsilon,
                     )
                 ],
                 "dummy",
-                [
-                    oh.make_tensor_value_info("X", itype, shape),
-                    oh.make_tensor_value_info("W", itype, ["last"]),
-                    oh.make_tensor_value_info("B", itype, ["last"]),
-                ],
+                (
+                    [
+                        oh.make_tensor_value_info("X", itype, shape),
+                        oh.make_tensor_value_info("W", itype, ["last"]),
+                        oh.make_tensor_value_info("B", itype, ["last"]),
+                    ]
+                    if has_bias
+                    else [
+                        oh.make_tensor_value_info("X", itype, shape),
+                        oh.make_tensor_value_info("W", itype, ["last"]),
+                    ]
+                ),
                 [oh.make_tensor_value_info("Z", itype, shape)],
             ),
             ir_version=9,
             opset_imports=[oh.make_opsetid("", 18)],
         )
-        import onnxruntime
-
         provider = "CPUExecutionProvider" if self.is_cpu else "CUDAExecutionProvider"
-        return onnxruntime.InferenceSession(
-            layer_model.SerializeToString(), providers=[provider]
-        )
+        self._provider = provider
+        return InferenceSessionForTorch(layer_model, providers=[provider])
 
     def run(self, x, scale, bias=None):
         itype = torch_dtype_to_onnx_dtype(x.dtype)
         rank = len(x.shape)
         key = itype, rank
         if key not in self._cache:
-            self._cache[key] = self._make_model(itype, rank)
+            self._cache[key] = self._make_model(itype, rank, bias is not None)
         sess = self._cache[key]
-        feeds = dict(X=x, W=scale)
+        if self.verbose:
+            print(f"[LayerNormalizationOrt] running on {self._provider!r}")
+        feeds = dict(X=x.tensor, W=scale.tensor)
         if bias is not None:
-            feeds["B"] = bias
-        feeds = {k: v.tensor.detach().cpu().numpy() for k, v in feeds.items()}
+            feeds["B"] = bias.tensor
         got = sess.run(None, feeds)[0]
-        return OpRunTensor(torch.from_numpy(got).to(x.dtype).to(x.device))
+        return OpRunTensor(got)
 
 
 class MatMulOrt(OpRunKernel):
@@ -117,12 +123,11 @@ def _make_model(self, itype: int, ranka: int, rankb: int) -> onnx.ModelProto:
                 [oh.make_tensor_value_info("C", itype, shapec)],
             ),
             ir_version=9,
-            opset_imports=[oh.make_opsetid("", 17)],
+            opset_imports=[oh.make_opsetid("", 18)],
         )
-        import onnxruntime
-
         provider = "CPUExecutionProvider" if self.is_cpu else "CUDAExecutionProvider"
-        return onnxruntime.InferenceSession(model.SerializeToString(), providers=[provider])
+        self._provider = provider
+        return InferenceSessionForTorch(model, providers=[provider])
 
     def run(self, a, b):
         itype = torch_dtype_to_onnx_dtype(a.dtype)
@@ -131,7 +136,8 @@ def run(self, a, b):
         if key not in self._cache:
             self._cache[key] = self._make_model(itype, ranka, rankb)
         sess = self._cache[key]
-        feeds = dict(A=a, B=b)
-        feeds = {k: v.tensor.detach().cpu().numpy() for k, v in feeds.items()}
+        if self.verbose:
+            print(f"[MatMulOrt] running on {self._provider!r}")
+        feeds = dict(A=a.tensor, B=b.tensor)
         got = sess.run(None, feeds)[0]
-        return OpRunTensor(torch.from_numpy(got).to(a.dtype).to(a.device))
+        return OpRunTensor(got)