sdpython
diff --git a/‎_doc/api/helpers/doc_helper.rst‎
Lines changed: 7 additions & 0 deletions b/‎_doc/api/helpers/doc_helper.rst‎
Lines changed: 7 additions & 0 deletions
diff --git a/‎_doc/api/helpers/index.rst‎
Lines changed: 1 addition & 0 deletions b/‎_doc/api/helpers/index.rst‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎_unittests/ut_helpers/test_doc_helper.py‎
Lines changed: 97 additions & 0 deletions b/‎_unittests/ut_helpers/test_doc_helper.py‎
Lines changed: 97 additions & 0 deletions
diff --git a/‎_unittests/ut_reference/test_torch_onnx_evaluator.py‎
Lines changed: 2 additions & 2 deletions b/‎_unittests/ut_reference/test_torch_onnx_evaluator.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎onnx_diagnostic/helpers/doc_helper.py‎
Lines changed: 137 additions & 0 deletions b/‎onnx_diagnostic/helpers/doc_helper.py‎
Lines changed: 137 additions & 0 deletions
diff --git a/‎onnx_diagnostic/reference/torch_evaluator.py‎
Lines changed: 9 additions & 3 deletions b/‎onnx_diagnostic/reference/torch_evaluator.py‎
Lines changed: 9 additions & 3 deletions
diff --git a/‎onnx_diagnostic/reference/torch_ops/_op_run.py‎
Lines changed: 12 additions & 3 deletions b/‎onnx_diagnostic/reference/torch_ops/_op_run.py‎
Lines changed: 12 additions & 3 deletions
diff --git a/‎onnx_diagnostic/reference/torch_ops/access_ops.py‎
Lines changed: 14 additions & 4 deletions b/‎onnx_diagnostic/reference/torch_ops/access_ops.py‎
Lines changed: 14 additions & 4 deletions
@@ -0,0 +1,7 @@
+
+onnx_diagnostic.helpers.doc_helper
+==================================
+
+.. automodule:: onnx_diagnostic.helpers.doc_helper
+    :members:
+    :no-undoc-members:
@@ -10,6 +10,7 @@ onnx_diagnostic.helpers
     bench_run
     cache_helper
     config_helper
+    doc_helper
     graph_helper
     helper
     memory_peak
 
@@ -0,0 +1,97 @@
+import unittest
+import onnx
+import onnx.helper as oh
+import torch
+from onnx_diagnostic.ext_test_case import ExtTestCase
+from onnx_diagnostic.helpers.doc_helper import LayerNormalizationOrt, MatMulOrt
+from onnx_diagnostic.reference import TorchOnnxEvaluator
+
+TFLOAT = onnx.TensorProto.FLOAT
+TFLOAT16 = onnx.TensorProto.FLOAT16
+
+
+class TestDocHelper(ExtTestCase):
+    def test_custom_doc_kernels_layer_normalization(self):
+        model = oh.make_model(
+            oh.make_graph(
+                [
+                    oh.make_node(
+                        "LayerNormalization",
+                        ["X", "W", "B"],
+                        ["ln"],
+                        axis=-1,
+                        epsilon=9.999999974752427e-7,
+                    ),
+                    oh.make_node(
+                        "Add", ["ln", "W"], ["Z"], axis=-1, epsilon=9.999999974752427e-7
+                    ),
+                ],
+                "dummy",
+                [
+                    oh.make_tensor_value_info("X", TFLOAT16, ["b", "c", "d"]),
+                    oh.make_tensor_value_info("W", TFLOAT16, ["d"]),
+                    oh.make_tensor_value_info("B", TFLOAT16, ["d"]),
+                ],
+                [oh.make_tensor_value_info("Z", TFLOAT16, ["b", "c", "d"])],
+            ),
+            ir_version=9,
+            opset_imports=[oh.make_opsetid("", 18)],
+        )
+
+        torch_sess = TorchOnnxEvaluator(model, verbose=0)
+        torch_sess_custom = TorchOnnxEvaluator(
+            model,
+            verbose=0,
+            custom_kernels={("", "LayerNormalization"): LayerNormalizationOrt},
+        )
+        feeds = dict(
+            zip(
+                torch_sess.input_names,
+                [
+                    torch.rand(3, 4, 5, dtype=torch.float16),
+                    torch.abs(torch.rand(5, dtype=torch.float16)),
+                    torch.rand(5, dtype=torch.float16),
+                ],
+            )
+        )
+        expected = torch_sess.run(None, feeds)
+        got = torch_sess_custom.run(None, feeds)
+        self.assertEqualAny(expected, got)
+
+    def test_custom_doc_kernels_matmul(self):
+        model = oh.make_model(
+            oh.make_graph(
+                [oh.make_node("MatMul", ["X", "Y"], ["Z"])],
+                "dummy",
+                [
+                    oh.make_tensor_value_info("X", TFLOAT16, ["b", "c", "d"]),
+                    oh.make_tensor_value_info("Y", TFLOAT16, ["b", "d", "e"]),
+                ],
+                [oh.make_tensor_value_info("Z", TFLOAT16, ["b", "c", "e"])],
+            ),
+            ir_version=9,
+            opset_imports=[oh.make_opsetid("", 18)],
+        )
+
+        torch_sess = TorchOnnxEvaluator(model, verbose=0)
+        torch_sess_custom = TorchOnnxEvaluator(
+            model,
+            verbose=0,
+            custom_kernels={("", "MatMul"): MatMulOrt},
+        )
+        feeds = dict(
+            zip(
+                torch_sess.input_names,
+                [
+                    torch.rand(3, 4, 5, dtype=torch.float16),
+                    torch.rand(3, 5, 7, dtype=torch.float16),
+                ],
+            )
+        )
+        expected = torch_sess.run(None, feeds)
+        got = torch_sess_custom.run(None, feeds)
+        self.assertEqualAny(expected, got)
+
+
+if __name__ == "__main__":
+    unittest.main(verbosity=2)
@@ -1378,8 +1378,8 @@ class LayerNormalizationOrt(OpRunKernel):
 
             _shared = [0]
 
-            def __init__(self, node: onnx.NodeProto, version=None):
-                super().__init__(node, version)
+            def __init__(self, node: onnx.NodeProto, version=None, verbose=0):
+                super().__init__(node, version, verbose=verbose)
                 self.axis = self.get_attribute_int(node, "axis", -1)
                 self.epsilon = self.get_attribute_float(node, "epsilon", 1e-5)
                 self.stash_type = onnx_dtype_to_torch_dtype(
 
@@ -0,0 +1,137 @@
+from typing import Dict, Optional, Tuple
+import onnx
+import onnx.helper as oh
+import torch
+from .torch_helper import onnx_dtype_to_torch_dtype, torch_dtype_to_onnx_dtype
+from ..reference.torch_ops import OpRunKernel, OpRunTensor
+
+
+class LayerNormalizationOrt(OpRunKernel):
+    "LayerNormalization with onnxruntime"
+
+    @classmethod
+    def device_dependent(cls) -> bool:
+        "Needs device."
+        return False
+
+    def __init__(
+        self,
+        node: onnx.NodeProto,
+        version=None,
+        device: Optional[torch.device] = None,
+        verbose=0,
+    ):
+        super().__init__(node, version, verbose=verbose)
+        self.axis = self.get_attribute_int(node, "axis", -1)
+        self.epsilon = self.get_attribute_float(node, "epsilon", 1e-5)
+        self.device = device
+        self.stash_type = onnx_dtype_to_torch_dtype(
+            self.get_attribute_int(node, "stash_type", onnx.TensorProto.FLOAT)  # type: ignore[arg-type]
+        )
+        self.compute_std = len(node.output) > 1
+        assert not self.compute_std, (
+            f"This kernel implementation only work when only one output "
+            f"is required but {node.output} were."
+        )
+        self._cache: Dict[Tuple[int, int], onnx.ModelProto] = {}
+        self.is_cpu = torch.device("cpu") == self.device
+
+    def _make_model(self, itype: int, rank: int) -> onnx.ModelProto:
+        shape = [*["d{i}" for i in range(rank - 1)], "last"]
+        layer_model = oh.make_model(
+            oh.make_graph(
+                [
+                    oh.make_node(
+                        "LayerNormalization",
+                        ["X", "W", "B"],
+                        ["Z"],
+                        axis=self.axis,
+                        epsilon=self.epsilon,
+                    )
+                ],
+                "dummy",
+                [
+                    oh.make_tensor_value_info("X", itype, shape),
+                    oh.make_tensor_value_info("W", itype, ["last"]),
+                    oh.make_tensor_value_info("B", itype, ["last"]),
+                ],
+                [oh.make_tensor_value_info("Z", itype, shape)],
+            ),
+            ir_version=9,
+            opset_imports=[oh.make_opsetid("", 18)],
+        )
+        import onnxruntime
+
+        provider = "CPUExecutionProvider" if self.is_cpu else "CUDAExecutionProvider"
+        return onnxruntime.InferenceSession(
+            layer_model.SerializeToString(), providers=[provider]
+        )
+
+    def run(self, x, scale, bias=None):
+        itype = torch_dtype_to_onnx_dtype(x.dtype)
+        rank = len(x.shape)
+        key = itype, rank
+        if key not in self._cache:
+            self._cache[key] = self._make_model(itype, rank)
+        sess = self._cache[key]
+        feeds = dict(X=x, W=scale)
+        if bias is not None:
+            feeds["B"] = bias
+        feeds = {k: v.tensor.detach().cpu().numpy() for k, v in feeds.items()}
+        got = sess.run(None, feeds)[0]
+        return OpRunTensor(torch.from_numpy(got).to(x.dtype).to(x.device))
+
+
+class MatMulOrt(OpRunKernel):
+    "MatMul with onnxruntime"
+
+    @classmethod
+    def device_dependent(cls) -> bool:
+        "Needs device."
+        return False
+
+    def __init__(
+        self,
+        node: onnx.NodeProto,
+        version=None,
+        device: Optional[torch.device] = None,
+        verbose=0,
+    ):
+        super().__init__(node, version, verbose=verbose)
+        self.device = device
+        self._cache: Dict[Tuple[int, int, int], onnx.ModelProto] = {}
+        self.is_cpu = torch.device("cpu") == self.device
+
+    def _make_model(self, itype: int, ranka: int, rankb: int) -> onnx.ModelProto:
+        shapea = ["a{i}" for i in range(ranka)]
+        shapeb = ["b{i}" for i in range(rankb)]
+        shapec = ["c{i}" for i in range(max(ranka, rankb))]
+        model = oh.make_model(
+            oh.make_graph(
+                [oh.make_node("MatMul", ["A", "B"], ["C"])],
+                "dummy",
+                [
+                    oh.make_tensor_value_info("A", itype, shapea),
+                    oh.make_tensor_value_info("B", itype, shapeb),
+                ],
+                [oh.make_tensor_value_info("C", itype, shapec)],
+            ),
+            ir_version=9,
+            opset_imports=[oh.make_opsetid("", 17)],
+        )
+        import onnxruntime
+
+        provider = "CPUExecutionProvider" if self.is_cpu else "CUDAExecutionProvider"
+        return onnxruntime.InferenceSession(model.SerializeToString(), providers=[provider])
+
+    def run(self, a, b):
+        itype = torch_dtype_to_onnx_dtype(a.dtype)
+        ranka, rankb = len(a.shape), len(b.shape)
+        key = itype, ranka, rankb
+        if key not in self._cache:
+            self._cache[key] = self._make_model(itype, ranka, rankb)
+        sess = self._cache[key]
+        feeds = dict(A=a, B=b)
+        feeds = {k: v.tensor.detach().cpu().numpy() for k, v in feeds.items()}
+        got = sess.run(None, feeds)[0]
+        return OpRunTensor(torch.from_numpy(got).to(a.dtype).to(a.device))
@@ -410,19 +410,24 @@ def _build_kernels(self, nodes: Sequence[onnx.NodeProto]):
         kernels = get_kernels()
         self.kernels.clear()
         for node in nodes:
+            kernel_kwargs = dict(verbose=max(0, self.verbose - 1))
             opset = self.opsets[node.domain]
             key = node.domain, node.op_type, opset
             if key[:2] in self.custom_kernels:
                 cls = self.custom_kernels[key[:2]]
                 ags = [self.default_device] if cls.device_dependent() else []
                 kws = dict(parent=self) if cls.has_subgraphs() else {}
-                kernel2 = cls(node, opset, *ags, **kws)
+                kws.update(kernel_kwargs)  # type: ignore[arg-type]
+                kernel2 = cls(node, opset, *ags, **kws)  # type: ignore[arg-type]
                 self.kernels.append(kernel2)
                 continue
 
             if (node.domain, node.op_type) in self.functions:
                 kernel = torch_ops.OpRunFunction(
-                    self.functions[node.domain, node.op_type], node, self.opsets[node.domain]
+                    self.functions[node.domain, node.op_type],
+                    node,
+                    self.opsets[node.domain],
+                    **kernel_kwargs,
                 )
                 self.kernels.append(kernel)
                 continue
@@ -442,7 +447,8 @@ def _build_kernels(self, nodes: Sequence[onnx.NodeProto]):
             cls = kernels[key]
             ags = [self.default_device] if cls.device_dependent() else []
             kws = dict(parent=self) if cls.has_subgraphs() else {}
-            kernel2 = cls(node, opset, *ags, **kws)
+            kws.update(kernel_kwargs)  # type: ignore[arg-type]
+            kernel2 = cls(node, opset, *ags, **kws)  # type: ignore[arg-type]
             self.kernels.append(kernel2)
 
     def run(
 
@@ -1,4 +1,4 @@
-from typing import Any, List, Optional, Union, Tuple
+from typing import Any, Dict, List, Optional, Union, Tuple
 import onnx
 import torch
 from ...api import TensorLike
@@ -185,14 +185,22 @@ def has_subgraphs(cls) -> bool:
         """Returns True if the kernel has subgraphs."""
         return False
 
-    def __init__(self, node: onnx.NodeProto, version: Optional[int] = None):
+    def __init__(
+        self,
+        node: onnx.NodeProto,
+        version: Optional[int] = None,
+        verbose: int = 0,
+        custom_kernels: Optional[Dict[Tuple[str, str], type]] = None,
+    ):
         assert isinstance(
             node, onnx.NodeProto
         ), f"node must be a NodeProto but node is {type(node)}"
         self.op_type = node.op_type
         self.domain = node.domain
         self.input = node.input
         self.output = node.output
+        self.verbose = verbose
+        self.custom_kernels = custom_kernels
         if version is None:
             name = self.__class__.__name__.split("_")
             assert (
@@ -315,8 +323,9 @@ def __init__(
         runtime: "onnx_diagnostic.reference.TorchOnnxEvaluator",  # noqa: F821
         node: onnx.NodeProto,
         version: Optional[int] = None,
+        verbose: int = 0,
     ):
-        super().__init__(node, version)
+        super().__init__(node, version, verbose=verbose)
         self.runtime = runtime
         self.input_names = runtime.input_names
 
 
@@ -7,8 +7,13 @@
 class Gather_1(OpRunKernel):
     "Gather"
 
-    def __init__(self, node: onnx.NodeProto, version: Optional[int] = None):
-        super().__init__(node, version)
+    def __init__(
+        self,
+        node: onnx.NodeProto,
+        version: Optional[int] = None,
+        verbose: int = 0,
+    ):
+        super().__init__(node, version, verbose=verbose)
         axis = self.get_attribute_int(node, "axis", 0)
         assert isinstance(axis, int), f"Unexpected value for attribute axis={axis!r}"
         self.axis = axis
@@ -24,8 +29,13 @@ def run(self, x, indices):
 class ScatterND_16(OpRunKernel):
     "ScatterND"
 
-    def __init__(self, node: onnx.NodeProto, version: Optional[int] = None):
-        super().__init__(node, version)
+    def __init__(
+        self,
+        node: onnx.NodeProto,
+        version: Optional[int] = None,
+        verbose: int = 0,
+    ):
+        super().__init__(node, version, verbose=verbose)
         self.reduction = self.get_attribute_string(node, "reduction", "none")
 
     def run(