Better documentation and new metrics for timeseries (#181)

xadupre · web-flow · commit 59c5ea5b68df · 2025-07-07T20:12:46.000+02:00
* better dco

* use 4.53.1

* add a statistique

* mypy

* cube_time

* cubetime

* add style

* fix dtypes

* fix issues

* fix ut
diff --git a/.github/workflows/ci.yml b/.github/workflows/ci.yml
@@ -16,7 +16,7 @@ jobs:
       matrix:
         os: [ubuntu-latest]
         python: ['3.10', '3.11', '3.12', '3.13']
-        transformers: ['4.48.3', '4.51.3', '4.52.4', '4.53.0', 'main']
+        transformers: ['4.48.3', '4.51.3', '4.52.4', '4.53.1', 'main']
         torch: ['2.7', 'main']
         exclude:
           - python: '3.10'
@@ -28,7 +28,7 @@ jobs:
           - python: '3.10'
             transformers: 'main'
           - python: '3.11'
-            transformers: '4.53.0'
+            transformers: '4.53.1'
           - python: '3.11'
             transformers: 'main'
           - python: '3.13'
diff --git a/_unittests/ut_helpers/test_log_helper.py b/_unittests/ut_helpers/test_log_helper.py
@@ -14,6 +14,8 @@
     enumerate_csv_files,
     open_dataframe,
     filter_data,
+    mann_kendall,
+    breaking_last_point,
 )
 
 
@@ -207,7 +209,7 @@ def test_enumerate_csv_files(self):
         self.assertIn("RAWFILENAME", cube.data.columns)
 
     def test_cube_logs_performance1(self):
-        output = self.get_dump_file("test_cube_logs_performance.xlsx")
+        output = self.get_dump_file("test_cube_logs_performance1.xlsx")
         filename = os.path.join(os.path.dirname(__file__), "data", "data-agg.zip")
         assert list(enumerate_csv_files(filename))
         dfs = [open_dataframe(df) for df in enumerate_csv_files(filename)]
@@ -232,7 +234,7 @@ def test_cube_logs_performance1(self):
         self.assertExists(output)
 
     def test_cube_logs_performance2(self):
-        output = self.get_dump_file("test_cube_logs_performance.xlsx")
+        output = self.get_dump_file("test_cube_logs_performance2.xlsx")
         filename = os.path.join(os.path.dirname(__file__), "data", "data-agg.zip")
         assert list(enumerate_csv_files(filename))
         dfs = [open_dataframe(df) for df in enumerate_csv_files(filename)]
@@ -256,6 +258,16 @@ def test_cube_logs_performance2(self):
         )
         self.assertExists(output)
 
+    def test_cube_logs_performance_cube_time(self):
+        filename = os.path.join(os.path.dirname(__file__), "data", "data-agg.zip")
+        assert list(enumerate_csv_files(filename))
+        dfs = [open_dataframe(df) for df in enumerate_csv_files(filename)]
+        assert dfs, f"{filename!r} empty"
+        cube = CubeLogsPerformance(dfs, keep_last_date=True)
+        cube.load()
+        ct = cube.clone()
+        self.assertEqual((52, 106), ct.shape)
+
     def test_duplicate(self):
         df = pandas.DataFrame(
             [
@@ -402,6 +414,60 @@ def test_filter_data(self):
         df2 = filter_data(df, "", "model_exporter:onnx-dynamo;T", verbose=1)
         self.assertEqualDataFrame(df[df.model_exporter != "onnx-dynamo"], df2)
 
+    def test_mann_kendall(self):
+        test = mann_kendall(list(range(5)))
+        self.assertEqual((np.float64(1.0), np.float64(0.5196152422706631)), test)
+        test = mann_kendall(list(range(3)))
+        self.assertEqual((0, np.float64(0.24618298195866545)), test)
+        test = mann_kendall(list(range(5, 0, -1)))
+        self.assertEqual((np.float64(-1.0), np.float64(-0.5196152422706631)), test)
+
+    def test_breaking_last_point(self):
+        test = breaking_last_point([1, 1, 1, 2])
+        self.assertEqual((1, np.float64(1.0)), test)
+        test = breaking_last_point([1, 1, 1.1, 2])
+        self.assertEqual((np.float64(1.0), np.float64(20.50609665440986)), test)
+        test = breaking_last_point([-1, -1, -1.1, -2])
+        self.assertEqual((np.float64(-1.0), np.float64(-20.50609665440986)), test)
+        test = breaking_last_point([1, 1, 1.1, 1])
+        self.assertEqual((np.float64(0.0), np.float64(-0.7071067811865491)), test)
+
+    def test_historical_cube_time(self):
+        # case 1
+        df = pandas.DataFrame(
+            [
+                dict(date="2025/01/01", time_p=0.51, exporter="E1", m_name="A", m_cls="CA"),
+                dict(date="2025/01/02", time_p=0.62, exporter="E1", m_name="A", m_cls="CA"),
+                dict(date="2025/01/03", time_p=0.62, exporter="E1", m_name="A", m_cls="CA"),
+                dict(date="2025/01/01", time_p=0.51, exporter="E2", m_name="A", m_cls="CA"),
+                dict(date="2025/01/02", time_p=0.62, exporter="E2", m_name="A", m_cls="CA"),
+                dict(date="2025/01/03", time_p=0.50, exporter="E2", m_name="A", m_cls="CA"),
+            ]
+        )
+        cube = CubeLogs(df, keys=["^m_*", "exporter"], time="date").load()
+        cube_time = cube.cube_time(threshold=1.1)
+        v = cube_time.data["time_p"].tolist()
+        self.assertEqual([0, -1], v)
+
+    @hide_stdout()
+    def test_historical_cube_time_mask(self):
+        output = self.get_dump_file("test_historical_cube_time_mask.xlsx")
+        df = pandas.DataFrame(
+            [
+                dict(date="2025/01/01", time_p=0.51, exporter="E1", m_name="A", m_cls="CA"),
+                dict(date="2025/01/02", time_p=0.62, exporter="E1", m_name="A", m_cls="CA"),
+                dict(date="2025/01/03", time_p=0.62, exporter="E1", m_name="A", m_cls="CA"),
+                dict(date="2025/01/01", time_p=0.51, exporter="E2", m_name="A", m_cls="CA"),
+                dict(date="2025/01/02", time_p=0.62, exporter="E2", m_name="A", m_cls="CA"),
+                dict(date="2025/01/03", time_p=0.50, exporter="E2", m_name="A", m_cls="CA"),
+                dict(date="2025/01/01", time_p=0.71, exporter="E2", m_name="B", m_cls="CA"),
+                dict(date="2025/01/02", time_p=0.72, exporter="E2", m_name="B", m_cls="CA"),
+                dict(date="2025/01/03", time_p=0.70, exporter="E2", m_name="B", m_cls="CA"),
+            ]
+        )
+        cube = CubeLogs(df, keys=["^m_*", "exporter"], time="date").load()
+        cube.to_excel(output, views=["time_p"], time_mask=True, verbose=1)
+
 
 if __name__ == "__main__":
     unittest.main(verbosity=2)
diff --git a/onnx_diagnostic/_command_lines_parser.py b/onnx_diagnostic/_command_lines_parser.py
@@ -657,9 +657,16 @@ def get_parser_agg() -> ArgumentParser:
         ),
         epilog=textwrap.dedent(
             """
-            examples:\n
+            examples:
 
                 python -m onnx_diagnostic agg test_agg.xlsx raw/*.zip -v 1
+                python -m onnx_diagnostic agg agg.xlsx raw/*.zip raw/*.csv -v 1 \\
+                    --no-raw  --keep-last-date --filter-out "exporter:test-exporter"
+
+            Another to create timeseries:
+
+                python -m onnx_diagnostic agg history.xlsx raw/*.csv -v 1 --no-raw \\
+                    --no-recent
             """
         ),
         formatter_class=RawTextHelpFormatter,
@@ -812,6 +819,7 @@ def _cmd_agg(argv: List[Any]):
         verbose=args.verbose,
         csv=args.csv.split(","),
         raw=args.raw,
+        time_mask=True,
     )
     if args.verbose:
         print(f"Wrote {args.output!r}")
diff --git a/onnx_diagnostic/helpers/log_helper.py b/onnx_diagnostic/helpers/log_helper.py