update

Yunnglin · Yunnglin · commit 8af0e2f5dcd5 · 2026-03-09T19:18:32.000+08:00
diff --git a/evalscope/app/utils/visualization.py b/evalscope/app/utils/visualization.py
@@ -38,14 +38,18 @@ def plot_single_report_sunburst(report_list: List[Report]):
         path = [ReportKey.dataset_name] + categories + [ReportKey.subset_name]
     logger.debug(f'df: \n{df}')
     df[categories] = df[categories].fillna('default')  # NOTE: fillna for empty categories
+    df = df[df[ReportKey.num] > 0]  # NOTE: filter out zero-num rows to avoid ZeroDivisionError in plotly
+    if df.empty:
+        return None
 
     plot = px.sunburst(
         df,
         path=path,
         values=ReportKey.num,
         color=ReportKey.score,
         color_continuous_scale='RdYlGn',  # see https://plotly.com/python/builtin-colorscales/
-        color_continuous_midpoint=np.average(df[ReportKey.score], weights=df[ReportKey.num]),
+        color_continuous_midpoint=np.average(df[ReportKey.score], weights=df[ReportKey.num])
+        if df[ReportKey.num].sum() > 0 else df[ReportKey.score].mean(),
         template=PLOTLY_THEME,
         maxdepth=4
     )
diff --git a/tests/benchmark/test_eval.py b/tests/benchmark/test_eval.py
@@ -387,7 +387,7 @@ def test_bfcl_v3(self):
                 'underscore_to_dot': True
             }
         }
-        self._run_dataset_test('bfcl_v3', dataset_args=dataset_args, model='qwen-plus', limit=10)
+        self._run_dataset_test('bfcl_v3', dataset_args=dataset_args, model='qwen-plus', limit=1)
 
     def test_bfcl_v4(self):
         """Test BFCL v4 dataset."""
diff --git a/tests/cli/test_all.py b/tests/cli/test_all.py
@@ -51,7 +51,7 @@
     'frames',
     'docmath',
     'needle_haystack',
-    'bfcl_v3',
+    # 'bfcl_v3',
     'hle',
     'tau_bench',
 ]

Original file line number	Diff line number	Diff line change
`@@ -387,7 +387,7 @@ def test_bfcl_v3(self):`
`387`	`387`	`'underscore_to_dot': True`
`388`	`388`	`}`
`389`	`389`	`}`
`390`		`- self._run_dataset_test('bfcl_v3', dataset_args=dataset_args, model='qwen-plus', limit=10)`
	`390`	`+ self._run_dataset_test('bfcl_v3', dataset_args=dataset_args, model='qwen-plus', limit=1)`
`391`	`391`
`392`	`392`	`def test_bfcl_v4(self):`
`393`	`393`	`"""Test BFCL v4 dataset."""`
Original file line number	Diff line number	Diff line change
`@@ -51,7 +51,7 @@`
`51`	`51`	`'frames',`
`52`	`52`	`'docmath',`
`53`	`53`	`'needle_haystack',`
`54`		`- 'bfcl_v3',`
	`54`	`+ # 'bfcl_v3',`
`55`	`55`	`'hle',`
`56`	`56`	`'tau_bench',`
`57`	`57`	`]`