Plumb output changes though progress and summary

sjmonson · sjmonson · commit 00a210d03a14 · 2025-04-10T23:23:06.000-04:00
diff --git a/src/guidellm/benchmark/benchmark.py b/src/guidellm/benchmark/benchmark.py
@@ -277,7 +277,7 @@ class Benchmark(StandardBaseModel):
     Specific benchmarker implementations should extend this model to include
     additional information or metadata as needed.
 
-    Note, requests_per_second and requests_concurrency are kept at this level
+    Note, requests_per_second and request_concurrency are kept at this level
     and are expected to be populated by the subclass implementation to ensure
     the logic for Profiles can include more complicated logic for determining
     what rates and concurrency values to use for subsequent strategies.
diff --git a/src/guidellm/benchmark/benchmarker.py b/src/guidellm/benchmark/benchmarker.py
@@ -235,8 +235,8 @@ async def run(
 
             benchmark: BENCH = aggregator.compile()
             profile.completed_strategy(
-                average_rate=benchmark.requests_per_second.successful.mean,
-                average_concurrency=benchmark.requests_concurrency.successful.mean,
+                average_rate=benchmark.metrics.requests_per_second.successful.mean,
+                average_concurrency=benchmark.metrics.request_concurrency.successful.mean,
             )
 
             yield BenchmarkerResult(
diff --git a/src/guidellm/benchmark/output.py b/src/guidellm/benchmark/output.py
@@ -258,29 +258,29 @@ def print_benchmarks_info(self):
                     f"{datetime.fromtimestamp(benchmark.end_time).strftime("%H:%M:%S")}",
                     f"{(benchmark.end_time - benchmark.start_time):.1f}",
                     (
-                        f"{benchmark.successful_total:>5} / "
-                        f"{benchmark.incomplete_total} / "
-                        f"{benchmark.errored_total}"
+                        f"{benchmark.total_count.successful:>5} / "
+                        f"{benchmark.total_count.incomplete} / "
+                        f"{benchmark.total_count.errored}"
                     ),
                     (
-                        f"{benchmark.prompt_token_count.successful.mean:>5.1f} / "
-                        f"{benchmark.prompt_token_count.incomplete.mean:.1f} / "
-                        f"{benchmark.prompt_token_count.errored.mean:.1f}"
+                        f"{benchmark.metrics.prompt_token_count.successful.mean:>5.1f} / "
+                        f"{benchmark.metrics.prompt_token_count.incomplete.mean:.1f} / "
+                        f"{benchmark.metrics.prompt_token_count.errored.mean:.1f}"
                     ),
                     (
-                        f"{benchmark.output_token_count.successful.mean:>5.1f} / "
-                        f"{benchmark.output_token_count.incomplete.mean:.1f} / "
-                        f"{benchmark.output_token_count.errored.mean:.1f}"
+                        f"{benchmark.metrics.output_token_count.successful.mean:>5.1f} / "
+                        f"{benchmark.metrics.output_token_count.incomplete.mean:.1f} / "
+                        f"{benchmark.metrics.output_token_count.errored.mean:.1f}"
                     ),
                     (
-                        f"{benchmark.prompt_token_count.successful.total_sum:>6.0f} / "
-                        f"{benchmark.prompt_token_count.incomplete.total_sum:.0f} / "
-                        f"{benchmark.prompt_token_count.errored.total_sum:.0f}"
+                        f"{benchmark.metrics.prompt_token_count.successful.total_sum:>6.0f} / "
+                        f"{benchmark.metrics.prompt_token_count.incomplete.total_sum:.0f} / "
+                        f"{benchmark.metrics.prompt_token_count.errored.total_sum:.0f}"
                     ),
                     (
-                        f"{benchmark.output_token_count.successful.total_sum:>6.0f} / "
-                        f"{benchmark.output_token_count.incomplete.total_sum:.0f} / "
-                        f"{benchmark.output_token_count.errored.total_sum:.0f}"
+                        f"{benchmark.metrics.output_token_count.successful.total_sum:>6.0f} / "
+                        f"{benchmark.metrics.output_token_count.incomplete.total_sum:.0f} / "
+                        f"{benchmark.metrics.output_token_count.errored.total_sum:.0f}"
                     ),
                 ]
             )
@@ -313,29 +313,29 @@ def print_benchmarks_stats(self):
             rows.append(
                 [
                     strategy_display_str(benchmark.args.strategy),
-                    f"{benchmark.requests_per_second.successful.mean:.2f}",
-                    f"{benchmark.requests_concurrency.successful.mean:.2f}",
-                    f"{benchmark.output_tokens_per_second.total.mean:.1f}",
-                    f"{benchmark.tokens_per_second.total.mean:.1f}",
+                    f"{benchmark.metrics.requests_per_second.successful.mean:.2f}",
+                    f"{benchmark.metrics.request_concurrency.successful.mean:.2f}",
+                    f"{benchmark.metrics.output_tokens_per_second.total.mean:.1f}",
+                    f"{benchmark.metrics.tokens_per_second.total.mean:.1f}",
                     (
-                        f"{benchmark.request_latency.successful.mean:.2f} / "
-                        f"{benchmark.request_latency.successful.median:.2f} / "
-                        f"{benchmark.request_latency.successful.percentiles.p99:.2f}"
+                        f"{benchmark.metrics.request_latency.successful.mean:.2f} / "
+                        f"{benchmark.metrics.request_latency.successful.median:.2f} / "
+                        f"{benchmark.metrics.request_latency.successful.percentiles.p99:.2f}"
                     ),
                     (
-                        f"{benchmark.time_to_first_token_ms.successful.mean:.1f} / "
-                        f"{benchmark.time_to_first_token_ms.successful.median:.1f} / "
-                        f"{benchmark.time_to_first_token_ms.successful.percentiles.p99:.1f}"
+                        f"{benchmark.metrics.time_to_first_token_ms.successful.mean:.1f} / "
+                        f"{benchmark.metrics.time_to_first_token_ms.successful.median:.1f} / "
+                        f"{benchmark.metrics.time_to_first_token_ms.successful.percentiles.p99:.1f}"
                     ),
                     (
-                        f"{benchmark.inter_token_latency_ms.successful.mean:.1f} / "
-                        f"{benchmark.inter_token_latency_ms.successful.median:.1f} / "
-                        f"{benchmark.inter_token_latency_ms.successful.percentiles.p99:.1f}"
+                        f"{benchmark.metrics.inter_token_latency_ms.successful.mean:.1f} / "
+                        f"{benchmark.metrics.inter_token_latency_ms.successful.median:.1f} / "
+                        f"{benchmark.metrics.inter_token_latency_ms.successful.percentiles.p99:.1f}"
                     ),
                     (
-                        f"{benchmark.time_per_output_token_ms.successful.mean:.1f} / "
-                        f"{benchmark.time_per_output_token_ms.successful.median:.1f} / "
-                        f"{benchmark.time_per_output_token_ms.successful.percentiles.p99:.1f}"
+                        f"{benchmark.metrics.time_per_output_token_ms.successful.mean:.1f} / "
+                        f"{benchmark.metrics.time_per_output_token_ms.successful.median:.1f} / "
+                        f"{benchmark.metrics.time_per_output_token_ms.successful.percentiles.p99:.1f}"
                     ),
                 ]
             )
diff --git a/src/guidellm/benchmark/progress.py b/src/guidellm/benchmark/progress.py
@@ -553,10 +553,10 @@ def handle_update_benchmark_compiled(
         progress_state.compiling = False
         progress_state.ended = True
         progress_state.requests_rate = (
-            current_benchmark.requests_per_second.successful.mean
+            current_benchmark.metric.requests_per_second.successful.mean
         )
         progress_state.requests_processing = (
-            current_benchmark.requests_concurrency.successful.mean
+            current_benchmark.metric.requests_concurrency.successful.mean
         )
 
     def handle_end(self, result: BenchmarkerResult):  # noqa: ARG002
@@ -647,22 +647,22 @@ def handle_update_benchmark_compiled(
         progress_state.requests_successful = current_benchmark.successful_total
         progress_state.requests_errored = current_benchmark.errored_total
         progress_state.output_tokens = (
-            current_benchmark.output_token_count.successful.mean
+            current_benchmark.metric.output_token_count.successful.mean
         )
         progress_state.prompt_tokens = (
-            current_benchmark.prompt_token_count.successful.mean
+            current_benchmark.metric.prompt_token_count.successful.mean
         )
         progress_state.output_tokens_rate = (
-            current_benchmark.output_tokens_per_second.successful.mean
+            current_benchmark.metric.output_tokens_per_second.successful.mean
         )
         progress_state.total_tokens_rate = (
-            current_benchmark.tokens_per_second.successful.mean
+            current_benchmark.metric.tokens_per_second.successful.mean
         )
         progress_state.tokens_ttft = (
-            current_benchmark.time_to_first_token_ms.successful.mean
+            current_benchmark.metric.time_to_first_token_ms.successful.mean
         )
         progress_state.tokens_itl = (
-            current_benchmark.inter_token_latency_ms.successful.mean
+            current_benchmark.metric.inter_token_latency_ms.successful.mean
         )
 
     def create_task_progress_state(

Original file line number	Diff line number	Diff line change
`@@ -235,8 +235,8 @@ async def run(`
`235`	`235`
`236`	`236`	`benchmark: BENCH = aggregator.compile()`
`237`	`237`	`profile.completed_strategy(`
`238`		`- average_rate=benchmark.requests_per_second.successful.mean,`
`239`		`- average_concurrency=benchmark.requests_concurrency.successful.mean,`
	`238`	`+ average_rate=benchmark.metrics.requests_per_second.successful.mean,`
	`239`	`+ average_concurrency=benchmark.metrics.request_concurrency.successful.mean,`
`240`	`240`	`)`
`241`	`241`
`242`	`242`	`yield BenchmarkerResult(`
Original file line number	Diff line number	Diff line change
`@@ -553,10 +553,10 @@ def handle_update_benchmark_compiled(`
`553`	`553`	`progress_state.compiling = False`
`554`	`554`	`progress_state.ended = True`
`555`	`555`	`progress_state.requests_rate = (`
`556`		`- current_benchmark.requests_per_second.successful.mean`
	`556`	`+ current_benchmark.metric.requests_per_second.successful.mean`
`557`	`557`	`)`
`558`	`558`	`progress_state.requests_processing = (`
`559`		`- current_benchmark.requests_concurrency.successful.mean`
	`559`	`+ current_benchmark.metric.requests_concurrency.successful.mean`
`560`	`560`	`)`
`561`	`561`
`562`	`562`	`def handle_end(self, result: BenchmarkerResult): # noqa: ARG002`
`@@ -647,22 +647,22 @@ def handle_update_benchmark_compiled(`
`647`	`647`	`progress_state.requests_successful = current_benchmark.successful_total`
`648`	`648`	`progress_state.requests_errored = current_benchmark.errored_total`
`649`	`649`	`progress_state.output_tokens = (`
`650`		`- current_benchmark.output_token_count.successful.mean`
	`650`	`+ current_benchmark.metric.output_token_count.successful.mean`
`651`	`651`	`)`
`652`	`652`	`progress_state.prompt_tokens = (`
`653`		`- current_benchmark.prompt_token_count.successful.mean`
	`653`	`+ current_benchmark.metric.prompt_token_count.successful.mean`
`654`	`654`	`)`
`655`	`655`	`progress_state.output_tokens_rate = (`
`656`		`- current_benchmark.output_tokens_per_second.successful.mean`
	`656`	`+ current_benchmark.metric.output_tokens_per_second.successful.mean`
`657`	`657`	`)`
`658`	`658`	`progress_state.total_tokens_rate = (`
`659`		`- current_benchmark.tokens_per_second.successful.mean`
	`659`	`+ current_benchmark.metric.tokens_per_second.successful.mean`
`660`	`660`	`)`
`661`	`661`	`progress_state.tokens_ttft = (`
`662`		`- current_benchmark.time_to_first_token_ms.successful.mean`
	`662`	`+ current_benchmark.metric.time_to_first_token_ms.successful.mean`
`663`	`663`	`)`
`664`	`664`	`progress_state.tokens_itl = (`
`665`		`- current_benchmark.inter_token_latency_ms.successful.mean`
	`665`	`+ current_benchmark.metric.inter_token_latency_ms.successful.mean`
`666`	`666`	`)`
`667`	`667`
`668`	`668`	`def create_task_progress_state(`