[fix] fix completion stream api output_tokens not in usage (#3247)

liyonghua0910 · web-flow · commit 09cc4e2802a8 · 2025-08-07T10:36:00.000+08:00
diff --git a/fastdeploy/entrypoints/openai/serving_completion.py b/fastdeploy/entrypoints/openai/serving_completion.py
@@ -358,6 +358,7 @@ async def completion_stream_generator(
                                 usage=UsageInfo(
                                     prompt_tokens=len(prompt_batched_token_ids[idx]),
                                     completion_tokens=output_tokens[idx],
+                                    total_tokens=len(prompt_batched_token_ids[idx]) + output_tokens[idx],
                                 ),
                             )
                             yield f"data: {usage_chunk.model_dump_json(exclude_unset=True)}\n\n"

Original file line number	Diff line number	Diff line change
`@@ -358,6 +358,7 @@ async def completion_stream_generator(`
`358`	`358`	`usage=UsageInfo(`
`359`	`359`	`prompt_tokens=len(prompt_batched_token_ids[idx]),`
`360`	`360`	`completion_tokens=output_tokens[idx],`
	`361`	`+ total_tokens=len(prompt_batched_token_ids[idx]) + output_tokens[idx],`
`361`	`362`	`),`
`362`	`363`	`)`
`363`	`364`	`yield f"data: {usage_chunk.model_dump_json(exclude_unset=True)}\n\n"`