[Fix] Change /generate response-type to json for non-streaming (#374)

nicolasf · web-flow · commit be54f8e5c408 · 2023-07-06T18:15:17.000-07:00
diff --git a/vllm/entrypoints/api_server.py b/vllm/entrypoints/api_server.py
@@ -3,7 +3,7 @@
 from typing import AsyncGenerator
 
 from fastapi import BackgroundTasks, FastAPI, Request
-from fastapi.responses import Response, StreamingResponse
+from fastapi.responses import JSONResponse, Response, StreamingResponse
 import uvicorn
 
 from vllm.engine.arg_utils import AsyncEngineArgs
@@ -64,7 +64,7 @@ async def abort_request() -> None:
     prompt = final_output.prompt
     text_outputs = [prompt + output.text for output in final_output.outputs]
     ret = {"text": text_outputs}
-    return Response(content=json.dumps(ret))
+    return JSONResponse(ret)
 
 
 if __name__ == "__main__":