keep removing deprecated stuff (#69)

depenglee1707 · web-flow · commit 086954353778 · 2024-04-03T18:48:19.000+08:00
diff --git a/llmserve/backend/__init__.py b/llmserve/backend/__init__.py
@@ -1,4 +1,4 @@
-from llmserve.backend.server.run import llm_application, llm_server
+from llmserve.backend.server.run import llm_server
 from llmserve.backend.server.run import run as serve_model
 
-__all__ = ["llm_application", "llm_server", "serve_model"]
+__all__ = ["llm_server", "serve_model"]
diff --git a/llmserve/backend/server/app.py b/llmserve/backend/server/app.py
@@ -159,7 +159,6 @@ async def reconfigure(
     @property
     def max_batch_size(self):
         return (self.args.model_config.generation.max_batch_size if self.args.model_config.generation else 1)
-        # return 1
 
     @property
     def batch_wait_timeout_s(self):
@@ -194,30 +193,12 @@ async def generate_text(self, prompt: Prompt):
         with async_timeout.timeout(GATEWAY_TIMEOUT_S):
             text = await self.generate_text_batch(
                 prompt,
-                # [prompt],
-                # priority=QueuePriority.GENERATE_TEXT,
                 # start_timestamp=start_timestamp,
             )
             logger.info(f"generated text: {text}")
             # return text[0]
             return text
 
-    # no need anymore, will be delete soon
-    async def generate(self, prompt: Prompt):
-        time.time()
-        logger.info(prompt)
-        logger.info(self.get_max_batch_size())
-        logger.info(self.get_batch_wait_timeout_s())
-        with async_timeout.timeout(GATEWAY_TIMEOUT_S):
-            text = await self.generate_text_batch(
-                prompt,
-                # [prompt],
-                # priority=QueuePriority.GENERATE_TEXT,
-                # start_timestamp=start_timestamp,
-            )
-        return text
-        # return text[0]
-
     @app.post("/batch", include_in_schema=False)
     async def batch_generate_text(self, prompts: List[Prompt]):
         logger.info(f"batch_generate_text prompts: {prompts} ")
@@ -229,7 +210,6 @@ async def batch_generate_text(self, prompts: List[Prompt]):
                 *[
                     self.generate_text_batch(
                         prompt,
-                        # priority=QueuePriority.BATCH_GENERATE_TEXT,
                         # start_timestamp=start_timestamp,
                     )
                     for prompt in prompts
@@ -333,20 +313,22 @@ def __init__(self, models: Dict[str, DeploymentHandle], model_configurations: Di
     async def predict(self, model: str, prompt: Union[Prompt, List[Prompt]]) -> Union[Dict[str, Any], List[Dict[str, Any]], List[Any]]:
         logger.info(f"url: {model}, keys: {self._models.keys()}")
         modelKeys = list(self._models.keys())
-        # model = _replace_prefix(model)
+
         modelID = model
         for item in modelKeys:
             logger.info(f"_reverse_prefix(item): {_reverse_prefix(item)}")
             if _reverse_prefix(item) == model:
                 modelID = item
                 logger.info(f"set modelID: {item}")
         logger.info(f"search model key {modelID}")
+
         if isinstance(prompt, Prompt):
             results = await asyncio.gather(*[self._models[modelID].generate_text.remote(prompt)])
         elif isinstance(prompt, list):
             results = await asyncio.gather(*[self._models[modelID].batch_generate_text.remote(prompt)])
         else:
             raise Exception("Invaid prompt format.")
+        
         logger.info(f"{results}")
         return results[0]
 
diff --git a/llmserve/backend/server/run.py b/llmserve/backend/server/run.py
@@ -133,15 +133,6 @@ def llm_experimental(args: Union[str, LLMApp, List[Union[LLMApp, str]]]):
     return (ExperimentalDeployment.bind(deployment, model), serve_conf)  # pylint:disable=no-member
 
 
-def llm_application(args):
-    """This is a simple wrapper for LLM Server
-    That is compatible with the yaml config file format
-
-    """
-    serve_args = ServeArgs.parse_obj(args)
-    return llm_server(serve_args.models)[0]
-
-
 def run(models: Union[LLMApp, str], appname: str = None, port: int = DEFAULT_HTTP_PORT):
     """Run the LLM Server on the local Ray Cluster