enable "use_bettertransformer" and "torch_compile" in deepspeed initializer and enable it in huggingface pipeline approch (#51)

depenglee1707 · web-flow · commit a0c34a307159 · 2024-03-26T19:00:57.000+08:00
diff --git a/llmserve/backend/llm/initializers/hf_transformers/deepspeed.py b/llmserve/backend/llm/initializers/hf_transformers/deepspeed.py
@@ -176,6 +176,12 @@ def load_model(self, model_id: str) -> "PreTrainedModel":
         return model
 
     def postprocess_model(self, model: "PreTrainedModel") -> "PreTrainedModel":
+        if self.use_bettertransformer:
+            from optimum.bettertransformer import BetterTransformer
+
+            logger.info("Transforming the model with BetterTransformer...")
+            model = BetterTransformer.transform(model)
+            
         if self.use_meta_tensor:
             ds_kwargs = dict(base_dir=self._repo_root, checkpoint=self._checkpoints_json)
         else:
diff --git a/llmserve/backend/llm/pipelines/default_transformers_pipeline.py b/llmserve/backend/llm/pipelines/default_transformers_pipeline.py
@@ -101,12 +101,14 @@ def from_initializer(
         logger.info(
             f"DefaultTransformersPipeline default_kwargs {default_kwargs}")
         logger.info(f"DefaultTransformersPipeline model_kwargs {extral_kwargs}")
-        
+
         transformers_pipe = pipeline(
             **default_kwargs,
             **extral_kwargs,
         )
 
+        # use initializer to handle "use_bettertransformer" and "torch_compile"
+        transformers_pipe.model = initializer.postprocess_model(transformers_pipe.model)
         pipe = cls(
             model=transformers_pipe.model,
             tokenizer=transformers_pipe.tokenizer,