add base chat model and webui service

edkaya · edkaya · commit 865e948f91d7 · 2025-06-09T23:50:44.000+02:00
diff --git a/genai/app.py b/genai/app.py
@@ -1,9 +1,9 @@
 from dotenv import load_dotenv
 from waitress import serve
 from flask import Flask
-from controller.generate_controller import generate_bp
+from genai.controller.generate_controller import generate_bp
 
-from config import Config
+from genai.config import Config
 
 app = Flask(__name__)
 app.register_blueprint(generate_bp)
diff --git a/genai/config.py b/genai/config.py
@@ -9,11 +9,13 @@
     "Config",
     [
         "api_key_openai",
-        "waitress"
+        "waitress",
+        "api_openwebui"
     ],
 )
 
 Config = ConfigT(
     api_key_openai=environ.get("API_SECRET_OPENAI_MINE"),
     waitress=environ.get("USE_WAITRESS", "false").lower() == "true",
+    api_openwebui=environ.get("API_OPENWEBUI")
 )
diff --git a/genai/controller/generate_controller.py b/genai/controller/generate_controller.py
@@ -3,12 +3,23 @@
 import logging
 from werkzeug.utils import secure_filename
 
-from rag.ingestion_pipeline import IngestionPipeline
-from vector_database.qdrant_vdb import QdrantVDB
+from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder
+from langchain_core.messages import HumanMessage
+
+from genai.rag.ingestion_pipeline import IngestionPipeline
+from genai.vector_database.qdrant_vdb import QdrantVDB
+from genai.rag.llm.chat_model import ChatModel
+
 
 # Set Logging
 logging.getLogger().setLevel(logging.INFO)
 
+# Set ChatModel
+llm = ChatModel(model_name="llama3.3:latest")
+
+# Set Vector Database
+qdrant = QdrantVDB()
+
 generate_bp = Blueprint('generate', __name__)
 
 
@@ -31,8 +42,6 @@ def upload_file():
 
     try:
         collection_name = "recipes"
-        # Initialize vector database
-        qdrant = QdrantVDB()
         # Check if the file already in the collection
         if (qdrant.client.collection_exists(collection_name)
                 and qdrant.collection_contains_file(
@@ -69,6 +78,47 @@ def upload_file():
         os.remove(file_path)
 
 
-@generate_bp.route('/api/generate', methods=['POST'])
+@generate_bp.route('/genai/generate', methods=['POST'])
 def generate():
-    return jsonify({'output': 'Hello World!'})
+    data = request.get_json()
+
+    if not data or "query" not in data or "conversation_id" not in data:
+        return jsonify({"error": "Missing 'query' or 'conversation_id'"}), 400
+
+    query = data["query"]
+    conversation_id = data["conversation_id"] # will be used
+
+    try:
+        collection_name = "recipes"
+
+        if qdrant.client.collection_exists(collection_name):
+            # Get vector store
+            vector_store = qdrant.create_and_get_vector_storage(
+                collection_name
+            )
+
+            # Retrieve 5 similar documents
+            retriever = vector_store.as_retriever(search_kwargs={"k": 5})
+            retrieved_docs = retriever.invoke(query)
+            docs_content = "\n\n".join(doc.page_content for doc in retrieved_docs)
+
+            # Prepare prompt
+            prompt_template = ChatPromptTemplate([
+                ("system", "You are a helpful assistant for recipe generation based on the given ingredients and the following context:\n\n{context}"),
+                MessagesPlaceholder("msgs")
+            ])
+
+            prompt = prompt_template.invoke({
+                "context": docs_content,
+                "msgs": HumanMessage(content=query)
+            })
+            
+            response = llm.invoke(prompt)
+            return jsonify({
+                "response": response.content,
+            }), 200
+
+    except Exception as e:
+        return jsonify({"error": str(e)}), 500
+
+
diff --git a/genai/rag/llm/__init__.py b/genai/rag/llm/__init__.py
diff --git a/genai/rag/llm/chat_model.py b/genai/rag/llm/chat_model.py
@@ -0,0 +1,33 @@
+from typing import List
+from langchain_core.messages import BaseMessage, HumanMessage, AIMessage
+from langchain_core.language_models.chat_models import BaseChatModel
+from langchain_core.outputs import ChatResult, ChatGeneration
+from pydantic import Field
+
+from genai.service.openwebui_service import generate_response
+
+
+class ChatModel(BaseChatModel):
+    model_name: str = Field(default="llama3.3:latest")
+
+    def _generate(self, messages: List[BaseMessage], stop=None, **kwargs) -> ChatResult:
+        prompt = "\n".join([msg.content for msg in messages if isinstance(msg, HumanMessage)])
+        response_text = generate_response(self.model_name, prompt)
+
+        return ChatResult(
+            generations=[ChatGeneration(message=AIMessage(content=response_text))]
+        )
+
+    @property
+    def _llm_type(self) -> str:
+        return "recipai-custom-model"
+
+# For Testing purposes 
+# if __name__ == "__main__":
+#     llm = ChatModel(model_name="llama3.3:latest")
+
+#     message = HumanMessage(content="What is langchain, explain very briefly?")
+
+#     response = llm.invoke([message])
+
+#     print("LLM response:\n", response.content)
diff --git a/genai/service/openwebui_service.py b/genai/service/openwebui_service.py
@@ -0,0 +1,42 @@
+import requests
+
+from genai.config import Config
+
+BASE_URL = "https://gpu.aet.cit.tum.de/"
+
+def generate_response(model_name: str, prompt: str):
+    """Making a POST request to the respective endpoint for 
+    response generation by an LLM"""
+    url = f"{BASE_URL}/api/chat/completions"
+
+    headers = {
+        "Authorization": f"Bearer {Config.api_openwebui}",
+        "Content-Type": "application/json"
+    }
+
+    payload = {
+        "model": model_name,
+        "messages": [
+            {
+                "role": "user", 
+                "content": prompt
+                }
+            ]
+    }
+
+    try:
+        response = requests.post(
+            url,
+            json=payload,
+            headers=headers,
+            timeout=120
+        )
+        response.raise_for_status()
+        return response.json()["choices"][0]["message"]["content"]
+
+    except requests.exceptions.HTTPError as e:
+        raise RuntimeError(f"HTTP error from LLM server: {e} (status {response.status_code})") from e
+    except requests.exceptions.Timeout as e:
+        raise RuntimeError(f"Request to LLM timed out: {e}") from e
+    except requests.exceptions.RequestException as e:
+        raise RuntimeError(f"Request to LLM failed: {e}") from e
diff --git a/genai/service/rag_service.py b/genai/service/rag_service.py

Original file line number	Diff line number	Diff line change
`@@ -9,11 +9,13 @@`
`9`	`9`	`"Config",`
`10`	`10`	`[`
`11`	`11`	`"api_key_openai",`
`12`		`- "waitress"`
	`12`	`+ "waitress",`
	`13`	`+ "api_openwebui"`
`13`	`14`	`],`
`14`	`15`	`)`
`15`	`16`
`16`	`17`	`Config = ConfigT(`
`17`	`18`	`api_key_openai=environ.get("API_SECRET_OPENAI_MINE"),`
`18`	`19`	`waitress=environ.get("USE_WAITRESS", "false").lower() == "true",`
	`20`	`+ api_openwebui=environ.get("API_OPENWEBUI")`
`19`	`21`	`)`