Add Prometheus Service and Enable GenAI Metrics

waleedbaroudi · waleedbaroudi · commit 64ca20adf20e · 2025-07-10T21:36:25.000+02:00
diff --git a/docker-compose.dev-no-traefik.yml b/docker-compose.dev-no-traefik.yml
@@ -47,6 +47,8 @@ services:
       - "8081:8081"  # FastAPI GenAI service
     networks:
       - dev-network
+    env_file:
+      - ./genai/.env
     environment:
       - WEAVIATE_HOST=weaviate
       - WEAVIATE_PORT=8083
@@ -97,6 +99,15 @@ services:
       ENABLE_API_BASED_MODULES: 'true'
       CLUSTER_HOSTNAME: 'node1'
 
+  prometheus:
+    image: prom/prometheus
+    volumes:
+      - ./monitoring/prometheus/prometheus.yml:/etc/prometheus/prometheus.yml
+    ports:
+      - "9090:9090"
+    networks:
+      - dev-network
+
 volumes:
   postgres_dev_data:
   weaviate_dev_data:
diff --git a/docker-compose.yml.j2 b/docker-compose.yml.j2
@@ -103,6 +103,15 @@ services:
       ENABLE_API_BASED_MODULES: 'true'
       CLUSTER_HOSTNAME: 'node1'
 
+  prometheus:
+    image: prom/prometheus
+    volumes:
+      - ./monitoring/prometheus/prometheus.yml:/etc/prometheus/prometheus.yml
+    ports:
+      - "9090:9090"
+    networks:
+      - proxy
+
 volumes:
   pgdata:
   weaviate_data:
diff --git a/genAi/compose.yml b/genAi/compose.yml
@@ -0,0 +1,46 @@
+services:
+  genai:
+    build:
+      context: .
+      dockerfile: Dockerfile
+    container_name: studymate-genai-dev
+    restart: unless-stopped
+    ports:
+      - "8081:8081"  # FastAPI GenAI service
+    environment:
+      - WEAVIATE_HOST=weaviate
+      - WEAVIATE_PORT=8083
+      - PYTHONPATH=/app
+    env_file:
+      - .env
+    depends_on:
+      - weaviate
+    volumes:
+      - ./documents:/app/documents  # Mount documents for development
+
+  weaviate:
+    image: cr.weaviate.io/semitechnologies/weaviate:1.30.3
+    container_name: studymate-weaviate-dev
+    restart: unless-stopped
+    command:
+      - --host
+      - 0.0.0.0
+      - --port
+      - '8083'
+      - --scheme
+      - http
+    ports:
+      - "8083:8083"  # Weaviate vector database
+      - "50051:50051"  # gRPC port
+    volumes:
+      - weaviate_dev_data:/var/lib/weaviate
+    environment:
+      QUERY_DEFAULTS_LIMIT: 25
+      AUTHENTICATION_ANONYMOUS_ACCESS_ENABLED: 'true'
+      PERSISTENCE_DATA_PATH: '/var/lib/weaviate'
+      ENABLE_API_BASED_MODULES: 'true'
+      CLUSTER_HOSTNAME: 'node1'
+  
+volumes:
+  postgres_dev_data:
+  weaviate_dev_data:
diff --git a/genAi/main.py b/genAi/main.py
@@ -1,9 +1,11 @@
 import logging
 from contextlib import asynccontextmanager
 from fastapi import FastAPI
+from fastapi.responses import JSONResponse
 from helpers import save_document
 from request_models import CreateSessionRequest, PromptRequest, SummaryRequest, QuizRequest, FlashcardRequest
 from llm import StudyLLM
+from prometheus_fastapi_instrumentator import Instrumentator
 
 # Configure logging
 logging.basicConfig(level=logging.INFO)
@@ -39,9 +41,16 @@ async def lifespan(_):
     lifespan=lifespan
 )
 
+Instrumentator(
+    excluded_handlers=['/metrics'],
+    should_group_status_codes=False,
+    ).instrument(app).expose(app)
+
+
 # llm_instances["dummy"] = StudyLLM("./documents/example/W07_Microservices_and_Scalable_Architectures.pdf") # TODO: remove
 # llm_instances["dummy2"] = StudyLLM("./documents/example/dummy_knowledge.txt") # TODO: remove
 
+# Auxiliary Endpoints
 @app.get("/health")
 async def health_check():
     """Check the health of the service and its dependencies."""
@@ -51,6 +60,7 @@ async def health_check():
         return {"status": "unhealthy", "error": str(e)}
 
 
+# AI Tasks Endpoints
 @app.post("/session/load")
 async def load_session(data: CreateSessionRequest):
     """
@@ -82,7 +92,7 @@ async def receive_prompt(data: PromptRequest):
         if data.session_id not in llm_instances:
             error_msg = f"Session {data.session_id} not found. Please ensure the document was processed successfully."
             logger.error(error_msg)
-            return {"response": f"ERROR: {error_msg}"}
+            return JSONResponse(status_code=404, content={"response": f"ERROR: {error_msg}"})
         
         logger.info(f"Processing chat request for session {data.session_id}")
         response = llm_instances[data.session_id].prompt(data.message)
diff --git a/genAi/rag.py b/genAi/rag.py
@@ -3,7 +3,6 @@
 from langchain_community.document_loaders import PyMuPDFLoader, TextLoader
 from langchain_text_splitters import RecursiveCharacterTextSplitter
 from langchain_weaviate.vectorstores import WeaviateVectorStore
-from langchain_cohere import CohereEmbeddings
 from langchain_core.documents import Document
 from dotenv import load_dotenv
 import os
@@ -14,7 +13,6 @@
 # Setup shared embeddings model
 load_dotenv()
 embeddings_model = HuggingFaceEmbeddings(model_name="all-MiniLM-L6-v2")
-# embeddings_model_cohere = CohereEmbeddings(model="embed-english-light-v3.0", cohere_api_key=os.getenv("COHERE_API_KEY"))
 
 # Disable Huggingface's tokenizer parallelism (avoid deadlocks caused by process forking in langchain)
 os.environ["TOKENIZERS_PARALLELISM"] = "false"
diff --git a/genAi/requirements.txt b/genAi/requirements.txt
@@ -10,9 +10,9 @@ langchain-openai
 langchain-weaviate
 langchain-community
 langchain-text-splitters
-langchain-cohere
 pymupdf # for the PDF loader
 langchain_huggingface
 sentence-transformers
 requests
-langchain-core
+langchain-core
+prometheus-fastapi-instrumentator
diff --git a/monitoring/prometheus/prometheus.yml b/monitoring/prometheus/prometheus.yml
@@ -0,0 +1,16 @@
+global:
+  scrape_interval: 15s
+
+scrape_configs:
+  - job_name: 'prod'
+    static_configs:
+      - targets: ['genai:8081']
+        labels:
+            app: "genai-server"
+
+  # For dev only (when services are run manually)
+  - job_name: 'dev'
+    static_configs:
+      - targets: ['host.docker.internal:8000'] # genai
+        labels:
+            app: "genai-server"