updating DOCKERFILE

moda20 · moda20 · commit efb2c75e5e71 · 2025-12-23T02:02:41.000+01:00
adding openAI embedding compatible api request
diff --git a/Dockerfile b/Dockerfile
@@ -1,3 +1,11 @@
+
+FROM python:3.10-slim AS builder
+
+# Install dependencies
+COPY app/requirements.txt .
+RUN pip install --prefix=/install --no-cache-dir -r requirements.txt
+
+
 FROM python:3.10-slim
 
 # Set environment variables
@@ -7,16 +15,12 @@ ENV MODEL_CACHE_DIR /app/model_cache
 
 # Create and set working directory
 WORKDIR /app
-
-# Install dependencies
-COPY app/requirements.txt .
-RUN pip install --no-cache-dir -r requirements.txt
-
 # Copy application code
-COPY app/main.py .
+COPY app ./app
 
+COPY --from=builder /install /usr/local
 # Expose the port the app runs on
 EXPOSE 8000
 
 # Command to run the application
-CMD ["uvicorn", "main:app", "--host", "0.0.0.0", "--port", "8000"]
+CMD ["uvicorn", "app.main:app", "--host", "0.0.0.0", "--port", "8000"]
diff --git a/app/embedding_service.py b/app/embedding_service.py
@@ -0,0 +1,142 @@
+import os
+import io
+from typing import Literal, Optional, Union
+
+import requests
+from PIL import Image
+from pydantic import BaseModel, Field
+from app.model_service import loadModel
+
+# --- Configuration ---
+MODEL_NAME = os.environ.get("MODEL_NAME", "clip-ViT-B-32")
+# TRANSFORMERS_CACHE is set via environment variable in compose.yml
+# and defaults to /app/model_cache in the Dockerfile
+MODEL_CACHE_DIR = os.environ.get("TRANSFORMERS_CACHE", "/app/model_cache")
+
+# --- Initialization ---
+default_model = loadModel(MODEL_NAME)
+
+# --- Pydantic Schemas ---
+class TextEmbedRequest(BaseModel):
+    texts: list[str]
+
+class ImageEmbedRequest(BaseModel):
+    image_urls: list[str]
+
+class EmbeddingResponse(BaseModel):
+    embeddings: list[list[float]]
+    model: str
+
+
+# --- OpenAI Embedding Response Schema ---
+class OpenAIEmbeddingRequest(BaseModel):
+    model: Optional[str] = Field(MODEL_NAME, example="text-embedding-ada-002")
+    input: Union[str, list[str]]
+    encoding_format: Optional[Literal["float"]] = "float"
+
+
+class Usage(BaseModel):
+    prompt_tokens: int
+    total_tokens: int
+
+
+class EmbeddingItem(BaseModel):
+    object: str = Field(..., example="embedding")
+    embedding: list[float]
+    index: int
+
+
+class OpenAIEmbeddingResponse(BaseModel):
+    object: str = Field(..., example="list")
+    data: list[EmbeddingItem]
+    model: str
+    usage: Usage
+
+
+# --- Utility Functions ---
+def get_image_from_url(url: str) -> Image.Image:
+    """Downloads an image from a URL and returns a PIL Image object."""
+    try:
+        response = requests.get(url, stream=True, timeout=10)
+        response.raise_for_status()
+        image = Image.open(io.BytesIO(response.content))
+        return image
+    except requests.exceptions.RequestException as e:
+        raise Exception(f"Failed to download image from {url}: {e}")
+    except Exception as e:
+        raise Exception(f"Failed to process image from {url}: {e}")
+
+def embed_text(texts: list[str]) -> EmbeddingResponse:
+    """Generates embeddings for a list of text strings."""
+    if default_model is None:
+        raise Exception("Model not loaded.")
+    
+    if not texts:
+        return EmbeddingResponse(embeddings=[], model=MODEL_NAME)
+    
+    # Encode the texts
+    embeddings = default_model.encode(texts, convert_to_numpy=True)
+    
+    # Convert numpy array to list of lists for JSON serialization
+    embeddings_list = embeddings.tolist()
+    
+    return EmbeddingResponse(embeddings=embeddings_list, model=MODEL_NAME)
+
+def embed_image(image_urls: list[str]) -> EmbeddingResponse:
+    """Generates embeddings for a list of image URLs."""
+    if default_model is None:
+        raise Exception("Model not loaded.")
+    
+    if not image_urls:
+        return EmbeddingResponse(embeddings=[], model=MODEL_NAME)
+    
+    images = []
+    for url in image_urls:
+        # Download and process image
+        image = get_image_from_url(url)
+        images.append(image)
+    
+    # Encode the images
+    # The model.encode method handles both text and image inputs for multimodal models
+    embeddings = default_model.encode(images, convert_to_numpy=True)
+    
+    # Convert numpy array to list of lists for JSON serialization
+    embeddings_list = embeddings.tolist()
+    
+    return EmbeddingResponse(embeddings=embeddings_list, model=MODEL_NAME)
+
+
+
+def open_ai_embed_image(image_urls: list[str], model_name: str) -> OpenAIEmbeddingResponse:
+    """Generates embeddings for a list of image URLs."""
+    if default_model is None and model_name is None:
+        raise Exception("Model not loaded, and no model is provided.")
+
+    if not image_urls:
+        return OpenAIEmbeddingResponse(object="list", data=[], model=model_name)
+
+    images = []
+    for url in image_urls:
+        # Download and process image
+        image = get_image_from_url(url)
+        images.append(image)
+
+    target_model = default_model
+    if model_name is not MODEL_NAME:
+        target_model = loadModel(model_name)
+
+    # Encode the images
+    # The model.encode method handles both text and image inputs for multimodal models
+    embeddings = target_model.encode(images, convert_to_numpy=True)
+
+    # Convert numpy array to list of lists for JSON serialization
+    embeddings_list = [
+        EmbeddingItem(
+            object="embedding",
+            embedding=vector,
+            index=i,
+        )
+        for i, vector in enumerate(embeddings.tolist())
+    ]
+
+    return OpenAIEmbeddingResponse(object="list", data=embeddings_list, model=model_name, usage=Usage(prompt_tokens=0, total_tokens=0))
diff --git a/app/main.py b/app/main.py
@@ -1,112 +1,50 @@
 import os
-import io
-import requests
-import numpy as np
-from PIL import Image
 from fastapi import FastAPI, HTTPException
-from pydantic import BaseModel
-from sentence_transformers import SentenceTransformer
-import torch
-
-# --- Configuration ---
-MODEL_NAME = os.environ.get("MODEL_NAME", "clip-ViT-B-32")
-# TRANSFORMERS_CACHE is set via environment variable in compose.yml
-# and defaults to /app/model_cache in the Dockerfile
-MODEL_CACHE_DIR = os.environ.get("TRANSFORMERS_CACHE", "/app/model_cache")
-
-# --- Initialization ---
-# Initialize the model globally to load it once on startup
-try:
-    # 1. Check if CUDA (GPU) is available
-    if torch.cuda.is_available():
-        device = 'cuda'
-        print("GPU is available. Using GPU.")
-    else:
-        device = 'cpu'
-        print("GPU not available. Using CPU.")
-    # The model will be downloaded to MODEL_CACHE_DIR if not present
-    model = SentenceTransformer(MODEL_NAME, cache_folder=MODEL_CACHE_DIR, device=device)
-    print(f"Successfully loaded model: {MODEL_NAME} from {MODEL_CACHE_DIR}")
-except Exception as e:
-    print(f"Error loading model {MODEL_NAME}: {e}")
-    # In a real service, you might want to exit or raise an error here
-    model = None
+from app.embedding_service import (
+    embed_text,
+    embed_image,
+    TextEmbedRequest,
+    ImageEmbedRequest,
+    EmbeddingResponse,
+    default_model,
+    MODEL_NAME, OpenAIEmbeddingResponse, OpenAIEmbeddingRequest, open_ai_embed_image
+)
 
 app = FastAPI(
     title="Multimodal Embedding Service",
     description=f"HTTP service for generating text and image embeddings using {MODEL_NAME}.",
     version="1.0.0"
 )
 
-# --- Pydantic Schemas ---
-class TextEmbedRequest(BaseModel):
-    texts: list[str]
-
-class ImageEmbedRequest(BaseModel):
-    image_urls: list[str]
-
-class EmbeddingResponse(BaseModel):
-    embeddings: list[list[float]]
-    model: str
-
-# --- Utility Functions ---
-def get_image_from_url(url: str) -> Image.Image:
-    """Downloads an image from a URL and returns a PIL Image object."""
-    try:
-        response = requests.get(url, stream=True, timeout=10)
-        response.raise_for_status()
-        image = Image.open(io.BytesIO(response.content))
-        return image
-    except requests.exceptions.RequestException as e:
-        raise HTTPException(status_code=400, detail=f"Failed to download image from {url}: {e}")
-    except Exception as e:
-        raise HTTPException(status_code=400, detail=f"Failed to process image from {url}: {e}")
-
 # --- Endpoints ---
 
 @app.get("/health")
 async def health_check():
-    if model is None:
+    if default_model is None:
         raise HTTPException(status_code=503, detail="Model not loaded.")
-    return {"status": "ok", "model": MODEL_NAME}
+    return {"status": "ok", "default_model": MODEL_NAME}
 
 @app.post("/embed/text", response_model=EmbeddingResponse)
-async def embed_text(request: TextEmbedRequest):
+async def embed_text_endpoint(request: TextEmbedRequest):
     """Generates embeddings for a list of text strings."""
-    if model is None:
-        raise HTTPException(status_code=503, detail="Model not loaded.")
-    
-    if not request.texts:
-        return EmbeddingResponse(embeddings=[], model=MODEL_NAME)
-
-    # Encode the texts
-    embeddings = model.encode(request.texts, convert_to_numpy=True)
-    
-    # Convert numpy array to list of lists for JSON serialization
-    embeddings_list = embeddings.tolist()
-    
-    return EmbeddingResponse(embeddings=embeddings_list, model=MODEL_NAME)
+    try:
+        return embed_text(request.texts)
+    except Exception as e:
+        raise HTTPException(status_code=500, detail=str(e))
 
 @app.post("/embed/image", response_model=EmbeddingResponse)
-async def embed_image(request: ImageEmbedRequest):
+async def embed_image_endpoint(request: ImageEmbedRequest):
     """Generates embeddings for a list of image URLs."""
-    if model is None:
-        raise HTTPException(status_code=503, detail="Model not loaded.")
-    
-    if not request.image_urls:
-        return EmbeddingResponse(embeddings=[], model=MODEL_NAME)
+    try:
+        return embed_image(request.image_urls)
+    except Exception as e:
+        raise HTTPException(status_code=500, detail=str(e))
 
-    images = []
-    for url in request.image_urls:
-        # Download and process image
-        image = get_image_from_url(url)
-        images.append(image)
 
-    # Encode the images
-    # The model.encode method handles both text and image inputs for multimodal models
-    embeddings = model.encode(images, convert_to_numpy=True)
-    
-    # Convert numpy array to list of lists for JSON serialization
-    embeddings_list = embeddings.tolist()
-    
-    return EmbeddingResponse(embeddings=embeddings_list, model=MODEL_NAME)
+@app.post("/v1/embeddings", response_model=OpenAIEmbeddingResponse)
+async def openai_embedding_endpoint(request: OpenAIEmbeddingRequest):
+    """Generates embeddings for a list of image URLs."""
+    try:
+        return open_ai_embed_image(image_urls=request.input, model_name=request.model)
+    except Exception as e:
+        raise HTTPException(status_code=500, detail=str(e))
diff --git a/app/model_service.py b/app/model_service.py
@@ -0,0 +1,27 @@
+import os
+
+import torch
+from sentence_transformers import SentenceTransformer
+DEFAULT_MODEL_NAME = os.environ.get("MODEL_NAME", "clip-ViT-B-32")
+MODEL_CACHE_DIR = os.environ.get("TRANSFORMERS_CACHE", "/app/model_cache")
+def loadModel(modelName: str):
+    # --- Initialization ---
+    final_model_name = modelName or DEFAULT_MODEL_NAME
+
+    # Initialize the model globally to load it once on startup
+    try:
+        # 1. Check if CUDA (GPU) is available
+        if torch.cuda.is_available():
+            device = 'cuda'
+            print("GPU is available. Using GPU.")
+        else:
+            device = 'cpu'
+            print("GPU not available. Using CPU.")
+        # The model will be downloaded to MODEL_CACHE_DIR if not present
+        model = SentenceTransformer(final_model_name, cache_folder=MODEL_CACHE_DIR, device=device)
+        print(f"Successfully loaded model: {final_model_name} from {MODEL_CACHE_DIR}")
+        return model
+    except Exception as e:
+        print(f"Error loading model {final_model_name}: {e}")
+        # In a real service, you might want to exit or raise an error here
+        model = None