Refactor: Move scheme imports to common and update Dockerfile + update judge to latest changes

saichandrapandraju · saichandrapandraju · commit b6bf3d88fc1d · 2025-08-07T17:52:42.000-04:00
diff --git a/detectors/Dockerfile.judge b/detectors/Dockerfile.judge
@@ -21,7 +21,6 @@ RUN echo "$CACHEBUST"
 COPY ./common /app/detectors/common
 COPY ./llm_judge/app.py /app/detectors/llm_judge/app.py
 COPY ./llm_judge/detector.py /app/detectors/llm_judge/detector.py
-COPY ./llm_judge/scheme.py /app/detectors/llm_judge/scheme.py
 RUN touch /app/detectors/llm_judge/__init__.py
 
 EXPOSE 8000
diff --git a/detectors/common/scheme.py b/detectors/common/scheme.py
@@ -1,5 +1,5 @@
 from enum import Enum
-from typing import Dict, List, Optional
+from typing import Any, Dict, List, Optional
 
 from pydantic import BaseModel, Field, RootModel
 
@@ -134,6 +134,7 @@ class ContentAnalysisResponse(BaseModel):
         description="Optional field providing evidences for the provided detection",
         default=None,
     )
+    metadata: Optional[Dict[str, Any]] = Field(default_factory=dict, description="Additional metadata from evaluation")
 
 
 class ContentsAnalysisResponse(RootModel):
@@ -145,3 +146,27 @@ class ContentsAnalysisResponse(RootModel):
 class Error(BaseModel):
     code: int
     message: str
+
+class MetricsListResponse(BaseModel):
+    """Response for listing available metrics."""
+    metrics: List[str] = Field(description="List of available metric names")
+    total: int = Field(description="Total number of available metrics")
+
+class GenerationAnalysisHttpRequest(BaseModel):
+    prompt: str = Field(description="Prompt is the user input to the LLM", example="What do you think about the future of AI?")
+    generated_text: str = Field(description="Generated response from the LLM", example="The future of AI is bright but we need to be careful about the risks.")
+    detector_params: Optional[Dict[str, Any]] = Field(
+        default_factory=dict, 
+        description="Detector parameters for evaluation (e.g., metric, criteria, etc.)",
+        example={"metric": "safety"}
+    )
+
+class GenerationAnalysisResponse(BaseModel):
+    detection: str = Field(example="safe")
+    detection_type: str = Field(example="llm_judge")
+    score: float = Field(example=0.8)
+    evidences: Optional[List[EvidenceObj]] = Field(
+        description="Optional field providing evidences for the provided detection",
+        default=[],
+    )
+    metadata: Optional[Dict[str, Any]] = Field(default_factory=dict, description="Additional metadata from evaluation")
diff --git a/detectors/llm_judge/app.py b/detectors/llm_judge/app.py
@@ -6,7 +6,7 @@
 
 from detectors.common.app import DetectorBaseAPI as FastAPI
 from detectors.llm_judge.detector import LLMJudgeDetector
-from detectors.llm_judge.scheme import (
+from detectors.common.scheme import (
     ContentAnalysisHttpRequest,
     ContentsAnalysisResponse,
     MetricsListResponse,
@@ -52,7 +52,7 @@ async def detector_content_analysis_handler(
     detector: LLMJudgeDetector = app.get_detector()
     if not detector:
         raise HTTPException(status_code=503, detail="Detector not found")
-    return ContentsAnalysisResponse(root=await detector.run(request))
+    return ContentsAnalysisResponse(root=await detector.analyze_content(request))
 
 @app.post(
     "/api/v1/text/generation",
diff --git a/detectors/llm_judge/detector.py b/detectors/llm_judge/detector.py
@@ -4,7 +4,7 @@
 from vllm_judge import Judge, EvaluationResult, BUILTIN_METRICS
 from vllm_judge.exceptions import MetricNotFoundError
 from detectors.common.app import logger
-from detectors.llm_judge.scheme import (
+from detectors.common.scheme import (
     ContentAnalysisHttpRequest,
     ContentAnalysisResponse,
     ContentsAnalysisResponse,
diff --git a/detectors/llm_judge/requirements.txt b/detectors/llm_judge/requirements.txt
@@ -1,2 +1 @@
-vllm-judge[jinja2]==0.1.6
-pyyaml==6.0.2
+vllm-judge[jinja2]==0.1.8
diff --git a/detectors/llm_judge/scheme.py b/detectors/llm_judge/scheme.py
diff --git a/tests/detectors/llm_judge/test_llm_judge_detector.py b/tests/detectors/llm_judge/test_llm_judge_detector.py
@@ -6,7 +6,7 @@
 
 # Import the detector components
 from detectors.llm_judge.detector import LLMJudgeDetector
-from detectors.llm_judge.scheme import (
+from detectors.common.scheme import (
     ContentAnalysisHttpRequest,
     ContentAnalysisResponse,
     GenerationAnalysisHttpRequest,
diff --git a/tests/detectors/llm_judge/test_performance.py b/tests/detectors/llm_judge/test_performance.py
@@ -5,7 +5,7 @@
 from unittest.mock import patch, AsyncMock
 
 from detectors.llm_judge.detector import LLMJudgeDetector
-from detectors.llm_judge.scheme import ContentAnalysisHttpRequest, GenerationAnalysisResponse
+from detectors.common.scheme import ContentAnalysisHttpRequest, GenerationAnalysisResponse
 from vllm_judge import EvaluationResult
 
 

Original file line number	Diff line number	Diff line change
`@@ -1,2 +1 @@`
`1`		`-vllm-judge[jinja2]==0.1.6`
`2`		`-pyyaml==6.0.2`
	`1`	`+vllm-judge[jinja2]==0.1.8`