Merge branch 'sfierro/specs_server_apis_use' into sfierro/specs_server_apis_python_sdk

sfierro · sfierro · commit 10e321a5a0f5 · 2026-01-07T19:27:42.000-08:00
diff --git a/app/desktop/studio_server/copilot_api.py b/app/desktop/studio_server/copilot_api.py
@@ -1,5 +1,3 @@
-from typing import Any
-
 from app.desktop.studio_server.api_client.kiln_ai_server_client.api.copilot import (
     clarify_spec_v1_copilot_clarify_spec_post,
     generate_batch_v1_copilot_generate_batch_post,
@@ -8,23 +6,43 @@
 from app.desktop.studio_server.api_client.kiln_ai_server_client.models import (
     ClarifySpecInput,
     ClarifySpecOutput,
-    ExampleWithFeedback,
     GenerateBatchInput,
     GenerateBatchOutput,
     HTTPValidationError,
     RefineSpecInput,
     RefineSpecOutput,
-    SpecInfo,
-    TaskInfo,
 )
 from app.desktop.studio_server.api_client.kiln_server_client import (
     get_authenticated_client,
 )
 from fastapi import FastAPI, HTTPException
+from kiln_ai.datamodel.datamodel_enums import ModelProviderName
 from kiln_ai.utils.config import Config
 from pydantic import BaseModel, Field
 
 
+# Pydantic input models (replacing attrs-based client models)
+class TaskInfoApi(BaseModel):
+    task_prompt: str
+    few_shot_examples: str | None = None
+
+
+class SpecInfoApi(BaseModel):
+    spec_fields: dict[str, str]
+    spec_field_current_values: dict[str, str]
+
+
+class ExampleWithFeedbackApi(BaseModel):
+    user_rating_exhibits_issue_correct: bool
+    input: str = Field(alias="input")
+    output: str
+    exhibits_issue: bool
+    user_feedback: str | None = None
+
+    class Config:
+        populate_by_name = True
+
+
 class ClarifySpecApiInput(BaseModel):
     task_prompt_with_few_shot: str
     task_input_schema: str
@@ -39,9 +57,9 @@ class RefineSpecApiInput(BaseModel):
     task_prompt_with_few_shot: str
     task_input_schema: str
     task_output_schema: str
-    task_info: TaskInfo
-    spec: SpecInfo
-    examples_with_feedback: list[ExampleWithFeedback]
+    task_info: TaskInfoApi
+    spec: SpecInfoApi
+    examples_with_feedback: list[ExampleWithFeedbackApi]
 
 
 class GenerateBatchApiInput(BaseModel):
@@ -54,6 +72,49 @@ class GenerateBatchApiInput(BaseModel):
     enable_scoring: bool = Field(default=False)
 
 
+class SubsampleBatchOutputItemApi(BaseModel):
+    input: str = Field(alias="input")
+    output: str
+    exhibits_issue: bool
+
+
+class ClarifySpecApiOutput(BaseModel):
+    examples_for_feedback: list[SubsampleBatchOutputItemApi]
+    model_id: str
+    model_provider: ModelProviderName
+    judge_prompt: str
+
+
+class SpecEditApi(BaseModel):
+    old_value: str
+    proposed_edit: str
+    reason_for_edit: str
+
+
+class RefineSpecApiOutput(BaseModel):
+    new_proposed_spec_edits: dict[str, SpecEditApi]
+    out_of_scope_feedback: str
+
+
+class SampleApi(BaseModel):
+    input: str = Field(alias="input")
+    output: str
+
+
+class ScoredSampleApi(BaseModel):
+    input: str = Field(alias="input")
+    output: str
+    exhibits_issue: bool
+    reasoning: str
+
+
+class GenerateBatchApiOutput(BaseModel):
+    data_by_topic: dict[str, list[SampleApi | ScoredSampleApi]]
+    topic_gen_prompt: str | None = None
+    input_gen_prompt: str | None = None
+    judge_prompt: str | None = None
+
+
 def _get_api_key() -> str:
     """Get the Kiln Copilot API key from config, raising an error if not set."""
     api_key = Config.shared().kiln_copilot_api_key
@@ -67,7 +128,7 @@ def _get_api_key() -> str:
 
 def connect_copilot_api(app: FastAPI):
     @app.post("/api/copilot/clarify_spec")
-    async def clarify_spec(input: ClarifySpecApiInput) -> dict[str, Any]:
+    async def clarify_spec(input: ClarifySpecApiInput) -> ClarifySpecApiOutput:
         api_key = _get_api_key()
         client = get_authenticated_client(api_key)
 
@@ -90,19 +151,19 @@ async def clarify_spec(input: ClarifySpecApiInput) -> dict[str, Any]:
             )
 
         if isinstance(result, ClarifySpecOutput):
-            return result.to_dict()
+            return ClarifySpecApiOutput.model_validate(result.to_dict())
 
         raise HTTPException(
             status_code=500,
             detail=f"Failed to clarify spec: Unexpected response type {type(result)}",
         )
 
     @app.post("/api/copilot/refine_spec")
-    async def refine_spec(input: RefineSpecApiInput) -> dict[str, Any]:
+    async def refine_spec(input: RefineSpecApiInput) -> RefineSpecApiOutput:
         api_key = _get_api_key()
         client = get_authenticated_client(api_key)
 
-        refine_input = RefineSpecInput(**input.model_dump())
+        refine_input = RefineSpecInput.from_dict(input.model_dump(by_alias=True))
 
         result = await refine_spec_v1_copilot_refine_spec_post.asyncio(
             client=client,
@@ -121,15 +182,15 @@ async def refine_spec(input: RefineSpecApiInput) -> dict[str, Any]:
             )
 
         if isinstance(result, RefineSpecOutput):
-            return result.to_dict()
+            return RefineSpecApiOutput.model_validate(result.to_dict())
 
         raise HTTPException(
             status_code=500,
             detail=f"Failed to refine spec: Unexpected response type {type(result)}",
         )
 
     @app.post("/api/copilot/generate_batch")
-    async def generate_batch(input: GenerateBatchApiInput) -> dict[str, Any]:
+    async def generate_batch(input: GenerateBatchApiInput) -> GenerateBatchApiOutput:
         api_key = _get_api_key()
         client = get_authenticated_client(api_key)
 
@@ -152,7 +213,7 @@ async def generate_batch(input: GenerateBatchApiInput) -> dict[str, Any]:
             )
 
         if isinstance(result, GenerateBatchOutput):
-            return result.to_dict()
+            return GenerateBatchApiOutput.model_validate(result.to_dict())
 
         raise HTTPException(
             status_code=500,
diff --git a/app/desktop/studio_server/test_copilot_api.py b/app/desktop/studio_server/test_copilot_api.py
@@ -1,15 +1,17 @@
-from unittest.mock import AsyncMock, patch
+from unittest.mock import AsyncMock, MagicMock, patch
 
 import pytest
-from app.desktop.studio_server.api_client.kiln_ai_server_client.models import (
+from app.desktop.studio_server.api_client.kiln_ai_server_client.models.clarify_spec_output import (
     ClarifySpecOutput,
+)
+from app.desktop.studio_server.api_client.kiln_ai_server_client.models.generate_batch_output import (
     GenerateBatchOutput,
-    GenerateBatchOutputDataByTopic,
+)
+from app.desktop.studio_server.api_client.kiln_ai_server_client.models.http_validation_error import (
     HTTPValidationError,
-    ModelProviderName,
+)
+from app.desktop.studio_server.api_client.kiln_ai_server_client.models.refine_spec_output import (
     RefineSpecOutput,
-    RefineSpecOutputNewProposedSpecEdits,
-    SubsampleBatchOutputItem,
 )
 from app.desktop.studio_server.copilot_api import connect_copilot_api
 from fastapi import FastAPI
@@ -101,18 +103,19 @@ def test_clarify_spec_no_api_key(self, client, clarify_spec_input):
             assert "API key not configured" in response.json()["detail"]
 
     def test_clarify_spec_success(self, client, clarify_spec_input, mock_api_key):
-        mock_output = ClarifySpecOutput(
-            examples_for_feedback=[
-                SubsampleBatchOutputItem(
-                    input_="test input",
-                    output="test output",
-                    exhibits_issue=False,
-                )
+        mock_output = MagicMock(spec=ClarifySpecOutput)
+        mock_output.to_dict.return_value = {
+            "examples_for_feedback": [
+                {
+                    "input": "test input",
+                    "output": "test output",
+                    "exhibits_issue": False,
+                }
             ],
-            model_id="gpt-4",
-            model_provider=ModelProviderName.OPENAI,
-            judge_prompt="Test judge prompt",
-        )
+            "model_id": "gpt-4",
+            "model_provider": "openai",
+            "judge_prompt": "Test judge prompt",
+        }
 
         with patch(
             "app.desktop.studio_server.copilot_api.clarify_spec_v1_copilot_clarify_spec_post.asyncio",
@@ -138,7 +141,8 @@ def test_clarify_spec_no_response(self, client, clarify_spec_input, mock_api_key
     def test_clarify_spec_validation_error(
         self, client, clarify_spec_input, mock_api_key
     ):
-        mock_error = HTTPValidationError(detail=[])
+        mock_error = MagicMock(spec=HTTPValidationError)
+        mock_error.to_dict.return_value = {"detail": []}
 
         with patch(
             "app.desktop.studio_server.copilot_api.clarify_spec_v1_copilot_clarify_spec_post.asyncio",
@@ -163,10 +167,11 @@ def test_refine_spec_no_api_key(self, client, refine_spec_input):
             assert "API key not configured" in response.json()["detail"]
 
     def test_refine_spec_success(self, client, refine_spec_input, mock_api_key):
-        mock_output = RefineSpecOutput(
-            new_proposed_spec_edits=RefineSpecOutputNewProposedSpecEdits(),
-            out_of_scope_feedback="No out of scope feedback",
-        )
+        mock_output = MagicMock(spec=RefineSpecOutput)
+        mock_output.to_dict.return_value = {
+            "new_proposed_spec_edits": {},
+            "out_of_scope_feedback": "No out of scope feedback",
+        }
 
         with patch(
             "app.desktop.studio_server.copilot_api.refine_spec_v1_copilot_refine_spec_post.asyncio",
@@ -192,7 +197,8 @@ def test_refine_spec_no_response(self, client, refine_spec_input, mock_api_key):
     def test_refine_spec_validation_error(
         self, client, refine_spec_input, mock_api_key
     ):
-        mock_error = HTTPValidationError(detail=[])
+        mock_error = MagicMock(spec=HTTPValidationError)
+        mock_error.to_dict.return_value = {"detail": []}
 
         with patch(
             "app.desktop.studio_server.copilot_api.refine_spec_v1_copilot_refine_spec_post.asyncio",
@@ -219,9 +225,8 @@ def test_generate_batch_no_api_key(self, client, generate_batch_input):
             assert "API key not configured" in response.json()["detail"]
 
     def test_generate_batch_success(self, client, generate_batch_input, mock_api_key):
-        mock_output = GenerateBatchOutput(
-            data_by_topic=GenerateBatchOutputDataByTopic(),
-        )
+        mock_output = MagicMock(spec=GenerateBatchOutput)
+        mock_output.to_dict.return_value = {"data_by_topic": {}}
 
         with patch(
             "app.desktop.studio_server.copilot_api.generate_batch_v1_copilot_generate_batch_post.asyncio",
@@ -252,7 +257,8 @@ def test_generate_batch_no_response(
     def test_generate_batch_validation_error(
         self, client, generate_batch_input, mock_api_key
     ):
-        mock_error = HTTPValidationError(detail=[])
+        mock_error = MagicMock(spec=HTTPValidationError)
+        mock_error.to_dict.return_value = {"detail": []}
 
         with patch(
             "app.desktop.studio_server.copilot_api.generate_batch_v1_copilot_generate_batch_post.asyncio",
@@ -269,9 +275,8 @@ def test_generate_batch_with_scoring(
         self, client, generate_batch_input, mock_api_key
     ):
         generate_batch_input["enable_scoring"] = True
-        mock_output = GenerateBatchOutput(
-            data_by_topic=GenerateBatchOutputDataByTopic(),
-        )
+        mock_output = MagicMock(spec=GenerateBatchOutput)
+        mock_output.to_dict.return_value = {"data_by_topic": {}}
 
         with patch(
             "app.desktop.studio_server.copilot_api.generate_batch_v1_copilot_generate_batch_post.asyncio",
diff --git a/app/web_ui/src/routes/(app)/specs/[project_id]/[task_id]/review_spec/+page.svelte b/app/web_ui/src/routes/(app)/specs/[project_id]/[task_id]/review_spec/+page.svelte
@@ -19,6 +19,9 @@
   import CheckCircleIcon from "$lib/ui/icons/check_circle_icon.svelte"
   import ExclaimCircleIcon from "$lib/ui/icons/exclaim_circle_icon.svelte"
   import SpecAnalyzingAnimation from "../spec_analyzing_animation.svelte"
+  import { client } from "$lib/api_client"
+  import { load_task } from "$lib/stores"
+  import { buildDefinitionFromProperties } from "../select_template/spec_templates"
 
   $: project_id = $page.params.project_id
   $: task_id = $page.params.task_id
@@ -65,9 +68,6 @@
   }
 
   onMount(async () => {
-    // Wait 3 seconds to simulate loading time
-    await new Promise((resolve) => setTimeout(resolve, 3000))
-
     await load_spec_data()
   })
 
@@ -84,33 +84,53 @@
         property_values = { ...formData.property_values }
         evaluate_full_trace = formData.evaluate_full_trace
 
-        // Generate mock review data (in a real implementation, this would come from an API)
-        review_rows = [
-          {
-            id: "1",
-            input: "User uploads a PDF document",
-            output: "Document successfully processed",
-            model_decision: "meets_spec",
-            meets_spec: null,
-            feedback: "",
-          },
-          {
-            id: "2",
-            input: "User tries to upload an invalid file",
-            output: "Error: Invalid file format",
-            model_decision: "fails_spec",
-            meets_spec: null,
-            feedback: "",
-          },
-          {
-            id: "3",
-            input: "User requests a summary of uploaded file",
-            output: "Summary generated successfully",
-            model_decision: "meets_spec",
-            meets_spec: null,
-            feedback: "",
+        // Load the task to get instruction and schemas
+        const task = await load_task(project_id, task_id)
+        if (!task) {
+          throw new Error("Failed to load task")
+        }
+
+        const spec_definition = buildDefinitionFromProperties(
+          spec_type,
+          property_values,
+        )
+
+        // TODO: Create a few shot prompt instead of basic prompt
+        // TODO: What should task input/output schemas be exactly? Especially for plaintext tasks?
+        const { data, error } = await client.POST("/api/copilot/clarify_spec", {
+          body: {
+            task_prompt_with_few_shot: task.instruction,
+            task_input_schema: task.input_json_schema
+              ? JSON.stringify(task.input_json_schema)
+              : "",
+            task_output_schema: task.output_json_schema
+              ? JSON.stringify(task.output_json_schema)
+              : "",
+            spec_rendered_prompt_template: spec_definition,
+            num_samples_per_topic: 10,
+            num_topics: 5,
+            num_exemplars: 10,
           },
-        ]
+        })
+
+        if (error) {
+          throw error
+        }
+
+        if (!data) {
+          throw new Error(
+            "Failed to analyze spec for review. Please try again.",
+          )
+        }
+
+        review_rows = data.examples_for_feedback.map((example, index) => ({
+          id: String(index + 1),
+          input: example.input,
+          output: example.output,
+          model_decision: example.exhibits_issue ? "fails_spec" : "meets_spec",
+          meets_spec: null,
+          feedback: "",
+        }))
 
         // Don't clear the stored data - keep it for back navigation
         // It will be cleared when the spec is successfully created