ci fixes

mcp-release-bot · mcp-release-bot · commit 8ea626c9bbd9 · 2025-09-25T10:23:05.000+03:00
diff --git a/src/mcp_as_a_judge/core/server_helpers.py b/src/mcp_as_a_judge/core/server_helpers.py
@@ -17,6 +17,7 @@
 from mcp_as_a_judge.core.constants import MAX_TOKENS
 from mcp_as_a_judge.core.logging_config import get_logger
 from mcp_as_a_judge.llm.llm_integration import load_llm_config_from_env
+from mcp_as_a_judge.models import JudgeResponse
 
 logger = get_logger(__name__)
 
@@ -85,7 +86,7 @@ def extract_json_from_response(response_text: str) -> str:
 def _coerce_markdown_judge_response(
     raw_response: str,
     task_metadata: Any,
-) -> "JudgeResponse" | None:
+) -> JudgeResponse | None:
     """Attempt to coerce a markdown-style judge response into a JudgeResponse."""
 
     from mcp_as_a_judge.models.enhanced_responses import JudgeResponse
@@ -225,11 +226,18 @@ async def repair_judge_response_from_text(
 ) -> JudgeResponse | None:
     """Attempt to coerce a non-JSON judge response into the expected schema."""
 
-    from mcp_as_a_judge.models import JudgeResponseRepairUserVars, SystemVars
-    from mcp_as_a_judge.models.enhanced_responses import JudgeResponse
+    import mcp_as_a_judge.models as models_module
     from mcp_as_a_judge.messaging.llm_provider import llm_provider
+    from mcp_as_a_judge.models import SystemVars
+    from mcp_as_a_judge.models.enhanced_responses import JudgeResponse
     from mcp_as_a_judge.prompting.loader import create_separate_messages
 
+    # Import directly from models.py to avoid mypy issues with dynamic imports
+    judge_response_repair_user_vars_class = getattr(models_module, 'JudgeResponseRepairUserVars', None)
+    if judge_response_repair_user_vars_class is None:
+        logger.error("JudgeResponseRepairUserVars not available")
+        return None
+
     try:
         if hasattr(task_metadata, "model_dump"):
             metadata_payload = task_metadata.model_dump(
@@ -239,7 +247,7 @@ async def repair_judge_response_from_text(
             metadata_payload = task_metadata
         else:
             metadata_payload = json.loads(json.dumps(task_metadata, default=str))
-    except Exception as serialization_error:  # noqa: BLE001
+    except Exception as serialization_error:
         logger.warning(
             "Falling back to empty task metadata during judge response repair: %s",
             serialization_error,
@@ -252,7 +260,7 @@ async def repair_judge_response_from_text(
         response_schema=response_schema,
         max_tokens=MAX_TOKENS,
     )
-    user_vars = JudgeResponseRepairUserVars(
+    user_vars = judge_response_repair_user_vars_class(
         raw_response=raw_response,
         task_metadata_json=task_metadata_json,
     )
@@ -271,7 +279,7 @@ async def repair_judge_response_from_text(
             max_tokens=MAX_TOKENS,
             prefer_sampling=True,
         )
-    except Exception as send_error:  # noqa: BLE001
+    except Exception as send_error:
         logger.error("Repair request for judge response failed: %s", send_error)
         return None
 
@@ -418,12 +426,12 @@ async def validate_research_quality(
     Returns:
         dict with basic judge fields if research is insufficient, None if research is adequate
     """
+    from mcp_as_a_judge.messaging.llm_provider import llm_provider
     from mcp_as_a_judge.models import (
         ResearchValidationResponse,
         ResearchValidationUserVars,
         SystemVars,
     )
-    from mcp_as_a_judge.messaging.llm_provider import llm_provider
     from mcp_as_a_judge.prompting.loader import create_separate_messages
 
     # Create system and user messages for research validation
@@ -540,13 +548,13 @@ async def evaluate_coding_plan(
     Returns:
         JudgeResponse with evaluation results
     """
+    from mcp_as_a_judge.messaging.llm_provider import llm_provider
     from mcp_as_a_judge.models import (
         DesignPattern,
         JudgeCodingPlanUserVars,
         SystemVars,
     )
     from mcp_as_a_judge.models.enhanced_responses import JudgeResponse
-    from mcp_as_a_judge.messaging.llm_provider import llm_provider
     from mcp_as_a_judge.prompting.loader import create_separate_messages
 
     # Extract the latest workflow guidance from conversation history
@@ -874,12 +882,12 @@ async def validate_test_output(
         return False
 
     try:
+        from mcp_as_a_judge.messaging.llm_provider import llm_provider
         from mcp_as_a_judge.models import (
             SystemVars,
             TestOutputValidationResponse,
             TestOutputValidationUserVars,
         )
-        from mcp_as_a_judge.messaging.llm_provider import llm_provider
         from mcp_as_a_judge.prompting.loader import create_separate_messages
 
         # Create system and user messages for test output validation
diff --git a/src/mcp_as_a_judge/models/__init__.py b/src/mcp_as_a_judge/models/__init__.py
@@ -18,16 +18,6 @@
 if TYPE_CHECKING:
     from mcp_as_a_judge.workflow.workflow_guidance import WorkflowGuidance
 
-
-def rebuild_plan_approval_model() -> None:
-    """Rebuild PlanApprovalResult model to resolve forward references."""
-    try:
-        from mcp_as_a_judge.workflow.workflow_guidance import WorkflowGuidance  # noqa: F401
-        PlanApprovalResult.model_rebuild()
-    except Exception:
-        # Ignore rebuild errors - they're not critical for functionality
-        pass
-
 # Enhanced response models for workflow v3
 from .enhanced_responses import (
     EnhancedResponseFactory,
@@ -39,8 +29,24 @@ def rebuild_plan_approval_model() -> None:
     TaskAnalysisResult,
     TaskCompletionResult,
 )
+
+# Import models
 from .task_metadata import RequirementsVersion, TaskMetadata, TaskState
 
+
+def rebuild_plan_approval_model() -> None:
+    """Rebuild PlanApprovalResult model to resolve forward references."""
+    try:
+        from mcp_as_a_judge.workflow.workflow_guidance import (
+            WorkflowGuidance,  # noqa: F401
+        )
+        PlanApprovalResult.model_rebuild()
+    except Exception as e:
+        # Ignore rebuild errors - they're not critical for functionality
+        import logging
+        logging.debug(f"Model rebuild failed (non-critical): {e}")
+
+
 __all__ = [
     "DynamicSchemaUserVars",
     "ElicitationFallbackUserVars",
diff --git a/src/mcp_as_a_judge/models/enhanced_responses.py b/src/mcp_as_a_judge/models/enhanced_responses.py
@@ -66,8 +66,8 @@ class FileReview(TrimmedBaseModel):
         ),
         description="ALWAYS current state of task metadata after operation",
     )
-    workflow_guidance: "WorkflowGuidance" = Field(
-        default_factory=lambda: None,  # Will be set dynamically
+    workflow_guidance: "WorkflowGuidance | None" = Field(
+        default=None,  # Will be set dynamically
         description="LLM-generated next steps and instructions from shared method",
     )
 
@@ -196,13 +196,16 @@ def rebuild_models() -> None:
     WorkflowGuidance is available for forward reference resolution.
     """
     try:
-        from mcp_as_a_judge.workflow.workflow_guidance import WorkflowGuidance  # noqa: F401
+        from mcp_as_a_judge.workflow.workflow_guidance import (  # noqa: F401
+            WorkflowGuidance,
+        )
 
         TaskAnalysisResult.model_rebuild()
         JudgeResponse.model_rebuild()
         TaskCompletionResult.model_rebuild()
         ObstacleResult.model_rebuild()
         MissingRequirementsResult.model_rebuild()
-    except Exception:
+    except Exception as e:
         # Ignore rebuild errors - they're not critical for functionality
-        pass
+        import logging
+        logging.debug(f"Enhanced model rebuild failed (non-critical): {e}")
diff --git a/src/mcp_as_a_judge/server.py b/src/mcp_as_a_judge/server.py
@@ -75,13 +75,14 @@
 
 # Rebuild Pydantic models early to resolve forward references before tool registration
 try:
-    from mcp_as_a_judge.models.enhanced_responses import rebuild_models
     from mcp_as_a_judge.models import rebuild_plan_approval_model
+    from mcp_as_a_judge.models.enhanced_responses import rebuild_models
     rebuild_models()
     rebuild_plan_approval_model()
-except Exception:
+except Exception as e:
     # Non-critical - server can still function without rebuilt models
-    pass
+    import logging
+    logging.debug(f"Server model rebuild failed (non-critical): {e}")
 initialize_llm_configuration()
 
 config = load_config()
@@ -427,10 +428,26 @@ async def request_plan_approval(
         )
 
         if not task_metadata:
+            # Create a minimal task metadata for error response
+            from mcp_as_a_judge.models.task_metadata import TaskSize
+            from mcp_as_a_judge.workflow.workflow_guidance import WorkflowGuidance
+            error_task_metadata = TaskMetadata(
+                title="Error Task",
+                description="Task not found",
+                task_size=TaskSize.M
+            )
+            error_guidance = WorkflowGuidance(
+                next_tool="set_coding_task",
+                reasoning="Task not found, need to create a new task",
+                preparation_needed=["Create a new task"],
+                guidance="Call set_coding_task to create a new task"
+            )
             return PlanApprovalResult(
                 approved=False,
                 user_feedback="Task not found. Please call set_coding_task first.",
-                next_action="Call set_coding_task to create a new task"
+                next_action="Call set_coding_task to create a new task",
+                current_task_metadata=error_task_metadata,
+                workflow_guidance=error_guidance
             )
 
         # Update task state to PLAN_PENDING_APPROVAL
@@ -454,25 +471,25 @@ async def request_plan_approval(
 """
 
         if research_urls:
-            plan_presentation += f"\n## Research Sources\n"
+            plan_presentation += "\n## Research Sources\n"
             for url in research_urls:
                 plan_presentation += f"- {url}\n"
 
         if problem_domain:
             plan_presentation += f"\n## Problem Domain\n{problem_domain}\n"
 
         if problem_non_goals:
-            plan_presentation += f"\n## Non-Goals\n"
+            plan_presentation += "\n## Non-Goals\n"
             for goal in problem_non_goals:
                 plan_presentation += f"- {goal}\n"
 
         if library_plan:
-            plan_presentation += f"\n## Library Plan\n"
+            plan_presentation += "\n## Library Plan\n"
             for lib in library_plan:
                 plan_presentation += f"- **{lib.get('purpose', 'Unknown')}**: {lib.get('selection', 'Unknown')} ({lib.get('source', 'Unknown')})\n"
 
         if internal_reuse_components:
-            plan_presentation += f"\n## Internal Components to Reuse\n"
+            plan_presentation += "\n## Internal Components to Reuse\n"
             for comp in internal_reuse_components:
                 plan_presentation += f"- **{comp.get('path', 'Unknown')}**: {comp.get('purpose', 'Unknown')}\n"
 
@@ -494,10 +511,18 @@ async def request_plan_approval(
         )
 
         if not elicitation_result.success:
+            error_guidance = WorkflowGuidance(
+                next_tool="request_plan_approval",
+                reasoning="Failed to get user input for plan approval",
+                preparation_needed=["Check elicitation system", "Retry plan approval"],
+                guidance="Retry plan approval or proceed without user input"
+            )
             return PlanApprovalResult(
                 approved=False,
                 user_feedback="Failed to get user input: " + elicitation_result.message,
-                next_action="Retry plan approval or proceed without user input"
+                next_action="Retry plan approval or proceed without user input",
+                current_task_metadata=task_metadata,
+                workflow_guidance=error_guidance
             )
 
         # Process user response
@@ -665,15 +690,17 @@ async def request_plan_approval(
 
         # Try to get task metadata for error response
         try:
-            from mcp_as_a_judge.tasks.manager import load_task_metadata_from_history
             from mcp_as_a_judge.models.task_metadata import TaskSize
-            error_task_metadata = await load_task_metadata_from_history(task_id, conversation_service)
-            if not error_task_metadata:
+            from mcp_as_a_judge.tasks.manager import load_task_metadata_from_history
+            error_task_metadata_maybe = await load_task_metadata_from_history(task_id, conversation_service)
+            if not error_task_metadata_maybe:
                 error_task_metadata = TaskMetadata(
                     title="Error Task",
                     description="Error occurred during plan approval",
                     task_size=TaskSize.M
                 )
+            else:
+                error_task_metadata = error_task_metadata_maybe
         except Exception:
             from mcp_as_a_judge.models.task_metadata import TaskSize
             error_task_metadata = TaskMetadata(
diff --git a/tests/test_json_extraction.py b/tests/test_json_extraction.py
@@ -18,7 +18,7 @@
     )
 
 if "tenacity" not in sys.modules:
-    def _retry_stub(*args, **kwargs):  # noqa: ANN001
+    def _retry_stub(*args, **kwargs):
         def decorator(func):
             return func
 
@@ -51,10 +51,10 @@ class WorkflowGuidance(BaseModel):
         design_patterns_enforcement: bool | None = None
         plan_required_fields: list[dict] = Field(default_factory=list)
 
-    def _generate_plan_required_fields(*_, **__):  # noqa: ANN002,ANN003
+    def _generate_plan_required_fields(*_, **__):
         return []
 
-    def calculate_next_stage(*_, **__):  # noqa: ANN002,ANN003
+    def calculate_next_stage(*_, **__):
         return WorkflowGuidance()
 
     workflow_guidance_module.WorkflowGuidance = WorkflowGuidance
@@ -76,8 +76,10 @@ def calculate_next_stage(*_, **__):  # noqa: ANN002,ANN003
     extract_json_from_response,
 )
 from mcp_as_a_judge.models import JudgeResponse, ResearchValidationResponse
+from mcp_as_a_judge.models.enhanced_responses import (
+    rebuild_models as rebuild_enhanced_models,
+)
 from mcp_as_a_judge.models.task_metadata import TaskMetadata, TaskSize
-from mcp_as_a_judge.models.enhanced_responses import rebuild_models as rebuild_enhanced_models
 
 rebuild_enhanced_models()
 
diff --git a/tests/test_task_sizing.py b/tests/test_task_sizing.py
@@ -213,7 +213,7 @@ async def test_workflow_guidance_includes_task_size(self):
     @pytest.mark.asyncio
     async def test_small_task_follows_unified_workflow(self):
         """Test that XS/S tasks follow unified workflow with planning."""
-        from unittest.mock import AsyncMock, MagicMock
+        from unittest.mock import AsyncMock, MagicMock, patch
 
         # Create a small task in CREATED state
         task = TaskMetadata(
@@ -229,22 +229,36 @@ async def test_small_task_follows_unified_workflow(self):
         mock_conversation_service.load_filtered_context_for_enrichment = AsyncMock(return_value=[])
         mock_conversation_service.format_conversation_history_as_json_array = MagicMock(return_value=[])
 
-        # Calculate next stage
-        guidance = await calculate_next_stage(
-            task_metadata=task,
-            current_operation="set_coding_task",
-            conversation_service=mock_conversation_service,
-            ctx=None,
-        )
+        # Mock the LLM provider to return a proper workflow guidance response
+        mock_llm_response = """
+        {
+            "next_tool": "judge_coding_plan",
+            "reasoning": "Small task requires planning phase as part of unified workflow",
+            "preparation_needed": ["Create implementation plan", "Review requirements"],
+            "guidance": "Proceed with planning phase for this small task"
+        }
+        """
 
-        # Verify that small tasks now follow unified workflow with planning
-        # The guidance should provide a clear next_tool (not None)
-        assert guidance.next_tool is not None
-        # Should mention planning or judge_coding_plan for unified workflow
-        assert (
-            "plan" in guidance.reasoning.lower()
-            or "judge_coding_plan" in str(guidance.next_tool).lower()
-        )
+        with patch('mcp_as_a_judge.messaging.llm_provider.llm_provider.send_message_with_fallback',
+                   new_callable=AsyncMock) as mock_send:
+            mock_send.return_value = mock_llm_response
+
+            # Calculate next stage
+            guidance = await calculate_next_stage(
+                task_metadata=task,
+                current_operation="set_coding_task",
+                conversation_service=mock_conversation_service,
+                ctx=None,
+            )
+
+            # Verify that small tasks now follow unified workflow with planning
+            # The guidance should provide a clear next_tool (not None)
+            assert guidance.next_tool is not None
+            # Should mention planning or judge_coding_plan for unified workflow
+            assert (
+                "plan" in guidance.reasoning.lower()
+                or "judge_coding_plan" in str(guidance.next_tool).lower()
+            )
 
     @pytest.mark.asyncio
     async def test_large_task_requires_planning(self):