MigoXLab
diff --git a/‎backend/model/analysis.py‎
Lines changed: 4 additions & 0 deletions b/‎backend/model/analysis.py‎
Lines changed: 4 additions & 0 deletions
diff --git a/‎backend/service/analysis_service.py‎
Lines changed: 12 additions & 4 deletions b/‎backend/service/analysis_service.py‎
Lines changed: 12 additions & 4 deletions
diff --git a/‎backend/utils/prompt.py‎
Lines changed: 56 additions & 7 deletions b/‎backend/utils/prompt.py‎
Lines changed: 56 additions & 7 deletions
diff --git a/‎frontend/docs/MARKDOWN_OPTIMIZATION.md‎ b/‎frontend/docs/MARKDOWN_OPTIMIZATION.md‎
@@ -33,9 +33,13 @@ class AnalysisRequest(BaseModel):
 
     Attributes:
         task_id: The task ID to analyze.
+        language: The language for analysis prompt (en/zh).
     """
 
     eval_prompt: Optional[str] = Field(None, description="Custom evaluation prompt")
+    language: Optional[str] = Field(
+        "en", description="Language for analysis prompt (en/zh)"
+    )
 
 
 class AnalysisResponse(BaseModel):
 
@@ -138,6 +138,7 @@ async def analyze_task_svc(
                 ai_config.api_key,
                 json.dumps(test_config, ensure_ascii=False, indent=2),
                 json.dumps(key_metrics, ensure_ascii=False, indent=2),
+                analysis_request.language or "en",
             )
 
             # Check if analysis already exists for this task
@@ -197,7 +198,7 @@ async def analyze_task_svc(
                 task_id=task_id,
                 analysis_report="",
                 status="failed",
-                error_message="AI analysis failed. Please try again later.",
+                error_message="AI analysis failed. Please check the AI service configuration and try again.",
                 created_at="",
             )
 
@@ -274,7 +275,12 @@ async def get_analysis_svc(request: Request, task_id: str) -> GetAnalysisRespons
 
 
 async def _call_ai_service(
-    host: str, model: str, api_key: str, test_config: str, results: str
+    host: str,
+    model: str,
+    api_key: str,
+    test_config: str,
+    results: str,
+    language: str = "en",
 ) -> str:
     """
     Call AI service for analysis.
@@ -285,6 +291,7 @@ async def _call_ai_service(
         api_key: The API key for authentication.
         test_config: The test configuration data.
         results: The test results data.
+        language: The language for analysis prompt (en/zh).
 
     Returns:
         str: The analysis content.
@@ -298,9 +305,10 @@ async def _call_ai_service(
         "Authorization": f"Bearer {api_key}",
     }
 
-    from utils.prompt import ANALYSIS_PROMPT
+    from utils.prompt import get_analysis_prompt
 
-    prompt = ANALYSIS_PROMPT.format(test_config=test_config, results=results)
+    prompt_template = get_analysis_prompt(language)
+    prompt = prompt_template.format(test_config=test_config, results=results)
 
     data = {
         "model": model,
 
@@ -1,15 +1,15 @@
-ANALYSIS_PROMPT = """
+ANALYSIS_PROMPT_EN = """
     Analyze the LLM stress test configuration: {test_config} and performance results: {results}, then produce a concise, technical evaluation focused on the metrics below.
 
-    Rules
+    Rules:
     - First_token_latency assessment: Good (<1.00s), Moderate (1.00–2.00s), Poor (>2.00s).
     - Total_time assessment: Good (<60.00s), Moderate (60.00–180.00s), Poor (>180.00s).
    -  if Total_time is Poor, highlight how First_token_latency, Total_tps, and Avg_total_tokens influence Total_time.
     - failure_request: If there is a failed request, please indicate it in the `Identified Issues` and direct the user to check the task log for the specific error information.
     - If a metric is missing, display N/A (do not infer).
     - Keep output under 300 words, technical, and prioritize the most severe issues.
 
-    Required Output Format
+    Required Output Format:
     ### Performance Summary
     [1–3 sentence overall assessment, including UX judgment and the dominant bottleneck(s).]
 
@@ -20,13 +20,62 @@
     | First_token_latency(s) | X.XX | Good (<1.00s), Moderate (1.00–2.00s), Poor (>2.00s) | Good/Moderate/Poor |
     | Total_time(s) | X.XX | Good (<60.00s), Moderate (60.00–180.00s), Poor (>180.00s) | Good/Moderate/Poor |
     | RPS(req/s) | X.XX | — | — |
-    | Completion_tps(tokens/s) | X.XX | — | — |
-    | Total_tps(tokens/s) | X.XX | — | — |
-    | Avg_completion_tokens(tokens/req) | N | — | — |
-    | Avg_total_tokens(tokens/req) | N | — | — |
+    | Completion Tps(Tokens/s) | X.XX | — | — |
+    | Total Tps(Tokens/s) | X.XX | — | — |
+    | Avg_completion_tokens(Tokens/req) | N | — | — |
+    | Avg_total_tokens(Tokens/req) | N | — | — |
     |Failure_request| N | — | — |
 
     ### Identified Issues
     1. [Most critical issue with metric value and impact, if any]
     2. [Highlight failure_request, if any]
     """
+
+ANALYSIS_PROMPT_CN = """
+    请分析 LLM 压测配置：{test_config} 和性能结果：{results}，然后针对以下指标和要求生成一份简明的技术评估报告。
+
+    规则：
+    - First_token_latency 评估：良好（<1.00 秒），中等（1.00-2.00 秒），较差（>2.00 秒）。
+    - Total_time 评估：良好（<60.00 秒），中等（60.00-180.00 秒），较差（>180.00 秒）。
+    - 如果 Total_time 为“较差”，请重点说明和分析 First_token_latency、Total_tps 和 Avg_total_tokens 对 Total_time 的影响。
+    - Failure_request：如果存在失败的请求，请在“已识别问题”中指出。
+    - 如果缺少某个指标，则显示 N/A（不推断）。
+    - 输出内容应控制在 300 字以内，技术性强，并优先处理最严重的问题。
+
+    输出格式要求：
+    ### 性能总结
+    [1-3 句总体评估，包括用户体验判断和主要瓶颈。]
+
+    ### 关键指标
+    | 指标 | 值（平均值/最大值） | 阈值/目标 | 结论 |
+    |---|---|---|---|
+    | 并发用户数 | N | — | — |
+    | 首Token时延 (s) | X.XX | 良好 (<1.00 秒)、中等 (1.00-2.00 秒)、较差 (>2.00 秒) | 良好/中等/较差 |
+    | 总时间 (s) | X.XX | 良好 (<60.00 秒)、中等 (60.00-180.00 秒)、较差 (>180.00 秒) | 良好/中等/较差 |
+    | RPS（请求/秒）| X.XX | — | — |
+    | Completion Tokens 吞吐量（Tokens/秒）| X.XX | — | — |
+    | Total Tokens 吞吐量（Tokens/秒）| X.XX | — | — |
+    | 平均每请求输出Token数量（Tokens/请求）| N | — | — |
+    | 平均每请求总Token数量（Tokens/请求）| N | — | — |
+    | 失败请求| N | — | — |
+
+    ### 已识别的问题
+    1. [具有指标值和影响的最关键问题（如果有）]
+    2. [重点说明是否存在失败请求，并指引用户查看任务日志以获取具体的错误信息（如果有）]
+    """
+
+
+def get_analysis_prompt(language: str = "en") -> str:
+    """
+    根据语言获取相应的分析提示词
+
+    Args:
+        language: 语言代码，支持 'en'（英文）和 'zh'（中文）
+
+    Returns:
+        str: 相应语言的分析提示词
+    """
+    if language == "zh":
+        return ANALYSIS_PROMPT_CN
+    else:
+        return ANALYSIS_PROMPT_EN