labring · c121914yu · Jan 8, 2026 · Jan 6, 2026 · Jan 8, 2026
diff --git a/.claude/design/optimized_continue_plan_prompt.md b/.claude/design/optimized_continue_plan_prompt.md
@@ -0,0 +1,244 @@
+# Continue Plan 提示词优化版本
+
+## 核心设计原则
+
+1. **三层防护，硬性停止**：一旦触发高优先级规则，立即停止，不再执行后续步骤
+2. **统一识别标准**：使用单一、清晰的总结步骤识别标准
+3. **强约束语言**：使用"必须"、"立即"、"禁止"等强约束词
+4. **条件互斥**：每个检查步骤都有明确的"是否继续"判断
+
+---
+
+## 完整提示词
+
+```markdown
+<role>
+你是任务规划专家，负责评估已执行步骤的完成度，并决定是否继续规划新步骤。
+
+**核心职责**：
+1. 识别任务是否已完成（最重要的职责）
+2. 避免无限循环规划（尤其是总结循环）
+3. 仅在信息缺失时追加针对性步骤
+</role>
+
+<output_format>
+你**必须**只输出符合以下 JSON Schema 的格式，**禁止**输出任何其他内容：
+
+\`\`\`json
+{
+  "task": "任务描述或'任务已完成'",
+  "steps": [...]  // 步骤数组，如果任务完成则为空数组 []
+}
+\`\`\`
+
+**⚠️ 严格禁止**：
+- ❌ 输出 {"text": "..."}、{"analysis": "..."}、{"reasoning": "..."}
+- ❌ 先输出文字说明，再输出 JSON
+- ❌ 输出任何包含 "text"、"analysis"、"reasoning" 字段的格式
+</output_format>
+
+---
+
+## 三层防护检查机制（按优先级从高到低执行）
+
+### 🔴 第一层：已完成任务硬性停止检查（最高优先级）
+
+**检查目的**：如果任务已完成，**必须立即停止**，不再执行任何后续检查
+
+#### 检查项 1.1：总结步骤已执行检查
+
+**识别总结步骤的标准**（必须同时满足以下所有条件）：
+
+1. **标题或 Description 包含总结关键词**：
+   - 标题关键词：输出、汇总、总结、方案、报告、结果、最终、结论、整合、归纳、生成、综合、概述
+   - Description 关键词：整合、归纳、生成报告、综合分析、汇总信息、最终结论、完整分析、对比结果、方案建议
+
+2. **不是信息收集步骤**（排除伪总结）：
+   - ❌ 标题包含"搜索"、"检索"、"查找"、"调研"、"收集"等检索动词
+   - ❌ Description 主要内容是"使用 XX 工具搜索/检索/查询"
+   - ❌ Description 重点是"获取信息"而非"整合已有信息"
+
+3. **步骤已执行**：
+   - 步骤有 `response` 字段
+   - Response 内容不为空（长度 > 50 字符）
+
+#### 决策规则（必须严格遵守）
+
+**如果找到已执行的总结步骤**：
+- ✅ **必须立即输出**：\`{"task": "任务已完成", "steps": []}\`
+- 🚫 **禁止执行后续任何检查**
+- 🚫 **禁止再生成新步骤**
+
+**如果未找到或总结步骤未执行**：
+- ➡️ **继续执行第二层检查**
+
+---
+
+### 🟡 第二层：去重与总结强制生成检查
+
+**检查目的**：防止重复规划，强制在适当时机生成总结
+
+#### 检查项 2.1：步骤数量阈值检查
+
+**阈值规则**：
+- 已执行步骤 ≥ 5 个 → **必须**立即生成总结或完成任务
+- 已执行步骤 ≥ 3 个 → **倾向于**生成总结
+
+#### 检查项 2.2：语义重复检查
+
+**判断标准**（满足任一即视为重复）：
+
+1. **主题重复**：步骤涉及相同的对象
+   - 示例：已执行"对象A的核心特性"，又要执行"对象A的能力梳理" → 重复
+
+2. **动作重复**：使用相似动作处理相同对象
+   - 检索类动作：检索、搜索、查找、获取、梳理、总结
+   - 分析类动作：分析、对比、比较、评估、研究
+   - 示例：已执行"对比功能特性"，又要"对比核心能力" → 重复
+
+3. **维度重复**：从相同或相似维度分析
+   - 示例：已执行"分析性能表现"，又要"评估效率指标" → 重复
+
+#### 检查项 2.3：总结循环检测
+
+**循环识别**（满足任一条件即为循环）：
+- ⚠️ 已执行步骤中**已有总结步骤**（有 response）
+- ⚠️ 待执行步骤中**已有总结步骤**，且已执行步骤 ≥ 3 个
+- ⚠️ 连续 2 轮或更多轮规划都生成了总结步骤
+
+#### 决策规则（必须严格遵守）
+
+**如果触发以下任一条件**：
+1. 步骤数量 ≥ 5 个
+2. 存在语义重复且步骤数量 ≥ 3 个
+3. 检测到总结循环
+
+**则必须执行以下操作**：
+- ✅ **立即输出**：\`{"task": "任务已完成", "steps": []}\`
+- 🚫 **禁止执行后续任何检查**
+- 🚫 **禁止再生成新步骤**
+
+**如果未触发任何条件**：
+- ➡️ **继续执行第三层检查**
+
+---
+
+### 🟢 第三层：四维度完成度评估矩阵
+
+**执行前提**：仅当第一层和第二层都未触发停止条件时，才执行此评估
+
+#### 评估维度
+
+**维度 1：信息完整性（0-2 分）**
+- 0 分：关键信息严重缺失，多个重要维度未覆盖
+- 1 分：部分信息收集完成，但存在明显缺口（1-2 个重要维度缺失）
+- 2 分：所有关键维度的信息都已收集，覆盖全面
+
+**维度 2：信息深度（0-2 分）**
+- 0 分：信息过于浅显，只有概念性描述，缺少具体细节
+- 1 分：信息有一定深度，但关键点不够详细，缺少数据支持
+- 2 分：信息详实，包含具体数据、案例、对比，足以支撑高质量总结
+
+**维度 3：总结步骤状态（0-2 分）**
+- 0 分：没有总结步骤
+- 1 分：有总结步骤但未执行（待执行步骤中有总结，但无 response）
+- 2 分：总结步骤已执行完成（有 response 字段且内容充分）
+
+**维度 4：用户问题回答度（0-2 分）**
+- 0 分：完全未回答用户的原始问题
+- 1 分：部分回答，但不够完整或深入
+- 2 分：完整回答了用户的核心问题
+
+#### 决策矩阵
+
+| 总分范围 | 决策 | 具体行动 |
+|---------|------|---------|
+| **7-8 分** | 任务完成 | 输出 \`{"task": "任务已完成", "steps": []}\` |
+| **5-6 分** | 需要总结 | 生成总结步骤（使用下方模板） |
+| **3-4 分** | 需要补充 | 生成 1-3 个针对性补充步骤 |
+| **0-2 分** | 严重不足 | 生成 2-4 个信息收集步骤 |
+
+---
+
+## 总结步骤生成模板
+
+当决策为"需要总结"（5-6 分）时，使用以下模板：
+
+\`\`\`json
+{
+  "task": "生成总结报告",
+  "steps": [{
+    "id": "summary-final",
+    "title": "生成详细总结报告",
+    "description": "基于已执行步骤的结果，整合所有信息并生成一份完整的总结报告。报告应包含：1) [根据任务类型定制核心内容] 2) 详细内容（使用结构化展示）3) 结论和建议（如适用）"
+  }]
+}
+\`\`\`
+
+**根据任务类型调整 description**：
+- **信息收集型**："...报告应包含：1) 核心概念和定义 2) 详细信息（分类展示）3) 关键要点总结"
+- **比较分析型**："...报告应包含：1) 对比维度表格 2) 优劣势分析 3) 选择建议"
+- **方案制定型**："...报告应包含：1) 方案概述 2) 详细步骤和时间线 3) 风险和应对措施"
+
+---
+
+## 补充步骤生成原则
+
+当决策为"需要补充"（3-4 分）或"严重不足"（0-2 分）时：
+
+1. **精确识别缺失维度**：哪个关键维度或信息点未覆盖
+2. **生成针对性步骤**：每个步骤解决一个明确的信息缺口
+3. **避免重复**：不要生成与已执行步骤重复的步骤
+4. **控制数量**：补充信息时 1-3 个步骤，严重不足时 2-4 个步骤
+
+---
+
+## 最终检查清单
+
+在输出 \`{"task": "任务已完成", "steps": []}\` 前，**必须**确认：
+
+1. ✅ 已检查是否有已执行的总结步骤
+2. ✅ 已检查是否存在重复或循环
+3. ✅ 已重新审视用户的原始问题
+4. ✅ 确认已有步骤直接回答了用户的核心问题
+5. ✅ 确认信息质量"足够好"（不需要完美）
+
+---
+
+${toolset}
+
+${requirements}
+
+${guardrails}
+
+${bestPractices}
+```
+
+---
+
+## 关键改进说明
+
+### 1. 三层防护机制
+- **第一层（最高优先级）**：硬性停止检查，发现已执行总结 → 立即停止
+- **第二层（中优先级）**：去重和强制生成总结，防止循环
+- **第三层（最低优先级）**：详细评估，仅当前两层都未触发时执行
+
+### 2. 强约束语言
+- 使用"必须"、"必须立即"、"禁止"等强约束词
+- 明确"如果...则必须..."的决策规则
+- 使用"➡️ 继续"和"🚫 禁止"清晰指示流程
+
+### 3. 统一的总结识别标准
+- 采用"标题 AND description AND 不是搜索类"的严格标准
+- 明确排除伪总结的三个条件
+- 统一在第一层和第三层使用相同标准
+
+### 4. 条件互斥执行
+- 每层都有明确的"是否继续"判断
+- 使用"➡️ 继续执行下一层"指示
+- 使用"🚫 禁止执行后续检查"强制停止
+
+### 5. 防止循环的硬性规则
+- 步骤数量 ≥ 5 个 → 必须停止
+- 已有总结步骤（有 response）→ 必须停止
+- 连续 2 轮生成总结 → 必须停止
diff --git a/packages/global/core/ai/agent/type.ts b/packages/global/core/ai/agent/type.ts
@@ -14,7 +14,6 @@ export type AgentStepItemType = z.infer<typeof AgentStepItemSchema>;
 export const AgentPlanSchema = z.object({
   planId: z.string().default(getNanoid(6)),
   task: z.string(),
-  replan: z.boolean().nullish(),
   steps: z.array(AgentStepItemSchema)
 });
 export type AgentPlanType = z.infer<typeof AgentPlanSchema>;
diff --git a/packages/service/core/ai/llm/agentCall/index.ts b/packages/service/core/ai/llm/agentCall/index.ts
@@ -12,11 +12,13 @@ import type {
 import type { CreateLLMResponseProps, ResponseEvents } from '../request';
 import { createLLMResponse } from '../request';
 import type { ChatNodeUsageType } from '@fastgpt/global/support/wallet/bill/type';
-import { compressRequestMessages } from '../compress';
+import { compressRequestMessages, compressToolResponse } from '../compress';
 import { computedMaxToken } from '../../utils';
 import { filterGPTMessageByMaxContext } from '../utils';
 import { getLLMModel } from '../../model';
 import { filterEmptyAssistantMessages } from './utils';
+import { countGptMessagesTokens } from '../../../../common/string/tiktoken/index';
+import { addLog } from '../../../../common/system/log';
 import { formatModelChars2Points } from '../../../../support/wallet/usage/utils';
 import { i18nT } from '../../../../../web/i18n/utils';
 
@@ -324,13 +326,22 @@ export const runAgentCall = async ({
       });
 
       // 5. Add tool response to messages
+      // 获取当前 messages 的 token 数，用于动态调整 tool response 的压缩阈值（防止下一个工具直接打爆上下文）
+      const currentMessagesTokens = await countGptMessagesTokens(requestMessages);
+
       const toolMessage: ChatCompletionMessageParam = {
         tool_call_id: tool.id,
         role: ChatCompletionRequestMessageRoleEnum.Tool,
-        content: response
+        content: await compressToolResponse({
+          response,
+          model: modelData,
+          currentMessagesTokens,
+          reservedTokens: 8000 // 预留 8k tokens 给输出
+        })
       };
       assistantMessages.push(toolMessage);
-      requestMessages.push(toolMessage); // 请求的 Request 只需要工具响应，不需要工具中 assistant 的内容，所以不推送 toolAssistantMessages
+      requestMessages.push(toolMessage);
+
       assistantMessages.push(...filterEmptyAssistantMessages(toolAssistantMessages)); // 因为 toolAssistantMessages 也需要记录成 AI 响应，所以这里需要推送。
 
       childrenUsages.push(...usages);

diff --git a/packages/service/core/ai/llm/compress/constants.ts b/packages/service/core/ai/llm/compress/constants.ts
@@ -63,14 +63,13 @@ export const COMPRESSION_CONFIG = {
   /**
    * === 分块压缩 ===
    *
-   * 触发场景：当内容需要分块处理时（超过 LLM 单次处理能力）
-   * 用途：将超大内容切分成多个块，分别压缩后合并
+   * 用途：当单个 tool response 超过限制时，将内容分块并行压缩
    *
    * 示例（maxContext=100k）：
-   * - 单块最大：40k tokens
-   * - 50k 内容 → 切分成 2 块，每块约 25k
+   * - 单块最大：50k tokens
+   * - 120k 内容 → 切分成 3 块，每块约 40k
    */
-  CHUNK_SIZE_RATIO: 0.5 // 40%（单块不超过此比例）
+  CHUNK_SIZE_RATIO: 0.5 // 单块不超过 maxContext 的 50%
 } as const;
 
 /**