openai
diff --git a/‎examples/Optimize Prompts.ipynb‎
Lines changed: 136 additions & 132 deletions b/‎examples/Optimize Prompts.ipynb‎
Lines changed: 136 additions & 132 deletions
diff --git a/‎images/optimizepromptfig3.png‎
60.4 KB b/‎images/optimizepromptfig3.png‎
60.4 KB
@@ -67,7 +67,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 31,
+   "execution_count": null,
    "metadata": {},
    "outputs": [],
    "source": [
@@ -79,7 +79,7 @@
     "from enum import Enum\n",
     "from typing import Any, List, Dict\n",
     "from pydantic import BaseModel, Field\n",
-    "from agents import Agent, Runner, set_default_openai_client\n",
+    "from agents import Agent, Runner, set_default_openai_client, trace\n",
     "\n",
     "openai_client: AsyncOpenAI | None = None\n",
     "\n",
@@ -384,99 +384,95 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "## 4. Using Evaluations to Arrive at these Agents\n",
+    "## 4. Using Evaluations to Arrive at These Agents\n",
     "\n",
     "Let's see how we used OpenAI Evals to tune agent instructions and pick the correct model to use. In order to do so we constructed a set of golden examples: each one contains original messages (developer message + user/assistant message) and the changes our optimization workflow should make. Here are two example of golden pairs that we used:"
    ]
   },
   {
    "cell_type": "code",
    "execution_count": null,
-   "metadata": {
-    "vscode": {
-     "languageId": "javascript"
-    }
-   },
+   "metadata": {},
    "outputs": [],
    "source": [
     "[\n",
-    "    {\n",
-    "      \"focus\": \"contradiction_issues\",\n",
-    "      \"input_payload\": {\n",
-    "        \"developer_message\": \"Always answer in **English**.\\nNunca respondas en inglés.\",\n",
-    "        \"messages\": [\n",
-    "          {\n",
-    "            \"role\": \"user\",\n",
-    "            \"content\": \"¿Qué hora es?\"\n",
-    "          }\n",
-    "        ]\n",
-    "      },\n",
-    "      \"golden_output\": {\n",
-    "        \"changes\": true,\n",
-    "        \"new_developer_message\": \"Always answer **in English**.\",\n",
-    "        \"new_messages\": [\n",
-    "          {\n",
-    "            \"role\": \"user\",\n",
-    "            \"content\": \"¿Qué hora es?\"\n",
-    "          }\n",
-    "        ],\n",
-    "        \"contradiction_issues\": \"Developer message simultaneously insists on English and forbids it.\",\n",
-    "        \"few_shot_contradiction_issues\": \"\",\n",
-    "        \"format_issues\": \"\",\n",
-    "        \"general_improvements\": \"\"\n",
-    "      }\n",
+    "  {\n",
+    "    \"focus\": \"contradiction_issues\",\n",
+    "    \"input_payload\": {\n",
+    "      \"developer_message\": \"Always answer in **English**.\\nNunca respondas en inglés.\",\n",
+    "      \"messages\": [\n",
+    "        {\n",
+    "          \"role\": \"user\",\n",
+    "          \"content\": \"¿Qué hora es?\"\n",
+    "        }\n",
+    "      ]\n",
     "    },\n",
-    "    {\n",
-    "      \"focus\": \"few_shot_contradiction_issues\",\n",
-    "      \"input_payload\": {\n",
-    "        \"developer_message\": \"Respond with **only 'yes' or 'no'** – no explanations.\",\n",
-    "        \"messages\": [\n",
-    "          {\n",
-    "            \"role\": \"user\",\n",
-    "            \"content\": \"Is the sky blue?\"\n",
-    "          },\n",
-    "          {\n",
-    "            \"role\": \"assistant\",\n",
-    "            \"content\": \"Yes, because wavelengths …\"\n",
-    "          },\n",
-    "          {\n",
-    "            \"role\": \"user\",\n",
-    "            \"content\": \"Is water wet?\"\n",
-    "          },\n",
-    "          {\n",
-    "            \"role\": \"assistant\",\n",
-    "            \"content\": \"Yes.\"\n",
-    "          }\n",
-    "        ]\n",
-    "      },\n",
-    "      \"golden_output\": {\n",
-    "        \"changes\": true,\n",
-    "        \"new_developer_message\": \"Respond with **only** the single word \\\"yes\\\" or \\\"no\\\".\",\n",
-    "        \"new_messages\": [\n",
-    "          {\n",
-    "            \"role\": \"user\",\n",
-    "            \"content\": \"Is the sky blue?\"\n",
-    "          },\n",
-    "          {\n",
-    "            \"role\": \"assistant\",\n",
-    "            \"content\": \"yes\"\n",
-    "          },\n",
-    "          {\n",
-    "            \"role\": \"user\",\n",
-    "            \"content\": \"Is water wet?\"\n",
-    "          },\n",
-    "          {\n",
-    "            \"role\": \"assistant\",\n",
-    "            \"content\": \"yes\"\n",
-    "          }\n",
-    "        ],\n",
-    "        \"contradiction_issues\": \"\",\n",
-    "        \"few_shot_contradiction_issues\": \"Assistant examples include explanations despite instruction not to.\",\n",
-    "        \"format_issues\": \"\",\n",
-    "        \"general_improvements\": \"\"\n",
-    "      }\n",
+    "    \"golden_output\": {\n",
+    "      \"changes\": True,\n",
+    "      \"new_developer_message\": \"Always answer **in English**.\",\n",
+    "      \"new_messages\": [\n",
+    "        {\n",
+    "          \"role\": \"user\",\n",
+    "          \"content\": \"¿Qué hora es?\"\n",
+    "        }\n",
+    "      ],\n",
+    "      \"contradiction_issues\": \"Developer message simultaneously insists on English and forbids it.\",\n",
+    "      \"few_shot_contradiction_issues\": \"\",\n",
+    "      \"format_issues\": \"\",\n",
+    "      \"general_improvements\": \"\"\n",
     "    }\n",
-    "  ]"
+    "  },\n",
+    "  {\n",
+    "    \"focus\": \"few_shot_contradiction_issues\",\n",
+    "    \"input_payload\": {\n",
+    "      \"developer_message\": \"Respond with **only 'yes' or 'no'** – no explanations.\",\n",
+    "      \"messages\": [\n",
+    "        {\n",
+    "          \"role\": \"user\",\n",
+    "          \"content\": \"Is the sky blue?\"\n",
+    "        },\n",
+    "        {\n",
+    "          \"role\": \"assistant\",\n",
+    "          \"content\": \"Yes, because wavelengths …\"\n",
+    "        },\n",
+    "        {\n",
+    "          \"role\": \"user\",\n",
+    "          \"content\": \"Is water wet?\"\n",
+    "        },\n",
+    "        {\n",
+    "          \"role\": \"assistant\",\n",
+    "          \"content\": \"Yes.\"\n",
+    "        }\n",
+    "      ]\n",
+    "    },\n",
+    "    \"golden_output\": {\n",
+    "      \"changes\": True,\n",
+    "      \"new_developer_message\": \"Respond with **only** the single word \\\"yes\\\" or \\\"no\\\".\",\n",
+    "      \"new_messages\": [\n",
+    "        {\n",
+    "          \"role\": \"user\",\n",
+    "          \"content\": \"Is the sky blue?\"\n",
+    "        },\n",
+    "        {\n",
+    "          \"role\": \"assistant\",\n",
+    "          \"content\": \"yes\"\n",
+    "        },\n",
+    "        {\n",
+    "          \"role\": \"user\",\n",
+    "          \"content\": \"Is water wet?\"\n",
+    "        },\n",
+    "        {\n",
+    "          \"role\": \"assistant\",\n",
+    "          \"content\": \"yes\"\n",
+    "        }\n",
+    "      ],\n",
+    "      \"contradiction_issues\": \"\",\n",
+    "      \"few_shot_contradiction_issues\": \"Assistant examples include explanations despite instruction not to.\",\n",
+    "      \"format_issues\": \"\",\n",
+    "      \"general_improvements\": \"\"\n",
+    "    }\n",
+    "  }\n",
+    "]"
    ]
   },
   {
@@ -535,55 +531,63 @@
     "    Returns a unified dict suitable for an API or endpoint.\n",
     "    \"\"\"\n",
     "\n",
-    "    # 1. Run all checkers in parallel (contradiction, format, fewshot if there are examples)\n",
-    "    tasks = [\n",
-    "        Runner.run(dev_contradiction_checker, developer_message),\n",
-    "        Runner.run(format_checker, developer_message),\n",
-    "    ]\n",
-    "    if messages:\n",
-    "        fs_input = {\n",
-    "            \"DEVELOPER_MESSAGE\": developer_message,\n",
-    "            \"USER_EXAMPLES\": [m.content for m in messages if m.role == \"user\"],\n",
-    "            \"ASSISTANT_EXAMPLES\": [m.content for m in messages if m.role == \"assistant\"],\n",
-    "        }\n",
-    "        tasks.append(Runner.run(fewshot_consistency_checker, json.dumps(fs_input)))\n",
-    "\n",
-    "    results = await asyncio.gather(*tasks)\n",
-    "\n",
-    "    # Unpack results\n",
-    "    cd_issues: Issues = results[0].final_output\n",
-    "    fi_issues: Issues = results[1].final_output\n",
-    "    fs_issues: FewShotIssues = results[2].final_output if messages else FewShotIssues.no_issues()\n",
-    "\n",
-    "    # 3. Rewrites as needed\n",
-    "    final_prompt = developer_message\n",
-    "    if cd_issues.has_issues or fi_issues.has_issues:\n",
-    "        pr_input = {\n",
-    "            \"ORIGINAL_DEVELOPER_MESSAGE\": developer_message,\n",
-    "            \"CONTRADICTION_ISSUES\": cd_issues.model_dump(),\n",
-    "            \"FORMAT_ISSUES\": fi_issues.model_dump(),\n",
-    "        }\n",
-    "        pr_res = await Runner.run(dev_rewriter, json.dumps(pr_input))\n",
-    "        final_prompt = pr_res.final_output.new_developer_message\n",
-    "\n",
-    "    final_messages: Union[List[\"ChatMessage\"], List[Dict[str, str]]] = messages\n",
-    "    if fs_issues.has_issues:\n",
-    "        mr_input = {\n",
-    "            \"NEW_DEVELOPER_MESSAGE\": final_prompt,\n",
-    "            \"ORIGINAL_MESSAGES\": _normalize_messages(messages),\n",
-    "            \"FEW_SHOT_ISSUES\": fs_issues.model_dump(),\n",
-    "        }\n",
-    "        mr_res = await Runner.run(fewshot_rewriter, json.dumps(mr_input))\n",
-    "        final_messages = mr_res.final_output.messages\n",
-    "\n",
-    "    return {\n",
-    "        \"changes\": True,\n",
-    "        \"new_developer_message\": final_prompt,\n",
-    "        \"new_messages\": _normalize_messages(final_messages),\n",
-    "        \"contradiction_issues\": \"\\n\".join(cd_issues.issues),\n",
-    "        \"few_shot_contradiction_issues\": \"\\n\".join(fs_issues.issues),\n",
-    "        \"format_issues\": \"\\n\".join(fi_issues.issues),\n",
-    "    }"
+    "    with trace(\"optimize_prompt_workflow\"):\n",
+    "        # 1. Run all checkers in parallel (contradiction, format, fewshot if there are examples)\n",
+    "        tasks = [\n",
+    "            Runner.run(dev_contradiction_checker, developer_message),\n",
+    "            Runner.run(format_checker, developer_message),\n",
+    "        ]\n",
+    "        if messages:\n",
+    "            fs_input = {\n",
+    "                \"DEVELOPER_MESSAGE\": developer_message,\n",
+    "                \"USER_EXAMPLES\": [m.content for m in messages if m.role == \"user\"],\n",
+    "                \"ASSISTANT_EXAMPLES\": [m.content for m in messages if m.role == \"assistant\"],\n",
+    "            }\n",
+    "            tasks.append(Runner.run(fewshot_consistency_checker, json.dumps(fs_input)))\n",
+    "\n",
+    "        results = await asyncio.gather(*tasks)\n",
+    "\n",
+    "        # Unpack results\n",
+    "        cd_issues: Issues = results[0].final_output\n",
+    "        fi_issues: Issues = results[1].final_output\n",
+    "        fs_issues: FewShotIssues = results[2].final_output if messages else FewShotIssues.no_issues()\n",
+    "\n",
+    "        # 3. Rewrites as needed\n",
+    "        final_prompt = developer_message\n",
+    "        if cd_issues.has_issues or fi_issues.has_issues:\n",
+    "            pr_input = {\n",
+    "                \"ORIGINAL_DEVELOPER_MESSAGE\": developer_message,\n",
+    "                \"CONTRADICTION_ISSUES\": cd_issues.model_dump(),\n",
+    "                \"FORMAT_ISSUES\": fi_issues.model_dump(),\n",
+    "            }\n",
+    "            pr_res = await Runner.run(dev_rewriter, json.dumps(pr_input))\n",
+    "            final_prompt = pr_res.final_output.new_developer_message\n",
+    "\n",
+    "        final_messages: list[ChatMessage] | list[dict[str, str]] = messages\n",
+    "        if fs_issues.has_issues:\n",
+    "            mr_input = {\n",
+    "                \"NEW_DEVELOPER_MESSAGE\": final_prompt,\n",
+    "                \"ORIGINAL_MESSAGES\": _normalize_messages(messages),\n",
+    "                \"FEW_SHOT_ISSUES\": fs_issues.model_dump(),\n",
+    "            }\n",
+    "            mr_res = await Runner.run(fewshot_rewriter, json.dumps(mr_input))\n",
+    "            final_messages = mr_res.final_output.messages\n",
+    "\n",
+    "        return {\n",
+    "            \"changes\": True,\n",
+    "            \"new_developer_message\": final_prompt,\n",
+    "            \"new_messages\": _normalize_messages(final_messages),\n",
+    "            \"contradiction_issues\": \"\\n\".join(cd_issues.issues),\n",
+    "            \"few_shot_contradiction_issues\": \"\\n\".join(fs_issues.issues),\n",
+    "            \"format_issues\": \"\\n\".join(fi_issues.issues),\n",
+    "        }"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "![Trace for the workflow](../images/optimizepromptfig3.png)"
    ]
   },
   {