feat: add hyperdrive bindings and evals

deloreyj · deloreyj · commit 0c5b6c503963 · 2025-04-30T09:52:36.000-05:00
diff --git a/.github/workflows/evals.yml b/.github/workflows/evals.yml
@@ -22,9 +22,11 @@ jobs:
       - name: Create .dev.vars file
         run: |
           echo "OPENAI_API_KEY=${{ secrets.OPENAI_API_KEY }}" > ./apps/sandbox-container/.dev.vars
+          echo "OPENAI_API_KEY=${{ secrets.OPENAI_API_KEY }}" > ./apps/workers-bindings/.dev.vars
       - name: Verify .dev.vars file
         run: |
           du -h ./apps/sandbox-container/.dev.vars
+          du -h ./apps/workers-bindings/.dev.vars
       - name: Install dependencies
         run: pnpm install
       - name: Run evals
diff --git a/apps/cloudflare-one-casb/package.json b/apps/cloudflare-one-casb/package.json
@@ -16,7 +16,7 @@
 		"@hono/zod-validator": "0.4.3",
 		"@modelcontextprotocol/sdk": "1.10.2",
 		"@repo/mcp-common": "workspace:*",
-		"agents": "0.0.67",
+		"agents": "0.0.75",
 		"cloudflare": "4.2.0",
 		"hono": "4.7.6",
 		"zod": "3.24.2"
diff --git a/apps/demo-day/package.json b/apps/demo-day/package.json
@@ -15,7 +15,7 @@
 		"@repo/mcp-common": "workspace:*",
 		"@repo/mcp-observability": "workspace:*",
 		"@types/node": "22.14.1",
-		"agents": "0.0.67",
+		"agents": "0.0.75",
 		"zod": "3.24.2"
 	},
 	"devDependencies": {
diff --git a/apps/docs-autorag/package.json b/apps/docs-autorag/package.json
@@ -17,7 +17,7 @@
 		"@modelcontextprotocol/sdk": "1.10.2",
 		"@repo/mcp-common": "workspace:*",
 		"@repo/mcp-observability": "workspace:*",
-		"agents": "0.0.67",
+		"agents": "0.0.75",
 		"cloudflare": "4.2.0",
 		"hono": "4.7.6",
 		"mime": "4.0.6",
diff --git a/apps/radar/package.json b/apps/radar/package.json
@@ -17,7 +17,7 @@
 		"@modelcontextprotocol/sdk": "1.10.2",
 		"@repo/mcp-common": "workspace:*",
 		"@repo/mcp-observability": "workspace:*",
-		"agents": "0.0.67",
+		"agents": "0.0.75",
 		"cloudflare": "4.2.0",
 		"hono": "4.7.6",
 		"zod": "3.24.2"
diff --git a/apps/sandbox-container/package.json b/apps/sandbox-container/package.json
@@ -27,7 +27,7 @@
 		"@repo/mcp-common": "workspace:*",
 		"@repo/mcp-observability": "workspace:*",
 		"@types/node": "22.14.1",
-		"agents": "0.0.67",
+		"agents": "0.0.75",
 		"cron-schedule": "5.0.4",
 		"esbuild": "0.25.1",
 		"hono": "4.7.6",
@@ -40,7 +40,7 @@
 	"devDependencies": {
 		"@cloudflare/vitest-pool-workers": "0.8.14",
 		"@types/mock-fs": "4.13.4",
-		"ai": "4.3.6",
+		"ai": "4.3.10",
 		"concurrently": "9.1.2",
 		"mock-fs": "5.5.0",
 		"start-server-and-test": "2.0.11",
diff --git a/apps/sandbox-container/server/index.ts b/apps/sandbox-container/server/index.ts
@@ -78,6 +78,4 @@ export default {
 			clientRegistrationEndpoint: '/register',
 		}).fetch(req, env, ctx)
 	},
-} /*
-	
-*/
+} 
diff --git a/apps/workers-bindings/evals/accounts.eval.ts b/apps/workers-bindings/evals/accounts.eval.ts
@@ -0,0 +1,46 @@
+import { expect } from 'vitest'
+import { describeEval } from 'vitest-evals'
+
+import { checkFactuality } from '@repo/eval-tools/src/scorers'
+import { eachModel } from '@repo/eval-tools/src/test-models'
+
+import { initializeClient, runTask } from './utils' // Assuming utils.ts will exist here
+
+// Define a mock account ID for testing
+const MOCK_ACCOUNT_ID = 'mock-account-12345'
+
+eachModel('$modelName', ({ model }) => {
+	describeEval('Account Tool Evaluations', {
+		data: async () => [
+			{
+				input: 'List all my Cloudflare accounts.',
+				expected: 'The accounts_list tool should be called to retrieve the list of accounts.',
+			},
+			{
+				input: `Set my active Cloudflare account to ${MOCK_ACCOUNT_ID}.`,
+				expected: `The set_active_account tool should be called with the account ID ${MOCK_ACCOUNT_ID}.`,
+			},
+		],
+		task: async (input: string) => {
+			const client = await initializeClient(/* Pass necessary mocks/config */)
+			const { promptOutput, toolCalls, fullResult } = await runTask(client, model, input)
+
+			if (input.includes('List all my Cloudflare accounts')) {
+				const toolCall = toolCalls.find((call) => call.toolName === 'accounts_list')
+				expect(toolCall, 'Tool accounts_list was not called').toBeDefined()
+			} else if (input.includes(`Set my active Cloudflare account to ${MOCK_ACCOUNT_ID}`)) {
+				const toolCall = toolCalls.find((call) => call.toolName === 'set_active_account')
+				expect(toolCall, 'Tool set_active_account was not called').toBeDefined()
+
+				expect(toolCall?.args, 'Arguments for set_active_account did not match').toEqual(
+					expect.objectContaining({ activeAccountIdParam: MOCK_ACCOUNT_ID })
+				)
+			}
+
+			return promptOutput
+		},
+		scorers: [checkFactuality],
+		threshold: 1,
+		timeout: 60000, // 60 seconds
+	})
+})
diff --git a/apps/workers-bindings/evals/hyperdrive.eval.ts b/apps/workers-bindings/evals/hyperdrive.eval.ts
@@ -0,0 +1,39 @@
+import { expect } from 'vitest'
+import { describeEval } from 'vitest-evals'
+
+import { checkFactuality } from '@repo/eval-tools/src/scorers'
+import { eachModel } from '@repo/eval-tools/src/test-models'
+
+import { initializeClient, runTask } from './utils' // Assuming utils.ts will exist here
+
+const HYPERDRIVE_NAME = 'neon-test-hyperdrive';
+const HYPERDRIVE_DATABASE = 'neondb';
+const HYPERDRIVE_HOST = 'ep-late-cell-a4fm3g5p-pooler.us-east-1.aws.neon.tech';
+const HYPERDRIVE_PORT = 5432;
+const HYPERDRIVE_USER = 'neondb_owner';
+const HYPERDRIVE_PASSWORD = 'my-test-password';
+
+eachModel('$modelName', ({ model }) => {
+	describeEval('Hyperdrive Tool Evaluations', {
+		data: async () => [
+			{
+				input: `Create a new Hyperdrive configuration with the name "${HYPERDRIVE_NAME}" and the database "${HYPERDRIVE_DATABASE}" and the host "${HYPERDRIVE_HOST}" and the port "${HYPERDRIVE_PORT}" and the user "${HYPERDRIVE_USER}" and the password "${HYPERDRIVE_PASSWORD}".`,
+				expected: 'The hyperdrive_configs_create tool should be called to create a new hyperdrive configuration.',
+			},
+		],
+		task: async (input: string) => {
+			const client = await initializeClient(/* Pass necessary mocks/config */)
+			const { promptOutput, toolCalls, fullResult } = await runTask(client, model, input)
+
+			if (input.includes(`Create a new Hyperdrive configuration`)) {
+				const toolCall = toolCalls.find((call) => call.toolName === 'hyperdrive_config_create')
+				expect(toolCall, 'Tool hyperdrive_configs_create was not called').toBeDefined()
+			}
+
+			return promptOutput
+		},
+		scorers: [checkFactuality],
+		threshold: 1,
+		timeout: 60000, // 60 seconds
+	})
+})
diff --git a/apps/workers-bindings/evals/kv_namespaces.eval.ts b/apps/workers-bindings/evals/kv_namespaces.eval.ts
@@ -0,0 +1,51 @@
+import { expect } from 'vitest'
+import { describeEval } from 'vitest-evals'
+
+import { checkFactuality } from '@repo/eval-tools/src/scorers'
+import { eachModel } from '@repo/eval-tools/src/test-models'
+
+import { initializeClient, runTask } from './utils' // Assuming utils.ts will exist here
+
+eachModel('$modelName', ({ model }) => {
+	describeEval('KV Namespaces Tool Evaluations', {
+		data: async () => [
+			{
+				input: 'Create a new Cloudflare KV Namespace called "my-test-namespace".',
+				expected: 'The kv_namespaces_create tool should be called to create a new kv namespace.',
+			},
+			{
+				input: 'List all my Cloudflare KV Namespaces.',
+				expected: 'The kv_namespaces_list tool should be called to retrieve the list of kv namespaces. There should be at least one kv namespace in the list.',
+			},
+			{
+				input: 'Rename my Cloudflare KV Namespace called "my-test-namespace" to "my-new-test-namespace".',
+				expected: 'The kv_namespace_update tool should be called to rename the kv namespace.',
+			},
+			{
+				input: 'Get details of my Cloudflare KV Namespace called "my-new-test-namespace".',
+				expected: 'The kv_namespace_get tool should be called to retrieve the details of the kv namespace.',
+			},
+			{
+				input: 'Look up the id of my only KV namespace and delete it.',
+				expected: 'The kv_namespace_delete tool should be called to delete the kv namespace.',
+			},
+
+      
+		],
+		task: async (input: string) => {
+			const client = await initializeClient(/* Pass necessary mocks/config */)
+			const { promptOutput, toolCalls, fullResult } = await runTask(client, model, input)
+
+			if (input.includes('List all my Cloudflare KV Namespaces')) {
+				console.log('fullResult', JSON.stringify(await fullResult.response, null, 2))
+				const toolCall = toolCalls.find((call) => call.toolName === 'kv_namespaces_list')
+				expect(toolCall, 'Tool kv_namespaces_list was not called').toBeDefined()
+			}
+
+			return promptOutput
+		},
+		scorers: [checkFactuality],
+		threshold: 1,
+		timeout: 60000, // 60 seconds
+	})
+})
diff --git a/apps/workers-bindings/evals/types.d.ts b/apps/workers-bindings/evals/types.d.ts
diff --git a/apps/workers-bindings/evals/utils.ts b/apps/workers-bindings/evals/utils.ts
@@ -0,0 +1,89 @@
+import { MCPClientManager } from 'agents/mcp/client'
+import { streamText, tool, jsonSchema } from 'ai'
+import { z } from 'zod'
+
+import type { LanguageModelV1, StreamTextResult, ToolCallPart, ToolSet } from 'ai'
+
+export async function initializeClient(): Promise<MCPClientManager> {
+	const clientManager = new MCPClientManager('test-client', '0.0.0')
+	await clientManager.connect('http://localhost:8976/sse')
+	return clientManager
+}
+
+export async function runTask(
+	clientManager: MCPClientManager,
+	model: LanguageModelV1,
+	input: string
+): Promise<{
+	promptOutput: string
+	fullResult: StreamTextResult<ToolSet, never>
+	toolCalls: ToolCallPart[]
+}> {
+	const tools = clientManager.listTools()
+	const toolSet: ToolSet = tools.reduce((acc, v) => {
+		if (!v.inputSchema.properties) {
+			v.inputSchema.properties = {}
+		}
+
+		acc[v.name] = tool({
+			parameters: jsonSchema(v.inputSchema as any),
+			description: v.description,
+			execute: async (args: any, opts) => {
+				try {
+					const res = await clientManager.callTool(
+						{
+							...v,
+							arguments: { ...args },
+						},
+						z.any() as any,
+						{ signal: opts.abortSignal }
+					)
+					return res.content
+				} catch (e) {
+					console.log('Error calling tool')
+					console.log(e)
+					return e
+				}
+			},
+		})
+		return acc
+	}, {} as ToolSet)
+
+
+	const res = streamText({
+		model,
+		system:
+			"You are an assistant responsible for evaluating the results of calling various tools. Given the user's query, use the tools available to you to answer the question.",
+		tools: toolSet,
+		prompt: input,
+		maxRetries: 1,
+		maxSteps: 10,
+	})
+
+	for await (const part of res.fullStream) {
+	}
+
+	// convert into an LLM readable result so our factuality checker can validate tool calls
+	let messagesWithTools = ''
+	const toolCalls: ToolCallPart[] = []
+	const response = await res.response
+	const messages = response.messages
+
+	for (const message of messages) {
+		for (const messagePart of message.content) {
+			if (typeof messagePart === 'string') {
+				messagesWithTools += `<message_content type="text">${messagePart}</message_content>`
+			} else if (messagePart.type === 'tool-call') {
+				messagesWithTools += `<message_content type=${messagePart.type}>
+    <tool_name>${messagePart.toolName}</tool_name>
+    <tool_arguments>${JSON.stringify(messagePart.args)}</tool_arguments>
+</message_content>`
+				toolCalls.push(messagePart)
+			} else if (messagePart.type === 'text') {
+				messagesWithTools += `<message_content type=${messagePart.type}>${messagePart.text}</message_content>`
+			}
+		}
+	}
+
+	return { promptOutput: messagesWithTools, fullResult: res, toolCalls }
+}
diff --git a/apps/workers-bindings/package.json b/apps/workers-bindings/package.json
@@ -8,6 +8,9 @@
 		"deploy": "wrangler deploy",
 		"deploy:staging": "wrangler deploy --env staging",
 		"deploy:production": "wrangler deploy --env production",
+		"eval:dev": "start-server-and-test --expect 404 eval:server http://localhost:8976 'vitest --testTimeout=60000 --config vitest.config.evals.ts'",
+		"eval:server": "wrangler dev --var ENVIRONMENT:test",
+		"eval:ci": "start-server-and-test --expect 404 eval:server http://localhost:8976 'vitest run --testTimeout=60000 --config vitest.config.evals.ts'",
 		"dev": "wrangler dev",
 		"start": "wrangler dev",
 		"types": "wrangler types --include-env=false",
@@ -25,10 +28,15 @@
 		"@cloudflare/workers-oauth-provider": "0.0.3",
 		"@modelcontextprotocol/sdk": "1.10.2",
 		"@n8n/json-schema-to-zod": "1.1.0",
+		"@repo/eval-tools": "workspace:*",
 		"@repo/mcp-common": "workspace:*",
 		"@repo/mcp-observability": "workspace:*",
-		"agents": "0.0.67",
+		"agents": "0.0.75",
+		"ai": "4.3.10",
+		"concurrently": "9.1.2",
 		"hono": "4.7.6",
+		"start-server-and-test": "2.0.11",
+		"vitest-evals": "0.1.4",
 		"zod": "3.24.2"
 	}
 }
diff --git a/apps/workers-bindings/src/index.ts b/apps/workers-bindings/src/index.ts
@@ -16,6 +16,7 @@ import { registerD1Tools } from '@repo/mcp-common/src/tools/d1'
 import { registerKVTools } from '@repo/mcp-common/src/tools/kv_namespace'
 import { registerR2BucketTools } from '@repo/mcp-common/src/tools/r2_bucket'
 import { registerWorkersTools } from '@repo/mcp-common/src/tools/worker'
+import { registerHyperdriveTools } from '@repo/mcp-common/src/tools/hyperdrive'
 import { MetricsTracker } from '@repo/mcp-observability'
 
 import type { AuthProps } from '@repo/mcp-common/src/cloudflare-oauth-handler'
@@ -73,6 +74,7 @@ export class WorkersBindingsMCP extends McpAgent<Env, WorkersBindingsMCPState, P
 		registerWorkersTools(this)
 		registerR2BucketTools(this)
 		registerD1Tools(this)
+		registerHyperdriveTools(this)
 	}
 
 	async getActiveAccountId() {
diff --git a/apps/workers-bindings/test/index.test.ts b/apps/workers-bindings/test/index.test.ts
diff --git a/apps/workers-bindings/tsconfig.json b/apps/workers-bindings/tsconfig.json
@@ -1,4 +1,4 @@
 {
 	"extends": "@repo/typescript-config/workers.json",
-	"include": ["*/**.ts"]
+	"include": ["*/**.ts", "./vitest.config.evals.ts"]
 }
diff --git a/apps/workers-bindings/vitest.config.evals.ts b/apps/workers-bindings/vitest.config.evals.ts
@@ -0,0 +1,18 @@
+import { defineWorkersConfig } from '@cloudflare/vitest-pool-workers/config'
+
+export default defineWorkersConfig({
+	test: {
+		include: ['**/*.eval.?(c|m)[jt]s?(x)'],
+		poolOptions: {
+			workers: {
+				isolatedStorage: true,
+				wrangler: { configPath: './wrangler.jsonc' },
+				miniflare: {
+					bindings: {
+						ENVIRONMENT: 'test',
+					},
+				},
+			},
+		},
+	},
+})
diff --git a/apps/workers-observability/package.json b/apps/workers-observability/package.json
@@ -17,7 +17,7 @@
 		"@modelcontextprotocol/sdk": "1.10.2",
 		"@repo/mcp-common": "workspace:*",
 		"@repo/mcp-observability": "workspace:*",
-		"agents": "0.0.67",
+		"agents": "0.0.75",
 		"cloudflare": "4.2.0",
 		"hono": "4.7.6",
 		"zod": "3.24.2"
diff --git a/packages/eval-tools/package.json b/packages/eval-tools/package.json
@@ -11,9 +11,9 @@
 		"bin": "bin"
 	},
 	"dependencies": {
-		"@ai-sdk/openai": "1.3.12",
+		"@ai-sdk/openai": "1.3.20",
 		"@cloudflare/vitest-pool-workers": "0.8.14",
-		"ai": "4.3.6",
+		"ai": "4.3.10",
 		"workers-ai-provider": "0.3.0",
 		"wrangler": "4.10.0",
 		"zod": "3.24.2"
diff --git a/packages/mcp-common/package.json b/packages/mcp-common/package.json
diff --git a/packages/mcp-common/src/tools/hyperdrive.ts b/packages/mcp-common/src/tools/hyperdrive.ts
diff --git a/packages/mcp-common/src/types/hyperdrive.ts b/packages/mcp-common/src/types/hyperdrive.ts
diff --git a/pnpm-lock.yaml b/pnpm-lock.yaml