add message adapter for Google Gemini, Flash (#1772)

faraday · web-flow · commit 583e33b75c2e · 2024-06-02T15:25:39.000-06:00
bump up Google/Generative-AI package version to 0.11.4
simplify Gemini Vision handling

google generative ai npm
diff --git a/app/api/chat/google/route.ts b/app/api/chat/google/route.ts
@@ -19,49 +19,32 @@ export async function POST(request: Request) {
     const genAI = new GoogleGenerativeAI(profile.google_gemini_api_key || "")
     const googleModel = genAI.getGenerativeModel({ model: chatSettings.model })
 
-    if (chatSettings.model === "gemini-pro") {
-      const lastMessage = messages.pop()
+    const lastMessage = messages.pop()
 
-      const chat = googleModel.startChat({
-        history: messages,
-        generationConfig: {
-          temperature: chatSettings.temperature
-        }
-      })
+    const chat = googleModel.startChat({
+      history: messages,
+      generationConfig: {
+        temperature: chatSettings.temperature
+      }
+    })
 
-      const response = await chat.sendMessageStream(lastMessage.parts)
+    const response = await chat.sendMessageStream(lastMessage.parts)
 
-      const encoder = new TextEncoder()
-      const readableStream = new ReadableStream({
-        async start(controller) {
-          for await (const chunk of response.stream) {
-            const chunkText = chunk.text()
-            controller.enqueue(encoder.encode(chunkText))
-          }
-          controller.close()
+    const encoder = new TextEncoder()
+    const readableStream = new ReadableStream({
+      async start(controller) {
+        for await (const chunk of response.stream) {
+          const chunkText = chunk.text()
+          controller.enqueue(encoder.encode(chunkText))
         }
-      })
-
-      return new Response(readableStream, {
-        headers: { "Content-Type": "text/plain" }
-      })
-    } else if (chatSettings.model === "gemini-pro-vision") {
-      // FIX: Hacky until chat messages are supported
-      const HACKY_MESSAGE = messages[messages.length - 1]
-
-      const result = await googleModel.generateContent([
-        HACKY_MESSAGE.prompt,
-        HACKY_MESSAGE.imageParts
-      ])
-
-      const response = result.response
+        controller.close()
+      }
+    })
 
-      const text = response.text()
+    return new Response(readableStream, {
+      headers: { "Content-Type": "text/plain" }
+    })
 
-      return new Response(text, {
-        headers: { "Content-Type": "text/plain" }
-      })
-    }
   } catch (error: any) {
     let errorMessage = error.message || "An unexpected error occurred"
     const errorCode = error.status || 500
diff --git a/components/chat/chat-helpers/index.ts b/components/chat/chat-helpers/index.ts
@@ -7,7 +7,7 @@ import { createMessages, updateMessage } from "@/db/messages"
 import { uploadMessageImage } from "@/db/storage/message-images"
 import {
   buildFinalMessages,
-  buildGoogleGeminiFinalMessages
+  adaptMessagesForGoogleGemini
 } from "@/lib/build-prompt"
 import { consumeReadableStream } from "@/lib/consume-stream"
 import { Tables, TablesInsert } from "@/supabase/types"
@@ -206,16 +206,13 @@ export const handleHostedChat = async (
       ? "azure"
       : modelData.provider
 
-  let formattedMessages = []
+  let draftMessages = await buildFinalMessages(payload, profile, chatImages)
 
+  let formattedMessages : any[] = []
   if (provider === "google") {
-    formattedMessages = await buildGoogleGeminiFinalMessages(
-      payload,
-      profile,
-      newMessageImages
-    )
+    formattedMessages = await adaptMessagesForGoogleGemini(payload, draftMessages)
   } else {
-    formattedMessages = await buildFinalMessages(payload, profile, chatImages)
+    formattedMessages = draftMessages
   }
 
   const apiEndpoint =
diff --git a/lib/build-prompt.ts b/lib/build-prompt.ts
@@ -1,6 +1,7 @@
 import { Tables } from "@/supabase/types"
 import { ChatPayload, MessageImage } from "@/types"
 import { encode } from "gpt-tokenizer"
+import { getBase64FromDataURL, getMediaTypeFromDataURL } from "@/lib/utils"
 
 const buildBasePrompt = (
   prompt: string,
@@ -182,125 +183,78 @@ function buildRetrievalText(fileItems: Tables<"file_items">[]) {
   return `You may use the following sources if needed to answer the user's question. If you don't know the answer, say "I don't know."\n\n${retrievalText}`
 }
 
-export async function buildGoogleGeminiFinalMessages(
-  payload: ChatPayload,
-  profile: Tables<"profiles">,
-  messageImageFiles: MessageImage[]
-) {
-  const { chatSettings, workspaceInstructions, chatMessages, assistant } =
-    payload
+function adaptSingleMessageForGoogleGemini(message: any) {
 
-  const BUILT_PROMPT = buildBasePrompt(
-    chatSettings.prompt,
-    chatSettings.includeProfileContext ? profile.profile_context || "" : "",
-    chatSettings.includeWorkspaceInstructions ? workspaceInstructions : "",
-    assistant
-  )
-
-  let finalMessages = []
-
-  let usedTokens = 0
-  const CHUNK_SIZE = chatSettings.contextLength
-  const PROMPT_TOKENS = encode(chatSettings.prompt).length
-  let REMAINING_TOKENS = CHUNK_SIZE - PROMPT_TOKENS
-
-  usedTokens += PROMPT_TOKENS
+  let adaptedParts = []
 
-  for (let i = chatMessages.length - 1; i >= 0; i--) {
-    const message = chatMessages[i].message
-    const messageTokens = encode(message.content).length
-
-    if (messageTokens <= REMAINING_TOKENS) {
-      REMAINING_TOKENS -= messageTokens
-      usedTokens += messageTokens
-      finalMessages.unshift(message)
-    } else {
-      break
-    }
-  }
-
-  let tempSystemMessage: Tables<"messages"> = {
-    chat_id: "",
-    assistant_id: null,
-    content: BUILT_PROMPT,
-    created_at: "",
-    id: chatMessages.length + "",
-    image_paths: [],
-    model: payload.chatSettings.model,
-    role: "system",
-    sequence_number: chatMessages.length,
-    updated_at: "",
-    user_id: ""
+  let rawParts = []
+  if(!Array.isArray(message.content)) {
+    rawParts.push({type: 'text', text: message.content})
+  } else {
+    rawParts = message.content
   }
 
-  finalMessages.unshift(tempSystemMessage)
+  for(let i = 0; i < rawParts.length; i++) {
+    let rawPart = rawParts[i]
 
-  let GOOGLE_FORMATTED_MESSAGES = []
-
-  if (chatSettings.model === "gemini-pro") {
-    GOOGLE_FORMATTED_MESSAGES = [
-      {
-        role: "user",
-        parts: finalMessages[0].content
-      },
-      {
-        role: "model",
-        parts: "I will follow your instructions."
-      }
-    ]
-
-    for (let i = 1; i < finalMessages.length; i++) {
-      GOOGLE_FORMATTED_MESSAGES.push({
-        role: finalMessages[i].role === "user" ? "user" : "model",
-        parts: finalMessages[i].content as string
-      })
-    }
-
-    return GOOGLE_FORMATTED_MESSAGES
-  } else if ((chatSettings.model = "gemini-pro-vision")) {
-    // Gemini Pro Vision doesn't currently support messages
-    async function fileToGenerativePart(file: File) {
-      const base64EncodedDataPromise = new Promise(resolve => {
-        const reader = new FileReader()
-
-        reader.onloadend = () => {
-          if (typeof reader.result === "string") {
-            resolve(reader.result.split(",")[1])
-          }
-        }
-
-        reader.readAsDataURL(file)
-      })
-
-      return {
+    if(rawPart.type == 'text') {
+      adaptedParts.push({text: rawPart.text})
+    } else if(rawPart.type === 'image_url') {
+      adaptedParts.push({
         inlineData: {
-          data: await base64EncodedDataPromise,
-          mimeType: file.type
+          data: getBase64FromDataURL(rawPart.image_url.url),
+          mimeType: getMediaTypeFromDataURL(rawPart.image_url.url),
         }
-      }
+      })
     }
+  }
 
-    let prompt = ""
+  let role = 'user'
+  if(["user", "system"].includes(message.role)) {
+    role = 'user'
+  } else if(message.role === 'assistant') {
+    role = 'model'
+  }
 
-    for (let i = 0; i < finalMessages.length; i++) {
-      prompt += `${finalMessages[i].role}:\n${finalMessages[i].content}\n\n`
-    }
+  return {
+    role: role,
+    parts: adaptedParts
+  }
+}
 
-    const files = messageImageFiles.map(file => file.file)
-    const imageParts = await Promise.all(
-      files.map(file =>
-        file ? fileToGenerativePart(file) : Promise.resolve(null)
-      )
-    )
-
-    // FIX: Hacky until chat messages are supported
-    return [
-      {
-        prompt,
-        imageParts
-      }
+function adaptMessagesForGeminiVision(
+  messages: any[]
+) {
+  // Gemini Pro Vision cannot process multiple messages
+  // Reformat, using all texts and last visual only
+
+  const basePrompt = messages[0].parts[0].text
+  const baseRole = messages[0].role
+  const lastMessage = messages[messages.length-1]
+  const visualMessageParts = lastMessage.parts;
+  let visualQueryMessages = [{
+    role: "user",
+    parts: [
+      `${baseRole}:\n${basePrompt}\n\nuser:\n${visualMessageParts[0].text}\n\n`,
+      visualMessageParts.slice(1)
     ]
+  }]
+  return visualQueryMessages
+}
+
+export async function adaptMessagesForGoogleGemini(
+  payload: ChatPayload,
+  messages:  any[]
+) {
+  let geminiMessages = []
+  for (let i = 0; i < messages.length; i++) {
+    let adaptedMessage = adaptSingleMessageForGoogleGemini(messages[i])
+    geminiMessages.push(adaptedMessage)
   }
 
-  return finalMessages
+  if(payload.chatSettings.model === "gemini-pro-vision") {
+    geminiMessages = adaptMessagesForGeminiVision(geminiMessages)
+  }
+  return geminiMessages
 }
+
diff --git a/lib/chat-setting-limits.ts b/lib/chat-setting-limits.ts
@@ -41,6 +41,12 @@ export const CHAT_SETTING_LIMITS: Record<LLMID, ChatSettingLimits> = {
   },
 
   // GOOGLE MODELS
+  "gemini-1.5-pro-latest": {
+    MIN_TEMPERATURE: 0.0,
+    MAX_TEMPERATURE: 1.0,
+    MAX_TOKEN_OUTPUT_LENGTH: 8192,
+    MAX_CONTEXT_LENGTH: 1040384
+  },
   "gemini-pro": {
     MIN_TEMPERATURE: 0.0,
     MAX_TEMPERATURE: 1.0,
diff --git a/lib/models/llm/google-llm-list.ts b/lib/models/llm/google-llm-list.ts
@@ -4,6 +4,16 @@ const GOOGLE_PLATORM_LINK = "https://ai.google.dev/"
 
 // Google Models (UPDATED 12/22/23) -----------------------------
 
+// Gemini Flash (UPDATED 05/28/24)
+const GEMINI_FLASH: LLM = {
+  modelId: "gemini-1.5-pro-latest",
+  modelName: "Gemini Flash",
+  provider: "google",
+  hostedId: "gemini-1.5-pro-latest",
+  platformLink: GOOGLE_PLATORM_LINK,
+  imageInput: false
+}
+
 // Gemini Pro (UPDATED 12/22/23)
 const GEMINI_PRO: LLM = {
   modelId: "gemini-pro",
@@ -24,4 +34,4 @@ const GEMINI_PRO_VISION: LLM = {
   imageInput: true
 }
 
-export const GOOGLE_LLM_LIST: LLM[] = [GEMINI_PRO, GEMINI_PRO_VISION]
+export const GOOGLE_LLM_LIST: LLM[] = [GEMINI_PRO, GEMINI_PRO_VISION, GEMINI_FLASH]
diff --git a/package-lock.json b/package-lock.json
diff --git a/package.json b/package.json
@@ -29,7 +29,7 @@
     "@anthropic-ai/sdk": "^0.18.0",
     "@apidevtools/json-schema-ref-parser": "^11.1.0",
     "@azure/openai": "^1.0.0-beta.8",
-    "@google/generative-ai": "^0.1.3",
+    "@google/generative-ai": "^0.11.4",
     "@hookform/resolvers": "^3.3.2",
     "@mistralai/mistralai": "^0.0.8",
     "@radix-ui/react-accordion": "^1.1.2",
diff --git a/types/llms.ts b/types/llms.ts
@@ -20,6 +20,7 @@ export type OpenAILLMID =
 export type GoogleLLMID =
   | "gemini-pro" // Gemini Pro
   | "gemini-pro-vision" // Gemini Pro Vision
+  | "gemini-1.5-pro-latest"
 
 // Anthropic Models
 export type AnthropicLLMID =