Make changes from pamelas feedback

pamelafox · pamelafox · commit cdee1d52c6fc · 2025-04-02T14:33:24.000-07:00
diff --git a/app/backend/approaches/approach.py b/app/backend/approaches/approach.py
@@ -167,7 +167,6 @@ def __init__(
         vision_token_provider: Callable[[], Awaitable[str]],
         prompt_manager: PromptManager,
         reasoning_effort: Optional[str] = None,
-        include_token_usage: Optional[bool] = None,
     ):
         self.search_client = search_client
         self.openai_client = openai_client
@@ -182,7 +181,7 @@ def __init__(
         self.vision_token_provider = vision_token_provider
         self.prompt_manager = prompt_manager
         self.reasoning_effort = reasoning_effort
-        self.include_token_usage = include_token_usage
+        self.include_token_usage = True
 
     def build_filter(self, overrides: dict[str, Any], auth_claims: dict[str, Any]) -> Optional[str]:
         include_category = overrides.get("include_category")
@@ -345,26 +344,25 @@ def get_system_prompt_variables(self, override_prompt: Optional[str]) -> dict[st
         else:
             return {"override_prompt": override_prompt}
 
-    def get_response_token_limit(self, model: str) -> int:
+    def get_response_token_limit(self, model: str, default_limit: int) -> int:
         if model in self.GPT_REASONING_MODELS:
             return self.RESPONSE_REASONING_DEFAULT_TOKEN_LIMIT
 
-        return self.RESPONSE_DEFAULT_TOKEN_LIMIT
+        return default_limit
 
     def create_chat_completion(
         self,
         chatgpt_deployment: Optional[str],
         chatgpt_model: str,
         messages: list[ChatCompletionMessageParam],
         overrides: dict[str, Any],
+        response_token_limit: int,
         should_stream: bool = False,
-        response_token_limit: Optional[int] = None,
         tools: Optional[List[ChatCompletionToolParam]] = None,
         temperature: Optional[float] = None,
         n: Optional[int] = None,
         reasoning_effort: Optional[ChatCompletionReasoningEffort] = None,
     ) -> Union[Awaitable[ChatCompletion], Awaitable[AsyncStream[ChatCompletionChunk]]]:
-        response_token_limit = response_token_limit or self.get_response_token_limit(chatgpt_model)
         if chatgpt_model in self.GPT_REASONING_MODELS:
             params: Dict[str, Any] = {
                 # max_tokens is not supported
@@ -399,7 +397,7 @@ def create_chat_completion(
             **params,
         )
 
-    def create_generate_thought_step(
+    def format_thought_step_for_chatcompletion(
         self,
         title: str,
         messages: List[ChatCompletionMessageParam],
diff --git a/app/backend/approaches/chatreadretrieveread.py b/app/backend/approaches/chatreadretrieveread.py
@@ -93,17 +93,17 @@ async def run_until_final_call(
         tools: List[ChatCompletionToolParam] = self.query_rewrite_tools
 
         # STEP 1: Generate an optimized keyword search query based on the chat history and the last question
-        query_response_token_limit = (
-            100 if self.chatgpt_model not in self.GPT_REASONING_MODELS else self.RESPONSE_REASONING_DEFAULT_TOKEN_LIMIT
-        )
+
         chat_completion = cast(
             ChatCompletion,
             await self.create_chat_completion(
                 self.chatgpt_deployment,
                 self.chatgpt_model,
                 messages=query_messages,
                 overrides=overrides,
-                response_token_limit=query_response_token_limit,  # Setting too low risks malformed JSON, setting too high may affect performance
+                response_token_limit=self.get_response_token_limit(
+                    self.chatgpt_model, 100
+                ),  # Setting too low risks malformed JSON, setting too high may affect performance
                 temperature=0.0,  # Minimize creativity for search query generation
                 tools=tools,
                 reasoning_effort="low",  # Minimize reasoning for search query generation
@@ -149,7 +149,7 @@ async def run_until_final_call(
         extra_info = ExtraInfo(
             DataPoints(text=text_sources),
             thoughts=[
-                self.create_generate_thought_step(
+                self.format_thought_step_for_chatcompletion(
                     title="Prompt to generate search query",
                     messages=query_messages,
                     overrides=overrides,
@@ -175,7 +175,7 @@ async def run_until_final_call(
                     "Search results",
                     [result.serialize_for_results() for result in results],
                 ),
-                self.create_generate_thought_step(
+                self.format_thought_step_for_chatcompletion(
                     title="Prompt to generate answer",
                     messages=messages,
                     overrides=overrides,
@@ -193,8 +193,8 @@ async def run_until_final_call(
                 self.chatgpt_model,
                 messages,
                 overrides,
+                self.get_response_token_limit(self.chatgpt_model, 1024),
                 should_stream,
-                response_token_limit=self.get_response_token_limit(self.chatgpt_model),
             ),
         )
         return (extra_info, chat_coroutine)
diff --git a/app/backend/approaches/chatreadretrievereadvision.py b/app/backend/approaches/chatreadretrievereadvision.py
@@ -67,6 +67,7 @@ def __init__(
         self.query_rewrite_prompt = self.prompt_manager.load_prompt("chat_query_rewrite.prompty")
         self.query_rewrite_tools = self.prompt_manager.load_tools("chat_query_rewrite_tools.json")
         self.answer_prompt = self.prompt_manager.load_prompt("chat_answer_question_vision.prompty")
+        # Currently disabled due to issues with rendering token usage in the UI
         self.include_token_usage = False
 
     async def run_until_final_call(
diff --git a/app/backend/approaches/retrievethenread.py b/app/backend/approaches/retrievethenread.py
@@ -108,6 +108,7 @@ async def run(
                 self.chatgpt_model,
                 messages=messages,
                 overrides=overrides,
+                response_token_limit=self.get_response_token_limit(self.chatgpt_model, 1024),
             ),
         )
 
@@ -131,7 +132,7 @@ async def run(
                     "Search results",
                     [result.serialize_for_results() for result in results],
                 ),
-                self.create_generate_thought_step(
+                self.format_thought_step_for_chatcompletion(
                     title="Prompt to generate answer",
                     messages=messages,
                     overrides=overrides,
diff --git a/app/backend/approaches/retrievethenreadvision.py b/app/backend/approaches/retrievethenreadvision.py
@@ -57,6 +57,7 @@ def __init__(
         self.vision_token_provider = vision_token_provider
         self.prompt_manager = prompt_manager
         self.answer_prompt = self.prompt_manager.load_prompt("ask_answer_question_vision.prompty")
+        # Currently disabled due to issues with rendering token usage in the UI
         self.include_token_usage = False
 
     async def run(
diff --git a/app/frontend/src/locales/da/translation.json b/app/frontend/src/locales/da/translation.json
@@ -87,6 +87,12 @@
         "useSemanticRanker": "Brug semantisk ranking til søgning",
         "useSemanticCaptions": "Brug semantiske billedtekster",
         "useQueryRewriting": "Brug forespørgselsomskrivning til informationsgenfinding",
+        "reasoningEffort": "Ræsonnementsindsats",
+        "reasoningEffortOptions": {
+            "low": "Lav",
+            "medium": "Medium",
+            "high": "Høj"
+        },
         "useSuggestFollowupQuestions": "Foreslå opfølgende spørgsmål",
         "useGPT4V": "Brug GPT vision model",
         "gpt4VInput": {
@@ -128,6 +134,8 @@
         "excludeCategory": "Angiver en kategori, der skal ekskluderes fra søgeresultaterne. Der er ingen kategorier i det standard datasæt.",
         "useSemanticReranker": "Aktiverer Azure AI Search semantisk omrangør, en model der rangerer søgeresultater baseret på semantisk lighed til brugerens forespørgsel.",
         "useSemanticCaptions": "Sender semantiske billedtekster til LLM'en i stedet for hele søgeresultatet. En semantisk billedtekst udtrækkes fra et søgeresultat under processen med semantisk rangering.",
+        "useQueryRewriting": "Aktiverer Azure AI Search forespørgselsomskrivning, en proces der ændrer brugerens forespørgsel for at forbedre søgeresultaterne. Kræver at semantisk ranking er aktiveret.",
+        "reasoningEffort": "Indstiller ræsonnementsindsatsen for sprogmodellen. Højere værdier resulterer i mere ræsonnement, men kan tage længere tid om at generere et svar. Standardværdien er medium.",
         "suggestFollowupQuestions": "Beder LLM'en om at foreslå opfølgende spørgsmål baseret på brugerens forespørgsel.",
         "useGPT4Vision": "Bruger GPT-4-Turbo med Vision til at generere svar baseret på billeder og tekst fra indekset.",
         "vectorFields": "Angiver hvilke indlejringsfelter i Azure AI Search Index, der vil blive søgt, enten både 'Billeder og tekst' indlejringer, 'Billeder' kun eller 'Tekst' kun.",
diff --git a/app/frontend/src/locales/es/translation.json b/app/frontend/src/locales/es/translation.json
@@ -91,6 +91,12 @@
         "useSemanticRanker": "Usar clasificador semántico para la recuperación",
         "useSemanticCaptions": "Usar subtítulos semánticos",
         "useQueryRewriting": "Utiliza la reescritura de consultas para la recuperación",
+        "reasoningEffort": "Esfuerzo de razonamiento",
+        "reasoningEffortOptions": {
+            "low": "Bajo",
+            "medium": "Medio",
+            "high": "Alto"
+        },
         "useSuggestFollowupQuestions": "Sugerir preguntas de seguimiento",
         "useGPT4V": "Usar modelo de visión GPT",
         "gpt4VInput": {
@@ -143,6 +149,10 @@
             "Habilita el re-clasificador semántico de Azure AI Search, un modelo que re-clasifica los resultados de búsqueda basándose en la similitud semántica con la consulta del usuario.",
         "useSemanticCaptions":
             "Envía subtítulos semánticos al LLM en lugar del resultado de búsqueda completo. Un subtítulo semántico se extrae de un resultado de búsqueda durante el proceso de clasificación semántica.",
+        "useQueryRewriting":
+            "Habilita la reescritura de consultas de Azure AI Search, un proceso que modifica la consulta del usuario para mejorar los resultados de búsqueda. Requiere que el clasificador semántico esté habilitado.",
+        "reasoningEffort":
+            "Establece el esfuerzo de razonamiento para el LLM. Los valores más altos resultan en más razonamiento, pero pueden tardar más en generar una respuesta. El valor predeterminado es medio.",
         "suggestFollowupQuestions": "Pide al LLM que sugiera preguntas de seguimiento basándose en la consulta del usuario.",
         "useGPT4Vision": "Utiliza GPT-4-Turbo con Visión para generar respuestas basándose en imágenes y texto del índice.",
         "vectorFields":
diff --git a/app/frontend/src/locales/fr/translation.json b/app/frontend/src/locales/fr/translation.json
@@ -92,6 +92,12 @@
         "useSemanticCaptions": "Utiliser les titres sémantiques",
         "useSuggestFollowupQuestions": "Suggérer des questions de suivi",
         "useQueryRewriting": "Utilisez la réécriture des requêtes pour la récupération",
+        "reasoningEffort": "Effort de raisonnement",
+        "reasoningEffortOptions": {
+            "low": "Faible",
+            "medium": "Moyen",
+            "high": "Élevé"
+        },
         "useGPT4V": "Utiliser le modèle GPT Vision",
         "gpt4VInput": {
             "label": "Entrées du modèle GPT Vision",
@@ -144,6 +150,10 @@
         "useSemanticCaptions":
             "Envoie des légendes sémantiques à l'LLM au lieu du résultat de recherche complet. Une légende sémantique est extraite d'un résultat de recherche lors du processus de classement sémantique.",
         "suggestFollowupQuestions": "Demande à l'LLM de suggérer des questions de suivi en fonction de la requête de l'utilisateur.",
+        "useQueryRewriting":
+            "Active la réécriture de requêtes d'Azure AI Search, un processus qui modifie la requête de l'utilisateur pour améliorer les résultats de recherche. Nécessite que le reclasseur sémantique soit activé.",
+        "reasoningEffort":
+            "Définit l'effort de raisonnement pour le LLM. Des valeurs plus élevées entraînent plus de raisonnement, mais peuvent prendre plus de temps pour générer une réponse. La valeur par défaut est moyenne.",
         "useGPT4Vision": "Utilise GPT-4-Turbo avec Vision pour générer des réponses basées sur des images et du texte de l'index.",
         "vectorFields":
             "Spécifie quels champs d'incorporation dans l'index de recherche Azure AI seront recherchés, à la fois les incorporations 'Images et texte', 'Images' seulement, ou 'Texte' seulement.",
diff --git a/app/frontend/src/locales/it/translation.json b/app/frontend/src/locales/it/translation.json
@@ -91,6 +91,12 @@
         "useSemanticRanker": "Usa il reranker semantico",
         "useSemanticCaptions": "Usa didascalie semantiche",
         "useQueryRewriting": "Usa la riscrittura delle query per il recupero",
+        "reasoningEffort": "Sforzo di ragionamento",
+        "reasoningEffortOptions": {
+            "low": "Basso",
+            "medium": "Medio",
+            "high": "Alto"
+        },
         "useSuggestFollowupQuestions": "Suggerisci domande di follow-up",
         "useGPT4V": "Usa il modello GPT Vision",
         "gpt4VInput": {
@@ -143,6 +149,10 @@
             "Abilita il ranking semantico di Azure AI Search, un modello che riordina i risultati di ricerca in base alla somiglianza semantica con la query dell'utente.",
         "useSemanticCaptions":
             "Invia didascalie semantiche all'LLM invece del risultato di ricerca completo. Una didascalia semantica è estratta da un risultato di ricerca durante il processo di ranking semantico.",
+        "useQueryRewriting":
+            "Abilita la riscrittura delle query di Azure AI Search, un processo che modifica la query dell'utente per migliorare i risultati di ricerca. Richiede che il reranker semantico sia abilitato.",
+        "reasoningEffort":
+            "Imposta lo sforzo di ragionamento per l'LLM. Valori più alti comportano un maggiore ragionamento, ma potrebbero richiedere più tempo per generare una risposta. Il valore predefinito è medio.",
         "suggestFollowupQuestions": "Chiede all'LLM di suggerire domande di follow-up in base alla query dell'utente.",
         "useGPT4Vision": "Utilizza GPT-4-Turbo con Vision per generare risposte basate su immagini e testo dell'indice.",
         "vectorFields":
diff --git a/app/frontend/src/locales/ja/translation.json b/app/frontend/src/locales/ja/translation.json
@@ -91,6 +91,12 @@
         "useSemanticRanker": "取得にセマンティック・ランカーを使用",
         "useSemanticCaptions": "セマンティック・キャプションを使用",
         "useQueryRewriting": "検索のためにクエリの書き換えを使用する",
+        "reasoningEffort": "推論の労力",
+        "reasoningEffortOptions": {
+            "low": "低",
+            "medium": "中",
+            "high": "高"
+        },
         "useSuggestFollowupQuestions": "フォローアップの質問を提案",
         "useGPT4V": "GPT Visionモデルを使用",
         "gpt4VInput": {
@@ -140,6 +146,10 @@
             "Azure AI Searchのセマンティック・ランカーを有効にします(ユーザーのクエリに対するセマンティック類似性に基づいて検索結果をリランク付けするモデル)。",
         "useSemanticCaptions":
             "完全な検索結果ではなく、LLMにセマンティック・キャプションを送信します。セマンティック・キャプションは、セマンティック・ランキングの処理中に検索結果から抽出されます。",
+        "useQueryRewriting":
+            "Azure AI Searchのクエリの書き換えを有効にします。これは、ユーザーのクエリを変更して検索結果を改善するプロセスです。セマンティック・ランカーが有効になっている必要があります。",
+        "reasoningEffort":
+            "LLMの推論労力を設定します。値が高いほど推論が増加しますが、応答の生成に時間がかかる場合があります。デフォルトは中です。",
         "suggestFollowupQuestions": "ユーザーのクエリに基づいて、LLMにフォローアップの質問を提案するように問い合わせます。",
         "useGPT4Vision": "インデックスから画像とテキストを利用して回答を生成するためGPT-4-Turbo with Visionを使用します。",
         "vectorFields":
diff --git a/app/frontend/src/locales/nl/translation.json b/app/frontend/src/locales/nl/translation.json
@@ -91,6 +91,12 @@
         "useSemanticRanker": "Semantische rangschikking gebruiken",
         "useSemanticCaptions": "Semantische bijschriften gebruiken",
         "useQueryRewriting": "Gebruik de herformulering van zoekopdrachten om informatie op te halen",
+        "reasoningEffort": "Redeneerinspanning",
+        "reasoningEffortOptions": {
+            "low": "Laag",
+            "medium": "Gemiddeld",
+            "high": "Hoog"
+        },
         "useSuggestFollowupQuestions": "Vervolgvragen voorstellen",
         "useGPT4V": "GPT-visiemodel gebruiken",
         "gpt4VInput": {
@@ -142,6 +148,10 @@
             "Activeert de semantische ranker van Azure AI Search, een model dat zoekresultaten rangschikt op basis van semantische overeenkomst met de zoekopdracht.",
         "useSemanticCaptions":
             "Stuurt semantische bijschriften naar het taalmodel in plaats van het volledige zoekresultaat. Een semantisch bijschrift wordt geëxtraheerd voor ieder zoekresultaat tijdens het toepassen van de semantische ranker.",
+        "useQueryRewriting":
+            "Schakelt Azure AI Search query herformulering in, een proces dat de query van de gebruiker wijzigt om zoekresultaten te verbeteren. Vereist dat semantische rangschikking is ingeschakeld.",
+        "reasoningEffort":
+            "Stelt de redeneerinspanning voor het taalmodel in. Hogere waarden resulteren in meer redeneren, maar kunnen langer duren om een reactie te genereren. De standaard is gemiddeld.",
         "suggestFollowupQuestions": "Vraagt het taalmodel om vervolgvragen voor te stellen op basis van de vraag.",
         "useGPT4Vision": "Gebruikt GPT-4-Turbo met Vision om antwoorden te genereren op basis van afbeeldingen en tekst uit de index.",
         "vectorFields":
diff --git a/app/frontend/src/locales/ptBR/translation.json b/app/frontend/src/locales/ptBR/translation.json
diff --git a/app/frontend/src/locales/tr/translation.json b/app/frontend/src/locales/tr/translation.json