CI: Spanish tests

ariya · ariya · commit 2f8069e9de81 · 2025-06-29T18:23:29.000-07:00
diff --git a/.github/workflows/spanish.yml b/.github/workflows/spanish.yml
@@ -0,0 +1,94 @@
+name: Spanish tests
+
+on: [workflow_dispatch, push, pull_request]
+
+jobs:
+
+  canary-multi-turn:
+    runs-on: ubuntu-22.04
+    timeout-minutes: 3
+    strategy:
+      max-parallel: 3
+      fail-fast: false
+      matrix:
+        model:
+          - meta-llama/llama-3.2-3b-instruct             # $0.0100/$0.0200 [ 128K]
+          - mistralai/mistral-nemo                       # $0.0100/$0.0270 [ 128K]
+          - google/gemma-3n-e4b-it                       # $0.0200/$0.0400 [  32K]
+          - google/gemma-3-4b-it                         # $0.0200/$0.0400 [ 128K]
+          - mistralai/ministral-3b                       # $0.0400/$0.0400 [ 128K]
+          - mistralai/mistral-7b-instruct-v0.3           # $0.0280/$0.0540 [  32K]
+          - mistralai/mistral-small-3.2-24b-instruct     # $0.0500/$0.1000 [  32K]
+          - google/gemma-3-12b-it                        # $0.0500/$0.1000 [ 128K]
+          - microsoft/phi-3-mini-128k-instruct           # $0.1000/$0.1000 [ 128K]
+          - qwen/qwen3-8b                                # $0.0350/$0.1380 [ 128K]
+          - amazon/nova-micro-v1                         # $0.0350/$0.1400 [ 128K]
+          - microsoft/phi-4                              # $0.0700/$0.1400 [  16K]
+          - google/gemini-flash-1.5-8b                   # $0.0380/$0.1500 [1000K]
+          - amazon/nova-lite-v1                          # $0.0600/$0.2400 [ 300K]
+          - qwen/qwen3-14b                               # $0.0800/$0.2400 [  40K]
+          - mistralai/mixtral-8x7b-instruct              # $0.2400/$0.2400 [  32K]
+          - meta-llama/llama-3.3-70b-instruct            # $0.0700/$0.2500 [ 128K]
+          - qwen/qwen3-30b-a3b                           # $0.0800/$0.2900 [  40K]
+          - google/gemini-2.0-flash-lite-001             # $0.0750/$0.3000 [1000K]
+          - meta-llama/llama-4-scout                     # $0.0800/$0.3000 [ 320K]
+          - google/gemini-2.0-flash-001                  # $0.1000/$0.4000 [1000K]
+          - openai/gpt-4.1-nano                          # $0.1000/$0.4000 [1000K]
+          - google/gemini-2.5-flash-lite-preview-06-17   # $0.1000/$0.4000 [1000K]
+
+    steps:
+      - uses: actions/checkout@v4
+
+      - run: ./chat-llm.js tests/es/canary-single-turn.txt
+        env:
+          LLM_API_BASE_URL: https://openrouter.ai/api/v1
+          LLM_API_KEY: ${{ secrets.LLM_API_KEY }}
+          LLM_CHAT_MODEL: ${{ matrix.model }}
+
+      - run: ./chat-llm.js tests/es/canary-multi-turn.txt
+        env:
+          LLM_API_BASE_URL: https://openrouter.ai/api/v1
+          LLM_API_KEY: ${{ secrets.LLM_API_KEY }}
+          LLM_CHAT_MODEL: ${{ matrix.model }}
+
+
+  high-school-stem:
+    runs-on: ubuntu-22.04
+    timeout-minutes: 5
+    strategy:
+      max-parallel: 3
+      fail-fast: false
+      matrix:
+        model:
+          - meta-llama/llama-3.2-3b-instruct             # $0.0100/$0.0200 [ 128K]
+          - mistralai/mistral-nemo                       # $0.0100/$0.0270 [ 128K]
+          - google/gemma-3n-e4b-it                       # $0.0200/$0.0400 [  32K]
+          - google/gemma-3-4b-it                         # $0.0200/$0.0400 [ 128K]
+          - mistralai/ministral-3b                       # $0.0400/$0.0400 [ 128K]
+          - mistralai/mistral-7b-instruct-v0.3           # $0.0280/$0.0540 [  32K]
+          - mistralai/mistral-small-3.2-24b-instruct     # $0.0500/$0.1000 [  32K]
+          - google/gemma-3-12b-it                        # $0.0500/$0.1000 [ 128K]
+          - microsoft/phi-3-mini-128k-instruct           # $0.1000/$0.1000 [ 128K]          
+          - qwen/qwen3-8b                                # $0.0350/$0.1380 [ 128K]
+          - amazon/nova-micro-v1                         # $0.0350/$0.1400 [ 128K]
+          - microsoft/phi-4                              # $0.0700/$0.1400 [  16K]
+          - google/gemini-flash-1.5-8b                   # $0.0380/$0.1500 [1000K]
+          - amazon/nova-lite-v1                          # $0.0600/$0.2400 [ 300K]
+          - qwen/qwen3-14b                               # $0.0800/$0.2400 [  40K]
+          - mistralai/mixtral-8x7b-instruct              # $0.2400/$0.2400 [  32K]
+          - meta-llama/llama-3.3-70b-instruct            # $0.0700/$0.2500 [ 128K]
+          - qwen/qwen3-30b-a3b                           # $0.0800/$0.2900 [  40K]
+          - google/gemini-2.0-flash-lite-001             # $0.0750/$0.3000 [1000K]
+          - meta-llama/llama-4-scout                     # $0.0800/$0.3000 [ 320K]
+          - google/gemini-2.0-flash-001                  # $0.1000/$0.4000 [1000K]
+          - openai/gpt-4.1-nano                          # $0.1000/$0.4000 [1000K]
+          - google/gemini-2.5-flash-lite-preview-06-17   # $0.1000/$0.4000 [1000K]
+
+    steps:
+      - uses: actions/checkout@v4
+
+      - run: ./chat-llm.js tests/es/high-school-stem.txt
+        env:
+          LLM_API_BASE_URL: https://openrouter.ai/api/v1
+          LLM_API_KEY: ${{ secrets.LLM_API_KEY }}
+          LLM_CHAT_MODEL: ${{ matrix.model }}
diff --git a/chat-llm.js b/chat-llm.js
@@ -202,7 +202,7 @@ Be as casual and as long as you want until you are confident to generate a corre
 </think>
 
 Your answer should be a sentence or two, unless the user's request requires long-form outputs.
-Never use emojis. Never use markdown. Always answer in plain text.`;
+Never use emojis. Never use markdown. Always answer in plain text and  in the same language as the query.`;
 
 const reply = async (context) => {
     const { inquiry, history, delegates } = context;
diff --git a/tests/es/canary-multi-turn.txt b/tests/es/canary-multi-turn.txt
@@ -0,0 +1,11 @@
+User: ¿Cuál es el planeta más grande de nuestro sistema solar?
+Assistant: /Jupiter|Júpiter/ es el planeta más grande de nuestro sistema solar.
+
+User: ¿Y el más caliente?
+Assistant: /Venus|Vénus/ es el planeta más caliente de nuestro sistema solar.
+
+User: ¿Y cuál es conocido como "El Planeta Rojo"?
+Assistant: /Marte/, debido a su apariencia rojiza causada por el óxido de hierro en su superficie.
+
+User: ¿Y cuál es conocido por su prominente sistema de anillos?
+Assistant: ¡Ese debe ser /Saturn(o)?/!
diff --git a/tests/es/canary-single-turn.txt b/tests/es/canary-single-turn.txt
@@ -0,0 +1,2 @@
+User: ¿Cuál es el planeta más grande de nuestro sistema solar?
+Assistant: /Jupiter|Júpiter/ es el planeta más grande de nuestro sistema solar.
diff --git a/tests/es/high-school-stem.txt b/tests/es/high-school-stem.txt
@@ -0,0 +1,22 @@
+Story: Preguntas sobre temas STEM en la escuela secundaria
+
+User: ¿Qué fuerza atrae los objetos hacia el centro de la Tierra?
+Assistant: La /gravedad|fuerza gravitatoria|fuerza gravitacional|atracción terrestre|gravitación/ atrae los objetos hacia el centro de la Tierra.
+
+User: ¿Cuál es el número atómico del carbono?
+Assistant: El número atómico del carbono es /6|seis/.
+
+User: ¿Mediante qué proceso producen las plantas su propio alimento?
+Assistant: Las plantas producen su propio alimento mediante el proceso de /fotosíntesis|fotosintético|metabolismo ácido/.
+
+User: ¿Cuál es la suma (en grados) de los ángulos internos de un triángulo?
+Assistant: La suma de los ángulos internos de un triángulo es /180/ grados.
+
+User: ¿Cuál es la unidad de medida de la fuerza?
+Assistant: La unidad de medida de la fuerza es el /Newton/ (N).
+
+User: ¿Cuál es el símbolo del elemento magnesio?
+Assistant: El símbolo del elemento magnesio es /Mg/.
+
+User: ¿Cuáles son las partículas más pequeñas conocidas de la materia?
+Assistant: Las partículas más pequeñas conocidas de la materia son /partículas( elementales)?|quark[s]?|leptones|protones|neutrones|electrones/.

Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,2 @@`
	`1`	`+User: ¿Cuál es el planeta más grande de nuestro sistema solar?`
	`2`	`+Assistant: /Jupiter\|Júpiter/ es el planeta más grande de nuestro sistema solar.`