Skip to content

surus-lat/tango-evals

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3,707 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Tango Evals

Repositorio para reproducir las evaluaciones de laleaderboard con el modelo Tango-70b.

Resultados

Comparación con otros modelos en laleaderboard_es

Model Average AQuAS Belebele Spa ClinDiagnosES ClinTreatES COPA_es Crows Pairs Spanish EsCoLA Fake News ES HumorQA MGSM_es NoticIA OffendES OpenBookQA_es PAWS-X_es RagQuAS SpaLawEx TELEIA WNLI ES XL-Sum_es XNLI_es XQuAD_es xStoryCloze_es Precision
Tango-70b 59.90 75.78 92.00 65.72 63.43 89.60 55.96 71.79 76.57 25.49 32.40 0.86 72.64 34.80 70.95 79.87 51.26 61.90 77.46 19.71 52.37 75.16 74.72 -
google/gemma-2-9b-it 33.62 85.93 86.22 83.19 81.42 78.80 17.96 34.52 62.94 45.10 0 34.11 64.52 9.33 27.60 88.01 30.53 35.72 52.11 0 24.28 62.29 35.01 bfloat16
google/gemma-2-9b 32.97 83.02 83.26 77.77 80.93 68.80 13.59 28.79 16.00 45.10 4.80 0.23 66.33 12.00 24.70 86.79 5.88 35.72 4.23 0 29.76 75.33 47.98
meta-llama/Meta-Llama-3.1-8B-Instruct 30.23 85.31 83.56 81.75 73.40 72.00 6.03 24.24 60.14 37.25 0 28.71 57.00 12.00 33.20 88.62 19.33 21.43 32.39 0 25.30 69.94 35.54 bfloat16
Qwen/Qwen2.5-7B 27.61 85.37 84.89 79.25 81.90 62.00 8.81 20.72 42.66 45.10 5.20 3.93 67.03 10.67 29.60 90.43 19.33 14.29 40.85 0 25.30 80.05 38.19 bfloat16
meta-llama/Meta-Llama-3.1-8B 27.04 83.02 74.52 80.71 81.21 62.00 0 11.53 19.58 45.10 1.60 2.60 66.23 13.07 30.10 90.69 5.88 0 1.41 0 28.86 74.38 41.63 bfloat16
utter-project/EuroLLM-9B 25.87 83.10 67.70 72.24 74.52 70.40 3.25 18.29 7.34 42.48 3.60 0.19 70.26 17.07 31.00 83.11 5.88 14.29 7.04 0 27.71 76.92 44.01 bfloat16
BSC-LT/salamandra-7b-instruct 25.13 84.13 57.33 80.38 82.03 62.00 10.67 7.68 8.74 0 0 19.38 67.83 14.93 19.50 88.78 18.21 21.43 9.86 0 24.28 58.31 30.38 bfloat16
utter-project/EuroLLM-9B-Instruct 24.46 84.81 69.78 80.90 77.76 72.40 11.20 24.57 38.11 26.80 0 26.80 61.91 13.60 26.10 90.79 13.73 21.43 29.58 0 24.82 58.48 33.69 bfloat16
CohereForAI/aya-expanse-8b 24.30 83.45 77.78 78.88 72.24 68.00 9.21 15.53 19.58 0 0 0.46 62.23 8.53 33.90 89.02 13.73 50.00 38.03 0 15.79 77.98 34.08 float16
BSC-LT/salamandra-7b 24.04 81.93 22.07 74.68 78.11 62.80 5.37 21.46 19.58 45.10 2.40 0.17 57.27 10.40 18.60 87.78 5.88 0 15.49 0 26.15 69.21 46.92

Notas:

  • Average: Media no ponderada de todas las métricas válidas de todas las tareas (46 valores totales)
  • Promedio (Solo Accuracy): Media no ponderada de todas las métricas acc* (22 valores de accuracy)
  • Promedio (Todas las métricas): Media no ponderada de todas las métricas válidas de todas las tareas (46 valores totales)
  • Los resultados de otros modelos provienen de laleaderboard_es
  • Tango-70b destaca especialmente en: Average (59.90), Belebele Spa (92.00), COPA_es (89.60), EsCoLA (71.79), RagQuAS (79.87), SpaLawEx (51.26), y XL-Sum_es (19.71)
  • Tango-70b supera significativamente al segundo mejor modelo (google/gemma-2-9b-it con 33.62) por 26.28 puntos porcentuales

Resultantes del proceso de evaluación (.json y .log)

Podés encontrar los resultados del proceso de evaluación en ./tango-evals y en ./logs

Reproducir los resultados

  1. Creá y activá un virtual-env de Python ≥ 3.9.

    python -m venv .venv
    source .venv/bin/activate
    
  2. Instalá dependencias de lm-evaluation-harness en modo editable:

    pip install -e .
  3. Logeate en Hugging Face

    huggingface-cli login
  4. Ejecutá el script de evaluación:

    chmod +x run_laleaderboard_es.sh
    ./run_laleaderboard_es.sh
  5. Ejecutá el script de agregación de resultados

    python aggregate_laleaderboard_es_acc.py

El script run_laleaderboard_es.sh recorre cada sub-tarea definida en lm_eval/tasks/laleaderboard/laleaderboard_es.yaml, ejecutando una a la vez. Apenas una tarea termina se escribe el archivo results_<timestamp>.json, por lo que si el proceso se interrumpe conservás todo lo ya completado.

El script aggregate_laleaderboard_es_acc.py lee todos los archivos results_*.json en tango-evals/ y calcula:

  • Media de métricas de accuracy únicamente
  • Media de todas las métricas (primera métrica de cada tarea)

Dónde quedan los resultados

Los resultados se guardan en el directorio indicado en OUTPUT_DIR al principio del script (por defecto ./tango-evals). Ejemplo de estructura:

<OUTPUT_DIR>/
  └── <model-name-sanitised>/
        ├── results_2024-05-29T14-52-17.json   # métricas de una tarea
        └── …                                  # más tareas / timestamps

Los logs de consola por tarea se almacenan en ./logs/ junto al script.

Reanudar o volver a correr

• El script detecta archivos results_*<task>.json existentes y salta esas tareas.
• Podés ajustar MODEL_ARGS, tamaño de batch, dispositivo, etc. editando el encabezado del script.

Hardware

– Hardware usado: 4 × NVIDIA RTX 3090, 256 GB RAM.
– Ajustá batch size o paralelismo según tu GPU.

About

No description, website, or topics provided.

Resources

License

Contributing

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages