Whisper Local API

Una implementación local de la API de Whisper para transcripción de audio usando FastAPI.

Características

Transcripción de audio usando el modelo Whisper de OpenAI
Soporte para múltiples idiomas con detección automática
Preprocesamiento de audio para mejorar la calidad de transcripción
API RESTful con autenticación por token
Soporte para Windows y Linux

Requisitos

Python 3.8 o superior
FFmpeg (requerido para procesar archivos de audio)
Torch (CPU o GPU)
2GB de espacio en disco para los modelos

Instalación

Windows

Instalar Python 3.8 o superior desde python.org
Instalar FFmpeg:
- Descargar FFmpeg desde ffmpeg.org
- Extraer el archivo zip
- Agregar la carpeta bin al PATH del sistema

Clonar el repositorio:

git clone https://github.com/tu-usuario/whisper-local.git
cd whisper-local

Ejecutar el script de configuración:
```
setup.bat
```

Linux

Instalar dependencias del sistema:

sudo apt update
sudo apt install python3-pip python3-venv ffmpeg

Clonar el repositorio y configurar:

git clone https://github.com/tu-usuario/whisper-local.git
cd whisper-local
./setup.sh

Configuración

Copiar .env.example a .env:
```
cp .env.example .env
```

Editar .env con tus configuraciones:

API_KEY=tu-api-key
HOST=0.0.0.0
PORT=8000
WHISPER_MODEL=small  # opciones: tiny, base, small, medium, large

Uso

Iniciar el servidor:
```
python api_server.py
```

Hacer una petición de transcripción:

curl -X POST "http://localhost:8000/transcribe/" \
     -H "Authorization: Bearer tu-api-key" \
     -H "accept: application/json" \
     -H "Content-Type: multipart/form-data" \
     -F "file=@tu-archivo.wav" \
     -F "language=es"  # opcional

Modelos Disponibles

tiny: Más rápido, menos preciso (~1GB RAM)
base: Balance entre velocidad y precisión (~1GB RAM)
small: Mejor precisión, más lento (~2GB RAM)
medium: Alta precisión, muy lento (~5GB RAM)
large: Máxima precisión, extremadamente lento (~10GB RAM)

Solución de Problemas

Windows

Error "FFmpeg not found":
- Verificar que FFmpeg está en el PATH
- Reiniciar la terminal después de agregar FFmpeg al PATH
Error de CUDA:
- Por defecto se usa CPU
- Para GPU, instalar CUDA Toolkit y cuDNN
- Actualizar torch con soporte CUDA: pip install torch --index-url https://download.pytorch.org/whl/cu118
Error de tipos de datos:
- Asegurarse de tener instalado scipy: pip install scipy
- Los archivos de audio deben estar en formato WAV o MP3

Linux

Error de permisos FFmpeg:
```
sudo chmod +x /usr/bin/ffmpeg
```
Error de memoria:
- Usar un modelo más pequeño en .env
- Cerrar aplicaciones innecesarias

Notas de Desarrollo

El preprocesamiento de audio incluye:
- Normalización de amplitud
- Filtrado de frecuencias para voz (300-3000 Hz)
- Reducción de ruido básica
Parámetros de transcripción optimizados:
- temperature=0: Más determinístico
- best_of=5: Mejores resultados
- beam_size=5: Mejor decodificación
- condition_on_previous_text=True: Usa contexto

Contribuir

Fork el repositorio
Crear una rama para tu feature
Commit tus cambios
Push a la rama
Crear un Pull Request

Licencia

MIT

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
.env.example		.env.example
.gitignore		.gitignore
README.md		README.md
api_server.py		api_server.py
pyproject.toml		pyproject.toml
setup.bat		setup.bat
setup.sh		setup.sh
whisper_module.py		whisper_module.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Whisper Local API

Características

Requisitos

Instalación

Windows

Linux

Configuración

Uso

Modelos Disponibles

Solución de Problemas

Windows

Linux

Notas de Desarrollo

Contribuir

Licencia

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Whisper Local API

Características

Requisitos

Instalación

Windows

Linux

Configuración

Uso

Modelos Disponibles

Solución de Problemas

Windows

Linux

Notas de Desarrollo

Contribuir

Licencia

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages