Este repositório permite criar um endpoint serverless no RunPod com o vLLM rodando no estilo OpenAI API.
- Clone este repo no RunPod (GitHub Repo).
- Defina estas env vars:
MODEL_NAME=TheBloke/Meditron-70B-AWQ
HUGGING_FACE_HUB_TOKEN=hf_XXXXXXXXXXXXXX
- Usar GPU de 48 GB ou 80 GB.
- Acesse o endpoint
/v1/chat/completions
!