vLLM OpenAI-Compatible for RunPod

Este repositório permite criar um endpoint serverless no RunPod com o vLLM rodando no estilo OpenAI API.

Como usar

Clone este repo no RunPod (GitHub Repo).
Defina estas env vars:
- MODEL_NAME=TheBloke/Meditron-70B-AWQ
- HUGGING_FACE_HUB_TOKEN=hf_XXXXXXXXXXXXXX
Usar GPU de 48 GB ou 80 GB.
Acesse o endpoint /v1/chat/completions!

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
.gitignore		.gitignore
Dockerfile		Dockerfile
README.md		README.md