Skip to content

[B-5] vLLM 모델 서빙 환경 구축 #11

@sjy361872

Description

@sjy361872

설명

vLLM으로 모델 서빙 환경을 구축하고, LoRA 어댑터 핫스왑을 설정합니다.

TODO

  • vLLM 서버 설정 (OpenAI 호환 API)
  • LoRA 어댑터 핫스왑 설정 (v1_judgment / v2_document)
  • 스트리밍 출력 설정
  • vLLM 클라이언트 코드 완성
  • Docker 이미지 설정

담당 파일

  • ai/serving/vllm_client.py
  • docker/Dockerfile.vllm

Metadata

Metadata

Assignees

Labels

Type

No type

Projects

No projects

Relationships

None yet

Development

No branches or pull requests

Issue actions