Vllm Use Case

Bước 1: Tạo GPU Container sử dụng template vllm-openai

Trong trường Biến môi trường, hãy tùy chỉnh giá trị để khớp với API key (dùng cho yêu cầu suy luận) và Hugging Face token của bạn để tải mô hình từ Hugging Face. Trong hướng dẫn này, chúng ta đang sử dụng Deepseek-R1-Distill-Qwen-1.5B. Hãy thay thế giá trị của MODEL bằng mô hình khác bạn muốn dùng để suy luận.

Alt text