Chuyển tới nội dung chính

Vllm Use Case

Bước 1: Tạo GPU Container sử dụng template vllm-openai

Trong trường Biến môi trường, hãy tùy chỉnh giá trị để khớp với API key (dùng cho yêu cầu suy luận) và Hugging Face token của bạn để tải mô hình từ Hugging Face. Trong hướng dẫn này, chúng ta đang sử dụng Deepseek-R1-Distill-Qwen-1.5B. Hãy thay thế giá trị của MODEL bằng mô hình khác bạn muốn dùng để suy luận.

Alt text

Hãy nhớ thay thế giá trị Hugging Face token của bạn vào trường HF_TOKEN.

Alt text

Alt text

Bước 2: Kiểm tra bằng Postman. Sử dụng API_Token đã thêm ở Bước 1 để xác thực

{HTTP Endpoint}/v1/completions

Alt text