Vllm Use Case
ステップ1:vllm-openaiテンプレートを使用してGPU Containerを作成する
環境変数フィールドで、APIキー(推論リクエストに使用)とHugging FaceトークンをHugging Faceからモデルをダウンロードするために一致するよう値をカスタマイズします。 このチュートリアルでは、Deepseek-R1-Distill-Qwen-1.5Bを使用しています。推論に使用したい他のモデルにMODELの値を置き換えてください。

HF_TOKENフィールドにHugging FaceトークンをHugging Faceの値に置き換えることを忘れないでください。


ステップ2:Postmanを使用してテストする。ステップ1で追加したAPI_Tokenを使用して認証します
{HTTP Endpoint}/v1/completions
