新しいManaged GPU Clusterを作成する

注意:

この操作を実行するための必須条件：

Metal Cloud（Bare Metal HPC）のクォータが、希望するクラスターサイズを満たすのに十分であること。
BMサーバーネットワークが少なくとも1つあること。
Load Balancer用のネットワークが少なくとも1つあること。

手順1: FPT Portal のメニューで AI Infrastructure > Managed GPU Cluster > Create a Managed GPU Cluster を選択します。

手順2: General Information タブで情報を入力し、Nextをクリックします。

General Information：

• Name: クラスター名を入力します。各クラスター名は一意で、命名規則に従う必要があります。

• Network: Bare Metal GPU Server用に作成したサブネット範囲から選択します。

• Version: アプリケーションに適したKubernetesバージョンを選択します。

• Internal LB Subnet: Load BalancerサービスタイプのプライベートIPレンジを設定します。

• SSH Public Key: クラスターのWorkerノードへのSSHアクセス用SSHキー。

手順3: Nodes Pool タブで情報を入力し、Nextをクリックします。

Managed GPU Clusterを作成する際の注意点：

Managed GPU Cluster はWorker GroupsでWorkerノードを管理します。Worker Groupとは、同じ構成のWorkerノードのグループです。ユーザーは異なるアプリケーション向けにWorker Groupsを割り当てることができます。システムは最低1つのWorker Group（Base）を必要とし、このWorker Groupは削除できません。
Worker Group設定セクションで、ユーザーは希望するWorker Groupにラベルを割り当てることができます。これらのラベルはそのグループ内のすべてのWorkerノードに適用されます。ユーザーはラベルの追加・削除、既存ラベルのkey/valueの編集が可能です。ラベルにより、ユーザーは必要に応じて特定のWorker Groupにアプリケーションを簡単にデプロイできます。

➤ Worker group 1 (Base)：

• Group Name: Worker Groupを識別するための名前を入力します。

• Runtime: コンテナランタイムを選択します。現在はContainerdのみサポートされています。

• Number of Server: クラスターのWorkerとして実行するMetal Cloud Serverの数。

• Flavor: Metal Cloud GPUサーバーのフレーバータイプ。デフォルトはH100です。

• Label: Worker Group内のすべてのWorkerにKubernetesラベルを割り当てます。

ADD WORKER GROUP をクリックすることで、K8sクラスターの初期化時に追加のworker groupを追加できます。

Worker Group 2以降では、特定のworkerノードにアプリケーションをスケジュールするためにworker groupにtaintを設定できます。taintの追加・削除・編集も簡単に行えます。

注意: Unify Portalでworker groupのlabel/taintを設定した場合、kubectlでそのworker group内のノードのlabel/taintを削除することはできません（システムはUnify Portalの設定に従ってノードにlabel/taintを自動的に再適用します）。label/taintはUnify Portalから削除する必要があります。

➤ Worker Group n：

ADD WORKER GROUP をクリックすることで、K8sクラスターの初期化時に追加のWorker Groupsを追加できます。

Worker Group 2以降では、特定のWorkerノードにアプリケーションをスケジュールするためにWorker GroupsにTaintを設定できます。Taintの追加・削除・編集も簡単に行えます。

Taintsの詳細についてはこちらをご覧ください。

注意: PortalでWorker Groupのlabel/taintを設定した場合、kubectlでそのWorker Group内のノードのlabel/taintを削除することはできません（システムはPortalの設定に従ってノードにlabel/taintを自動的に再適用します）。label/taintはPortalから削除する必要があります。

手順4: Advanced セクションには詳細設定が含まれます。

• Pod Network: クラスター内のPodに使用するネットワーク。

• Service Network: クラスター内のServiceに使用するネットワーク。

• Network Node Prefix: Managed GPU Nodeあたりの最大Pod数。

• Max Pod per Node: クラスターにインストールされるCNIタイプ。Calicoのみサポートされています。

手順5: Review & Create 画面には、ユーザーが設定したすべてのクラスター設定の詳細が表示され、システムはBare Metal GPUサーバーのクォータがクラスターの初期化に十分かどうかを自動的に確認します。

システムがリソースの可用性を確認したら、Create a Managed GPU Cluster をクリックしてクラスターの作成を進めます。