パイプラインの作成方法

ベースモデルの選択:
- Model Catalog（例: DeepSeek、Gemma、Llama、Qwen）または Private Model リポジトリから基盤モデルを選択します。モデルはサイズ（0.5B から 72B パラメータ）、タイプ（LLM、VLM）、トレーニングステージ（事前学習済みまたは instruction チューニング済み）によって異なります。
トレーナーの選択:
- タスクとデータタイプに応じて、SFT（Supervised Fine-tuning）、DPO（Direct Preference Optimization）、Pre-training などのトレーニング手法を選択します。
ボリュームの選択:
- データセットサイズに基づいてストレージタイプを選択します: 20GiB 未満のデータセットには Managed Volume、手動プロビジョニングが必要な大規模データセットには Dedicated Network Volume を使用します。

データセット形式の選択:
- 選択したトレーナーに基づいて適切な形式（Alpaca、ShareGPT、Corpus など）を選択します。
データセットの選択:
- トレーニングデータセットと評価データセットをアップロードするか、Data Hub に接続します。モデルのパフォーマンスを最適化するために、データの品質、一貫性、正しい形式を確保してください。

ハイパーパラメータの設定:
- バッチサイズ、学習率、エポック数、オプティマイザーの設定などのトレーニングパラメータを設定します。DPO、LoRA、ランタイム最適化のための高度なオプションも利用できます。
インフラストラクチャの設定:
- 最大 16 ノードまでのシングルノードおよびマルチノードの両方をサポートしています。