メインコンテンツまでスキップ

パイプラインの作成方法

ステップ 1

  • ベースモデルの選択:
    • Model Catalog(例: DeepSeek、Gemma、Llama、Qwen)または Private Model リポジトリから基盤モデルを選択します。モデルはサイズ(0.5B から 72B パラメータ)、タイプ(LLM、VLM)、トレーニングステージ(事前学習済みまたは instruction チューニング済み)によって異なります。
  • トレーナーの選択:
    • タスクとデータタイプに応じて、SFT(Supervised Fine-tuning)、DPO(Direct Preference Optimization)、Pre-training などのトレーニング手法を選択します。
  • ボリュームの選択:
    • データセットサイズに基づいてストレージタイプを選択します: 20GiB 未満のデータセットには Managed Volume、手動プロビジョニングが必要な大規模データセットには Dedicated Network Volume を使用します。

ステップ 2

  • データセット形式の選択:
    • 選択したトレーナーに基づいて適切な形式(Alpaca、ShareGPT、Corpus など)を選択します。
  • データセットの選択:
    • トレーニングデータセットと評価データセットをアップロードするか、Data Hub に接続します。モデルのパフォーマンスを最適化するために、データの品質、一貫性、正しい形式を確保してください。

ステップ 3

  • ハイパーパラメータの設定:
    • バッチサイズ、学習率、エポック数、オプティマイザーの設定などのトレーニングパラメータを設定します。DPO、LoRA、ランタイム最適化のための高度なオプションも利用できます。
  • インフラストラクチャの設定:
    • 最大 16 ノードまでのシングルノードおよびマルチノードの両方をサポートしています。

ステップ 4

  • 完了:
    • パイプラインに名前を付け、オプションで説明を追加します。パイプラインが成功または失敗したときにメール通知が届きます。