インフラのセットアップ
single-nodeおよびmulti-nodeの両構成をサポートしており、最大16ノードまで対応しています。
以下のガイドラインに基づいて適切なインフラを選択することをお勧めします。
- GPUの数はモデルサイズによって異なります。
- 1B未満のパラメータ: GPU 1台(2GB VRAM)で十分
- 7Bパラメータ: GPU 2〜4台(各40GB VRAM)
- 13Bパラメータ: GPU 4〜8台を推奨
- 30B以上のパラメータ: GPU 8台以上およびmulti-node構成が必要
- single-nodeとmulti-nodeの使い分け:
- 小〜中規模モデル(13Bまで)は複数GPUを搭載した single-node で十分
- 大規模モデル(30B以上)はメモリと性能の観点から multi-node 構成を推奨
- GPUメモリの最小要件:
- 標準的なfine-tuningでは1GPU当たり最低24GB。
- LoRAまたはQLoRA方式を使用することで、VRAM 8〜16GBのGPUでもfine-tuningが可能です。
例:
モデル: Llama-3.1-8B-Instruct
- Training type: Full
- GPU数: GPU 2台に収まります(使用率約99%)。安定した実行のためにGPU 4台を推奨
- Distributed backend: DeepSpeed
- ZeRO stage: 3
- Batch size per device: 1
- その他のパラメータはデフォルトのまま使用可能
- Training type: LoRA
- GPU数: GPU 1台に収まります
- LoRA rank: 16
- Batch size per device: 1
- その他のパラメータはデフォルトのまま使用可能
- 最適なトレーニング構成を計算するには、こちらをご参照ください: https://rahulschand.github.io/gpu_poor/(オーバーヘッド10〜20%)
