トレーナーの選択

トレーニング用に選択したモデルを誘導する適切なトレーナーを選択します。

モデルを最適化するために 3 種類のトレーナーを提供しています:

トレーナー	定義	仕組み	最適な用途
SFT (Supervised fine-tuning)	入力と出力のペアでモデルをトレーニングし、特定の入力に対して望ましい応答を生成するよう教える基本的な手法です。	- プロンプトに対する正しい応答の例を提供してモデルの動作を誘導します。

モデルがどのように応答すべきかを示すために、人間が作成した「グラウンドトゥルース」応答をよく使用します。 | - 分類
微妙なニュアンスのある翻訳
特定の形式でのコンテンツ生成
instruction-following の失敗の修正 |
| DPO (Direct preference optimization) | 別の報酬モデルを必要とせず、比較フィードバックから学習することで、モデルが特定の種類の応答を他よりも好むようにトレーニングします。 | - プロンプトに対して正しい応答と誤った応答の両方を提供します。
モデルのパフォーマンスを向上させるために正しい応答を示します。 | - 適切な内容に焦点を当てたテキストの要約
適切なトーンとスタイルでのチャットメッセージの生成 |
| Pre-training | 言語理解のために大量のラベルなしデータを使用する初期トレーニングフェーズです。 | - 文法、事実、推論パターン、世界知識を学習するために膨大な量のテキストデータをモデルに提供します。
ラベル付きの例は不要です。 | - 基礎的な言語理解の構築
ダウンストリームのファインチューニングタスクへのモデルの準備 |