メインコンテンツまでスキップ

データセットの選択

まず最初に、意図したユースケースでのモデルのパフォーマンスに直接影響するため、最適なデータセットを準備する必要があります。 優れたデータセット品質によって実現できること:

  • 残存する問題に対処するための例を収集する。
    • モデルが特定の側面でまだ十分でない場合は、それらの側面を正しく実行する方法を直接示すトレーニング例を追加してください。
  • 既存の例の問題点を精査する。
    • モデルに文法、論理、スタイルの問題がある場合は、データに同様の問題がないか確認してください。例えば、モデルが「このミーティングをスケジュールします」(本来すべきでない場合)と言うようになった場合、既存の例がモデルに実行できない新しいことができると教えていないか確認してください。
  • データのバランスと多様性を考慮する。
    • データ内のアシスタント応答の 60% が「これには答えられません」と言っているのに、推論時に応答の 5% だけがそう言うべき場合、拒否が過剰になる可能性があります。
  • トレーニング例に応答に必要なすべての情報が含まれていることを確認する。
    • 会話の中に見つからない特徴に基づいてモデルがユーザーを褒めるように学習させたい場合、モデルが情報をハルシネーションする可能性があります。
  • トレーニング例の一致性と一貫性を確認する。
    • 複数の人がトレーニングデータを作成した場合、モデルのパフォーマンスは人々の間の一致度と一貫性のレベルによって制限される可能性があります。例えば、テキスト抽出タスクで人々が抽出したスニペットの 70% しか一致しない場合、モデルはこれを超えることができない可能性があります。
  • すべてのトレーニング例が推論時に期待されるのと同じ形式であることを確認する。

Alt text

Training dataEvaluation data を転送する方法は 2 つあります:

  • ファイルのアップロード
    1. デフォルト値は Upload file です。
    2. コンピュータからローカルファイルを選択します。
    3. (オプション)Download sample をクリックして、期待される形式の例を確認できます。

注意: ファイルが選択したデータ形式と一致していることを確認してください。

Trainer対応データ形式対応ファイル形式対応ファイルサイズ
SFTAlpacaCSV
JSON
JSONLINES
ZIP
PARQUET100MB まで
SFTShareGPTJSON
JSONLINES
ZIP
PARQUET100MB まで
SFTShareGPT_ImageZIP
PARQUET100MB まで
DPOShareGPTJSON
JSONLINES
ZIP
PARQUET100MB まで
Pre-trainingCorpusTXT
JSON
JSONLINES
ZIP
PARQUET100MB まで
  • Data Hub への接続
    1. Data Hub をクリックします。
    2. Data Hub から接続またはデータセットを選択します。注意: データセットが選択した形式と互換性があることを確認してください。
    3. (オプション)Open Data Hub をクリックしてデータセットをプレビューまたは管理できます。
    4. (オプション)Reload アイコン をクリックして接続とデータセットの一覧を更新できます。
    5. Data Hub の詳細ガイドに従ってください。