Select Trainer
Chọn trainer phù hợp — trainer sẽ hướng dẫn model bạn chọn trong quá trình training.
Chúng tôi cung cấp ba trainer để tối ưu hóa model của bạn:
| Trainer | Định nghĩa | Cách hoạt động | Phù hợp nhất cho |
|---|---|---|---|
| SFT (Supervised fine-tuning) | Kỹ thuật nền tảng huấn luyện model trên các cặp input-output, dạy model tạo ra các phản hồi mong muốn cho các input cụ thể. | - Cung cấp các ví dụ về phản hồi đúng cho các prompt để hướng dẫn hành vi của model. - Thường sử dụng các phản hồi "ground truth" do con người tạo ra. | - Phân loại - Dịch thuật tinh tế - Tạo nội dung theo định dạng cụ thể - Sửa lỗi instruction-following |
| DPO (Direct preference optimization) | Huấn luyện model ưu tiên một số loại phản hồi hơn các loại khác bằng cách học từ phản hồi so sánh, không cần reward model riêng biệt. | - Cung cấp cả phản hồi đúng và sai cho một prompt. - Chỉ ra phản hồi đúng để giúp model hoạt động tốt hơn. | - Tóm tắt văn bản, tập trung vào đúng nội dung - Tạo tin nhắn chat với giọng điệu và phong cách phù hợp |
| Pre-training | Giai đoạn training ban đầu sử dụng dữ liệu không được gán nhãn quy mô lớn để hiểu ngôn ngữ. | - Tiếp xúc model với lượng lớn dữ liệu văn bản để học ngữ pháp, sự kiện, các mẫu suy luận và kiến thức thế giới. - Không yêu cầu ví dụ có nhãn. | - Xây dựng hiểu biết ngôn ngữ nền tảng - Chuẩn bị model cho các tác vụ fine-tuning downstream |
