Chuyển tới nội dung chính

Các Tasks Khác

Alt text

Chúng tôi cung cấp các tasks sau tùy thuộc vào test suite được chọn:

Test suiteTasksMô tả
Nejumi Leaderboard 3JasterĐo khả năng hiểu và xử lý ngôn ngữ tiếng Nhật của mô hình.
JBBQĐo sai lệch xã hội trong việc trả lời câu hỏi tiếng Nhật bằng LLMs.
JtruthfulQAĐo độ trung thực trong câu trả lời của mô hình đối với các câu hỏi tiếng Nhật.
LM Evaluation HarnessARCĐo khả năng lập luận khoa học trên các câu hỏi cấp tiểu học.
GSM8KĐo khả năng lập luận nhiều bước trong các bài toán đố toán học.
HellaSwagĐo khả năng lập luận thông thường theo ngữ cảnh.
HumanEvalĐo khả năng tạo code Python.
IFEvalĐo khả năng tuân theo hướng dẫn và từ chối đầu vào có hại.
LAMBADAĐo khả năng hiểu ngữ cảnh tầm xa.
MMLUĐo khả năng lập luận trên 57 chủ đề học thuật/chuyên nghiệp.
OpenBookQAĐo khả năng hỏi đáp khoa học sử dụng các sự kiện và kiến thức thông thường.
PIQAĐo khả năng lập luận thông thường về vật lý.
SciQĐo khả năng hỏi đáp trắc nghiệm khoa học cho cấp tiểu học và trung học cơ sở.
TruthfulQAĐo độ trung thực trong việc trả lời câu hỏi dạng mở.
WinograndeĐo khả năng hiểu ngữ nghĩa trong các nhiệm vụ phân biệt đại từ nhân xưng.
VLM Evaluation KitChartQAĐo kỹ năng diễn giải dữ liệu từ biểu đồ và trả lời câu hỏi.
DocVQAĐo hiệu suất trả lời câu hỏi trên ảnh tài liệu.
InfoVQAĐo khả năng trả lời câu hỏi dựa trên thông tin nhúng trong hình ảnh.
MTVQAĐo hiệu suất trả lời câu hỏi thị giác-văn bản đa ngôn ngữ.
OCRBenchĐo độ chính xác nhận dạng ký tự quang học trên các bộ dữ liệu đa dạng.