Các Tasks Khác
Chúng tôi cung cấp các tasks sau tùy thuộc vào test suite được chọn:
| Test suite | Tasks | Mô tả |
|---|---|---|
| Nejumi Leaderboard 3 | Jaster | Đo khả năng hiểu và xử lý ngôn ngữ tiếng Nhật của mô hình. |
| JBBQ | Đo sai lệch xã hội trong việc trả lời câu hỏi tiếng Nhật bằng LLMs. | |
| JtruthfulQA | Đo độ trung thực trong câu trả lời của mô hình đối với các câu hỏi tiếng Nhật. | |
| LM Evaluation Harness | ARC | Đo khả năng lập luận khoa học trên các câu hỏi cấp tiểu học. |
| GSM8K | Đo khả năng lập luận nhiều bước trong các bài toán đố toán học. | |
| HellaSwag | Đo khả năng lập luận thông thường theo ngữ cảnh. | |
| HumanEval | Đo khả năng tạo code Python. | |
| IFEval | Đo khả năng tuân theo hướng dẫn và từ chối đầu vào có hại. | |
| LAMBADA | Đo khả năng hiểu ngữ cảnh tầm xa. | |
| MMLU | Đo khả năng lập luận trên 57 chủ đề học thuật/chuyên nghiệp. | |
| OpenBookQA | Đo khả năng hỏi đáp khoa học sử dụng các sự kiện và kiến thức thông thường. | |
| PIQA | Đo khả năng lập luận thông thường về vật lý. | |
| SciQ | Đo khả năng hỏi đáp trắc nghiệm khoa học cho cấp tiểu học và trung học cơ sở. | |
| TruthfulQA | Đo độ trung thực trong việc trả lời câu hỏi dạng mở. | |
| Winogrande | Đo khả năng hiểu ngữ nghĩa trong các nhiệm vụ phân biệt đại từ nhân xưng. | |
| VLM Evaluation Kit | ChartQA | Đo kỹ năng diễn giải dữ liệu từ biểu đồ và trả lời câu hỏi. |
| DocVQA | Đo hiệu suất trả lời câu hỏi trên ảnh tài liệu. | |
| InfoVQA | Đo khả năng trả lời câu hỏi dựa trên thông tin nhúng trong hình ảnh. | |
| MTVQA | Đo hiệu suất trả lời câu hỏi thị giác-văn bản đa ngôn ngữ. | |
| OCRBench | Đo độ chính xác nhận dạng ký tự quang học trên các bộ dữ liệu đa dạng. |
