Các Tasks Khác

Chúng tôi cung cấp các tasks sau tùy thuộc vào test suite được chọn:

Test suite	Tasks	Mô tả
Nejumi Leaderboard 3	Jaster	Đo khả năng hiểu và xử lý ngôn ngữ tiếng Nhật của mô hình.
	JBBQ	Đo sai lệch xã hội trong việc trả lời câu hỏi tiếng Nhật bằng LLMs.
	JtruthfulQA	Đo độ trung thực trong câu trả lời của mô hình đối với các câu hỏi tiếng Nhật.
LM Evaluation Harness	ARC	Đo khả năng lập luận khoa học trên các câu hỏi cấp tiểu học.
	GSM8K	Đo khả năng lập luận nhiều bước trong các bài toán đố toán học.
	HellaSwag	Đo khả năng lập luận thông thường theo ngữ cảnh.
	HumanEval	Đo khả năng tạo code Python.
	IFEval	Đo khả năng tuân theo hướng dẫn và từ chối đầu vào có hại.
	LAMBADA	Đo khả năng hiểu ngữ cảnh tầm xa.
	MMLU	Đo khả năng lập luận trên 57 chủ đề học thuật/chuyên nghiệp.
	OpenBookQA	Đo khả năng hỏi đáp khoa học sử dụng các sự kiện và kiến thức thông thường.
	PIQA	Đo khả năng lập luận thông thường về vật lý.
	SciQ	Đo khả năng hỏi đáp trắc nghiệm khoa học cho cấp tiểu học và trung học cơ sở.
	TruthfulQA	Đo độ trung thực trong việc trả lời câu hỏi dạng mở.
	Winogrande	Đo khả năng hiểu ngữ nghĩa trong các nhiệm vụ phân biệt đại từ nhân xưng.
VLM Evaluation Kit	ChartQA	Đo kỹ năng diễn giải dữ liệu từ biểu đồ và trả lời câu hỏi.
	DocVQA	Đo hiệu suất trả lời câu hỏi trên ảnh tài liệu.
	InfoVQA	Đo khả năng trả lời câu hỏi dựa trên thông tin nhúng trong hình ảnh.
	MTVQA	Đo hiệu suất trả lời câu hỏi thị giác-văn bản đa ngôn ngữ.
	OCRBench	Đo độ chính xác nhận dạng ký tự quang học trên các bộ dữ liệu đa dạng.