Others Tasks

選択したテストスイートに応じて、以下のタスクを提供しています。

Test suite	Tasks	Description
Nejumi Leaderboard 3	Jaster	日本語の理解と処理能力を測定します。
	JBBQ	LLM による日本語質問応答における社会的バイアスを測定します。
	JtruthfulQA	日本語の質問に対するモデル回答の真実性を測定します。
LM Evaluation Harness	ARC	小学校レベルの問題における科学的推論能力を測定します。
	GSM8K	数学の文章題における多段階推論能力を測定します。
	HellaSwag	文脈に基づく常識的推論能力を測定します。
	HumanEval	Python コード生成能力を測定します。
	IFEval	指示への従順性と有害な入力の拒否能力を測定します。
	LAMBADA	長距離コンテキスト理解能力を測定します。
	MMLU	57 の学術・専門分野における推論能力を測定します。
	OpenBookQA	事実と常識を用いた科学的な質問応答能力を測定します。
	PIQA	物理的な常識推論能力を測定します。
	SciQ	小中学校レベルの科学多肢選択式質問応答能力を測定します。
	TruthfulQA	オープンドメイン質問応答における真実性を測定します。
	Winogrande	代名詞の曖昧性解消タスクにおける意味理解を測定します。
VLM Evaluation Kit	ChartQA	チャートに基づくデータ解釈と質問応答能力を測定します。
	DocVQA	文書画像に対する質問応答性能を測定します。
	InfoVQA	画像に埋め込まれた情報に基づく質問応答能力を測定します。
	MTVQA	多言語の視覚テキスト質問応答性能を測定します。
	OCRBench	さまざまなデータセットにおける光学文字認識精度を測定します。