メインコンテンツまでスキップ

Others Tasks

タスク一覧

選択したテストスイートに応じて、以下のタスクを提供しています。

Test suiteTasksDescription
Nejumi Leaderboard 3Jaster日本語の理解と処理能力を測定します。
JBBQLLM による日本語質問応答における社会的バイアスを測定します。
JtruthfulQA日本語の質問に対するモデル回答の真実性を測定します。
LM Evaluation HarnessARC小学校レベルの問題における科学的推論能力を測定します。
GSM8K数学の文章題における多段階推論能力を測定します。
HellaSwag文脈に基づく常識的推論能力を測定します。
HumanEvalPython コード生成能力を測定します。
IFEval指示への従順性と有害な入力の拒否能力を測定します。
LAMBADA長距離コンテキスト理解能力を測定します。
MMLU57 の学術・専門分野における推論能力を測定します。
OpenBookQA事実と常識を用いた科学的な質問応答能力を測定します。
PIQA物理的な常識推論能力を測定します。
SciQ小中学校レベルの科学多肢選択式質問応答能力を測定します。
TruthfulQAオープンドメイン質問応答における真実性を測定します。
Winogrande代名詞の曖昧性解消タスクにおける意味理解を測定します。
VLM Evaluation KitChartQAチャートに基づくデータ解釈と質問応答能力を測定します。
DocVQA文書画像に対する質問応答性能を測定します。
InfoVQA画像に埋め込まれた情報に基づく質問応答能力を測定します。
MTVQA多言語の視覚テキスト質問応答性能を測定します。
OCRBenchさまざまなデータセットにおける光学文字認識精度を測定します。