Others Tasks
選択したテストスイートに応じて、以下のタスクを提供しています。
| Test suite | Tasks | Description |
|---|---|---|
| Nejumi Leaderboard 3 | Jaster | 日本語の理解と処理能力を測定します。 |
| JBBQ | LLM による日本語質問応答における社会的バイアスを測定します。 | |
| JtruthfulQA | 日本語の質問に対するモデル回答の真実性を測定します。 | |
| LM Evaluation Harness | ARC | 小学校レベルの問題における科学的推論能力を測定します。 |
| GSM8K | 数学の文章題における多段階推論能力を測定します。 | |
| HellaSwag | 文脈に基づく常識的推論能力を測定します。 | |
| HumanEval | Python コード生成能力を測定します。 | |
| IFEval | 指示への従順性と有害な入力の拒否能力を測定します。 | |
| LAMBADA | 長距離コンテキスト理解能力を測定します。 | |
| MMLU | 57 の学術・専門分野における推論能力を測定します。 | |
| OpenBookQA | 事実と常識を用いた科学的な質問応答能力を測定します。 | |
| PIQA | 物理的な常識推論能力を測定します。 | |
| SciQ | 小中学校レベルの科学多肢選択式質問応答能力を測定します。 | |
| TruthfulQA | オープンドメイン質問応答における真実性を測定します。 | |
| Winogrande | 代名詞の曖昧性解消タスクにおける意味理解を測定します。 | |
| VLM Evaluation Kit | ChartQA | チャートに基づくデータ解釈と質問応答能力を測定します。 |
| DocVQA | 文書画像に対する質問応答性能を測定します。 | |
| InfoVQA | 画像に埋め込まれた情報に基づく質問応答能力を測定します。 | |
| MTVQA | 多言語の視覚テキスト質問応答性能を測定します。 | |
| OCRBench | さまざまなデータセットにおける光学文字認識精度を測定します。 |
