Chọn Test Suite
Chọn test suite phù hợp để kiểm thử mô hình.
Chúng tôi cung cấp các test suite sau:
| Test suite | Mục đích | Phù hợp nhất cho | Tasks |
|---|---|---|---|
| Standard | Đánh giá mô hình bằng bộ dữ liệu của bạn. | Các benchmark nội bộ, các nhiệm vụ theo lĩnh vực cụ thể (ví dụ: tài chính, y tế, …) | - Test similarity |
- BLEU
- Fuzzy match
- ROUGE-1
- ROUGE-2
- ROUGE-L
- ROUGE-LSUM |
| Nejumi Leaderboard 3 | Benchmark LLMs, đặc biệt cho các nhiệm vụ ngôn ngữ tiếng Nhật.
Tham khảo: Nejumi Leaderboard 3 | So sánh LLMs trên các nhiệm vụ ngôn ngữ tiếng Nhật. | - Jaster
- JBBQ
- JtruthfulQA |
| LM Evaluation Harness | Framework tổng quát để benchmark các mô hình ngôn ngữ trên nhiều benchmark NLP tiêu chuẩn.
Tham khảo: LM Evaluation Harness | Đánh giá LLMs trung tâm tiếng Anh và đảm bảo khả năng so sánh với tài liệu nghiên cứu | - ARC
- GSM8K
- HellaSwag
- HumanEval
- IFEval
- LAMBADA
- MMLU
- OpenBookQA
- PIQA
- SciQ
- TruthfulQA
- WinoGrande |
| VLM Evaluation Kit | Đánh giá VLMs (Vision-Language Models) trên các nhiệm vụ đa phương thức.
Tham khảo: VLMEvalKit | Kiểm thử các mô hình đa phương thức | - ChartQA
- DocVQA
- InfoVQA
- MTVQA
- OCRBench |
