Chuyển tới nội dung chính

Chọn Test Suite

Chọn test suite phù hợp để kiểm thử mô hình.

Alt text

Chúng tôi cung cấp các test suite sau:

Test suiteMục đíchPhù hợp nhất choTasks
StandardĐánh giá mô hình bằng bộ dữ liệu của bạn.Các benchmark nội bộ, các nhiệm vụ theo lĩnh vực cụ thể (ví dụ: tài chính, y tế, …)- Test similarity
  • BLEU
  • Fuzzy match
  • ROUGE-1
  • ROUGE-2
  • ROUGE-L
  • ROUGE-LSUM |
    | Nejumi Leaderboard 3 | Benchmark LLMs, đặc biệt cho các nhiệm vụ ngôn ngữ tiếng Nhật.

Tham khảo: Nejumi Leaderboard 3 | So sánh LLMs trên các nhiệm vụ ngôn ngữ tiếng Nhật. | - Jaster

  • JBBQ
  • JtruthfulQA |
    | LM Evaluation Harness | Framework tổng quát để benchmark các mô hình ngôn ngữ trên nhiều benchmark NLP tiêu chuẩn.

Tham khảo: LM Evaluation Harness | Đánh giá LLMs trung tâm tiếng Anh và đảm bảo khả năng so sánh với tài liệu nghiên cứu | - ARC

  • GSM8K
  • HellaSwag
  • HumanEval
  • IFEval
  • LAMBADA
  • MMLU
  • OpenBookQA
  • PIQA
  • SciQ
  • TruthfulQA
  • WinoGrande |
    | VLM Evaluation Kit | Đánh giá VLMs (Vision-Language Models) trên các nhiệm vụ đa phương thức.

Tham khảo: VLMEvalKit | Kiểm thử các mô hình đa phương thức | - ChartQA

  • DocVQA
  • InfoVQA
  • MTVQA
  • OCRBench |