Standard Test Criteria

Add & update ボタンをクリックします。
Tasks ウィンドウが表示されます。タスクタイプを選択します:
- Text similarity: モデルの出力と参照テキスト間の類似度メトリクスを測定します。
クリックします。
1 つまたは複数のメトリクスを選択します。
Update をクリックして変更を適用します。

Text similarity で利用可能なメトリクスは以下のとおりです:

テスト基準 / メトリクス	テスト方法	最適な用途
BLEU	n-gram の重複を使用して、モデルの出力が参照テキストとどれだけ正確に一致するかを測定します。	翻訳と短いテキストの類似性の評価。
Fuzzy Match	語句や順序の微妙な違いを許容しながら、モデルの出力が参照テキストにどれだけ近いかを測定します。	近似的な正確さの確認。
ROUGE-1	モデルの出力と参照テキスト間のユニグラム（単語）の重複を測定します。	短い要約とテキスト生成タスク。
ROUGE-2	モデルの出力と参照テキスト間のバイグラム（2 語シーケンス）の重複を測定します。	文脈的な正確さの評価。
ROUGE-L	流暢さと語順の類似性を把握するために、モデルの出力と参照テキスト間の最長共通部分列（LCS）を測定します。	構造が重要な長いテキストの評価。
ROUGE-LSUM	複数の文にわたる LCS ベースの類似性を測定し、長い要約の評価に適しています。	要約タスク。