資格取得 LLM(大規模言語モデル)の評価手法を徹底解説!人間による評価から自動評価・主要ベンチマークまで
LLM(大規模言語モデル)の性能を正しく測定するための「人間による評価」と「自動評価」の手法を分かりやすく解説。MMLUやGLUEなどの主要ベンチマーク、BLEU/ROUGE/BERTScoreなどの評価指標、実行効率、安全性評価(モデレーションAPI)まで網羅。
資格取得
AI活用
AI活用