資格取得 LLM(大規模言語モデル)の評価手法を徹底解説!人間による評価から自動評価・主要ベンチマークまで LLM(大規模言語モデル)の性能を正しく測定するための「人間による評価」と「自動評価」の手法を分かりやすく解説。MMLUやGLUEなどの主要ベンチマーク、BLEU/ROUGE/BERTScoreなどの評価指標、実行効率、安全性評価(モデレーションAPI)まで網羅。 2026.05.17 資格取得