大模型评估

LLM的评估方法可分成如下四种：

任务特定指标（task-specific metrics）：捕获语言生成中的某些方面，适用于特定任务。
1. 文本摘要：主流的评估指标是ROUGE，将模型生成的文本与人工编写的参考摘要比较相似性。具体由3个指标构成，分别是召回率（Recall，匹配的unigram占参考摘要的比例）、精度（Precision，匹配的unigram占模型摘要的比例）和ROUGE（前两者的调和平均数）。
2. 机器翻译：BLEU分数，衡量机器翻译与一组高质量人工翻译的接近程度。

研究机构发布的基准（research benchmarks）：
1. 基准是指通过编程让LLM运行大量问题，获得答案，输出准确率。
2. 流行的基准：
  1. 大规模语言理解MMLU，零样本和少样本评估，包括STEM、人文学科、社会科学等57个领域，评估知识和解决问题的技能。
  2. GSM8k：小学数学单词问题，需要简单多步骤数学计算。
  3. HumanEval：代码生成，手工编写的编程问题数据集。
3. 数据污染：基线中的数据可能包含已经被模型学习过的数据。
4. 基准测试的优势：作为标准化的基线比较不同模型；反映随时间推理的相对性能；辅助确定模型的总体趋势。
LLM自我评估（LLM self-evaluation）：
1. 让LLM对自己的回复做出评估，可以是不同的LLM，也可以是同一LLM的不同实例。
2. 缺点：运行成本高，对负责评估的LLM Evaluator很敏感（不robust）。
人工评估（human evaluation）：
1. 众包人力评估：多人向匿名的若干模型提问，投票选出相对更好的模型。
2. 缺点：缓慢、昂贵。

常用的模型评估指标类型：

参考资料