LLM的评估方法可分成如下四种:
- 任务特定指标(task-specific metrics):捕获语言生成中的某些方面,适用于特定任务。
- 文本摘要:主流的评估指标是ROUGE,将模型生成的文本与人工编写的参考摘要比较相似性。具体由3个指标构成,分别是召回率(Recall,匹配的unigram占参考摘要的比例)、精度(Precision,匹配的unigram占模型摘要的比例)和ROUGE(前两者的调和平均数)。
- 机器翻译:BLEU分数,衡量机器翻译与一组高质量人工翻译的接近程度。
- 研究机构发布的基准(research benchmarks):
- 基准是指通过编程让LLM运行大量问题,获得答案,输出准确率。
- 流行的基准:
- 大规模语言理解MMLU,零样本和少样本评估,包括STEM、人文学科、社会科学等57个领域,评估知识和解决问题的技能。
- GSM8k:小学数学单词问题,需要简单多步骤数学计算。
- HumanEval:代码生成,手工编写的编程问题数据集。
- 数据污染:基线中的数据可能包含已经被模型学习过的数据。
- 基准测试的优势:作为标准化的基线比较不同模型;反映随时间推理的相对性能;辅助确定模型的总体趋势。
- LLM自我评估(LLM self-evaluation):
- 让LLM对自己的回复做出评估,可以是不同的LLM,也可以是同一LLM的不同实例。
- 缺点:运行成本高,对负责评估的LLM Evaluator很敏感(不robust)。
- 人工评估(human evaluation):
- 众包人力评估:多人向匿名的若干模型提问,投票选出相对更好的模型。
- 缺点:缓慢、昂贵。
常用的模型评估指标类型:
- 性能指标:
- 分类问题:准确率,精确率,召回率,F1值,AUC值,KS值
- 回归问题:均方误差,均方根误差
- 稳定性指标:模型性能在不同环境条件、不同数据集上保持稳定的能力。PSI指标。
- 业务指标:根据模型解决不同的业务问题而不同。比如智能客服场景下,用到的业务指标包括智能客服的独立接待率。
- 可解释性指标:衡量模型的可解释程度。
- 时效性指标:评估模型的响应速度和更新频率是否满足实际应用的时间要求。
- 公平性指标:评估模型在不同群体(如性别、种族、年龄等)之间是否存在偏差。
- 资源利用指标:衡量模型在运行过程中对硬件资源的消耗情况,如内存占用。
- 鲁棒性指标:是指模型在面对数据的微小扰动、噪声干扰、对抗攻击或分布变化等异常情况时仍然保持良好性能的能力。
参考资料