Sophie Wu

Beauty always leads us to truth.

0%

大模型评估

LLM的评估方法可分成如下四种:

  1. 任务特定指标(task-specific metrics):捕获语言生成中的某些方面,适用于特定任务。
    1. 文本摘要:主流的评估指标是ROUGE,将模型生成的文本与人工编写的参考摘要比较相似性。具体由3个指标构成,分别是召回率(Recall,匹配的unigram占参考摘要的比例)、精度(Precision,匹配的unigram占模型摘要的比例)和ROUGE(前两者的调和平均数)。
    2. 机器翻译:BLEU分数,衡量机器翻译与一组高质量人工翻译的接近程度。
  1. 研究机构发布的基准(research benchmarks):
    1. 基准是指通过编程让LLM运行大量问题,获得答案,输出准确率。
    2. 流行的基准:
      1. 大规模语言理解MMLU,零样本和少样本评估,包括STEM、人文学科、社会科学等57个领域,评估知识和解决问题的技能。
      2. GSM8k:小学数学单词问题,需要简单多步骤数学计算。
      3. HumanEval:代码生成,手工编写的编程问题数据集。
    3. 数据污染:基线中的数据可能包含已经被模型学习过的数据。
    4. 基准测试的优势:作为标准化的基线比较不同模型;反映随时间推理的相对性能;辅助确定模型的总体趋势。
  2. LLM自我评估(LLM self-evaluation):
    1. 让LLM对自己的回复做出评估,可以是不同的LLM,也可以是同一LLM的不同实例。
    2. 缺点:运行成本高,对负责评估的LLM Evaluator很敏感(不robust)。
  3. 人工评估(human evaluation):
    1. 众包人力评估:多人向匿名的若干模型提问,投票选出相对更好的模型。
    2. 缺点:缓慢、昂贵。

常用的模型评估指标类型:

  1. 性能指标:
    1. 分类问题:准确率,精确率,召回率,F1值,AUC值,KS值
    2. 回归问题:均方误差,均方根误差
  2. 稳定性指标:模型性能在不同环境条件、不同数据集上保持稳定的能力。PSI指标。
  3. 业务指标:根据模型解决不同的业务问题而不同。比如智能客服场景下,用到的业务指标包括智能客服的独立接待率。
  4. 可解释性指标:衡量模型的可解释程度。
  5. 时效性指标:评估模型的响应速度和更新频率是否满足实际应用的时间要求。
  6. 公平性指标:评估模型在不同群体(如性别、种族、年龄等)之间是否存在偏差。
  7. 资源利用指标:衡量模型在运行过程中对硬件资源的消耗情况,如内存占用。
  8. 鲁棒性指标:是指模型在面对数据的微小扰动、噪声干扰、对抗攻击或分布变化等异常情况时仍然保持良好性能的能力。

参考资料