LLM概念学习记录-Day02-模型评估方法了解

LLM概念学习记录-Day02-模型评估方法了解 文本生成类任务基于 n-gram 重叠的指标BLEU最经典。核心思想是看生成结果和参考答案之间 n-gram 的精确率通常会结合 1-gram 到 4-gram再加上 brevity penalty长度惩罚避免答案过短。特点偏重“生成内容和参考答案重合了多少”更关注 precision不太关注 recall适用于机器翻译文本生成早期评估ROUGE在摘要任务里特别常见。本质上也是看 n-gram 重叠不过和 BLEU 不同ROUGE 更强调召回率。常见变种ROUGE-N统计 n-gram 重叠最常见的是 ROUGE-1、ROUGE-2ROUGE-L基于最长公共子序列LCS不完全是传统 n-gram但通常和 ROUGE 系列一起提ROUGE-S / ROUGE-SU基于 skip-bigram。适用于文本摘要生成式问答METEOR也是一种基于词级重叠的指标。和 BLEU 相比它不只看精确匹配还会考虑unigram 匹配precision 和 recall 的结合词形变化同义词匹配词序惩罚所以它比纯 n-gram 重叠更灵活一些但本质上仍属于表面重叠类指标。适用于翻译文本生成GLEU可以理解为 BLEU 的一种变体常见于文本纠错任务。它同时考虑生成内容和参考答案之间的重叠以及错误修改是否合理。NIST和 BLEU 很像也是基于 n-gram。区别在于它对信息量更大的 n-gram 给予更高权重而不是把所有 n-gram 一视同仁。chrF / chrF基于字符 n-gram 的指标而不是词 n-gram。在机器翻译评估里比较常见尤其适合形态变化丰富的语言对拼写和局部形式敏感的任务语义相似度类指标弥补词面匹配的缺陷常用BERTScoreSentence embedding similarityMoverScore相对少一些图像描述生成类任务CIDErCIDEr (Consensus-based Image Description Evaluation基于共识的图像描述评估指标)是图像描述生成任务里常用的自动评估指标。它不是只拿生成句子去对比一条标准答案而是同时和多条人工参考描述比较从而衡量模型生成的 caption 是否接近人类对这张图片的共识性表达。CIDEr 的特点是会对 n-gram 做TF-IDF加权再计算相似度因此既考虑了词语重合也更重视那些真正有区分度、信息量更高的表达。为什么需要共识一张图片往往可以有很多种合理描述所以图像描述任务不像分类那样只有唯一标准答案。CIDEr 采用多条参考描述目的就是更接近“人类通常会怎么描述这张图”的共识而不是只接受某条文本。原论文就是把它定义为一种衡量生成句子与多条人工描述相似度的自动指标。计算方式CIDEr 会把候选 caption 和参考 caption 里的 1-gram 到 4-gram 提取出来并用TF-IDF做加权然后计算它们之间的相似度最后汇总成一个分数。这样做的好处是像 “a”“the” 这种常见词权重会更低而更有辨识度的内容词会更重要。优点CIDEr 的优势在于它比单纯的 n-gram 重叠指标更适合 image captioning因为它利用了多参考描述并且通过 TF-IDF 强调信息量更高的表达所以和人工判断通常有更好的相关性。缺点CIDEr 本质上还是基于文本重叠和统计加权的方法所以它仍然依赖参考描述质量如果生成句子语义正确但表述方式和参考差异很大分数可能不一定高。另外后续研究也指出在某些数据集或更长句子场景下CIDEr-D 可能存在局限因此后来又有像 CIDEr-R 这样的改进工作。与BLEU区别BLEU 主要是统计 n-gram precision更偏通用文本生成评估CIDEr 是专门为 image captioning 设计的强调多参考描述之间的共识并通过 TF-IDF 提升关键词和关键信息的权重所以通常更适合图像描述任务。