恰逢高考季黄啊码今天专门做了一个有趣的实验我让国内几个大语言模型以高考全国卷主题《词语》为题写一篇高考作文用的模型分别是文心、混元、豆包、Minimax、kimi、GLM、Deepseek、Qwen几篇文章各有千秋都有各自的视角和想法但令我有点无语的是 GLM5.1直接拒绝回答哈哈哈我一开始的心理预想是豆包结果并不是。但这都不是重点今天重点聊一聊另外一个话题各大模型都把自己认为是全场最佳。不过等等模型真的在偏爱自己的输出吗还是说它只是在忠实地复现训练数据里最常见的自夸模式我不知道答案但这件事让我确认了一点这不就是我们常见的角度偏见。我无意嘲笑这种自我欣赏只是单纯想深究里边更多的内容如果连大模型这些理论上没有情感只有算法的存在他们都会本能地偏爱自己的输出那么人类在评价自我时该有多大的滤镜旁观者清当局者迷高考作文阅卷有一个铁律每篇作文至少由两位老师背对背打分为什么因为一个人太容易看走眼要么被漂亮的字迹迷惑要么被熟悉的文风打动有的时候一两句触到自己内心深处或者泪点就立马想给它打个高分但人的一生谁没有一点故事呢模型显然继承了这种人性弱点它们没有眼睛却有训练数据塑造的审美偏好一个擅长排比的模型会认为排比才是好文章的灵魂一个青睐叙事的模型会觉得细节才是打动人心的唯一途径这与人类高度相似。就像我这个擅长看到这类 AI 味道的人类看到这些模型的叙述会觉得满满的 AI 味就是在侮辱我的眼睛。越专业越主观有人可能会说让模型自我评价本身就是伪命题它们没有自我意识只是在模仿人类常见的自夸话语。我们模仿阅卷标准往往是优先模仿前辈经验久而久之我们把这些模仿内化为自己的判断然后理直气壮地说我认为这篇最好。可是人类所谓的客观评价不就是一种高级的模仿吗不也是一种你中有我我中有你的偏见高考作文有评分细则49分和52分的差距很多时候不过是阅卷老师昨天刚读过一篇相似文章后觉得当下这篇文章就是复刻版我们常常说比赛的时候为什么越早上场越好因为往往先入为主。放下最高分的执念实验结束后我找了以前的高中语文老师重新为这几篇文章打分结果很有意思没有一篇得到绝对最高分deepseekV4夸自己有思想但老师说他的结尾有点套路化Minimax m3赞自己非常有生活味但如果是议论文的角度来说结构有些许松散【其实我还蛮喜欢的】qwen 被说内容平淡如水没有一点起伏节奏感等等。单独贴一下 Minimax 的作文吧我觉得所有的模型里边关于这次高考作文的角度就它人味最明显但是我老师说了一句话让我记记忆深刻其实真正的好文章缺点恰好成了风格的一部分而风格往往是无法打分的我们也常常在内心深处给自己的每篇人生作文打着偏高的分数这没什么可耻的越挫越勇、越战越勇才能持续给自己加油。但想真正进步就需要偶尔把镜子拿远一点听听别人的声音甚至听听那些锐评良药先苦口忠言先逆耳。毕竟评价的目的从来不是证明我最好却是弄清楚我怎样才能更好的最佳途径。这篇文章我不给自己打分留给读者吧。OK今天的分享就到此我是黄啊码码字的码如果觉得我说得有道理欢迎一键三连如果觉得有异议欢迎评论区指正我们都是 AI 时代的共创者。
【黄啊码】8个AI,同一道高考作文题,同一个结果:我的那篇最好
恰逢高考季黄啊码今天专门做了一个有趣的实验我让国内几个大语言模型以高考全国卷主题《词语》为题写一篇高考作文用的模型分别是文心、混元、豆包、Minimax、kimi、GLM、Deepseek、Qwen几篇文章各有千秋都有各自的视角和想法但令我有点无语的是 GLM5.1直接拒绝回答哈哈哈我一开始的心理预想是豆包结果并不是。但这都不是重点今天重点聊一聊另外一个话题各大模型都把自己认为是全场最佳。不过等等模型真的在偏爱自己的输出吗还是说它只是在忠实地复现训练数据里最常见的自夸模式我不知道答案但这件事让我确认了一点这不就是我们常见的角度偏见。我无意嘲笑这种自我欣赏只是单纯想深究里边更多的内容如果连大模型这些理论上没有情感只有算法的存在他们都会本能地偏爱自己的输出那么人类在评价自我时该有多大的滤镜旁观者清当局者迷高考作文阅卷有一个铁律每篇作文至少由两位老师背对背打分为什么因为一个人太容易看走眼要么被漂亮的字迹迷惑要么被熟悉的文风打动有的时候一两句触到自己内心深处或者泪点就立马想给它打个高分但人的一生谁没有一点故事呢模型显然继承了这种人性弱点它们没有眼睛却有训练数据塑造的审美偏好一个擅长排比的模型会认为排比才是好文章的灵魂一个青睐叙事的模型会觉得细节才是打动人心的唯一途径这与人类高度相似。就像我这个擅长看到这类 AI 味道的人类看到这些模型的叙述会觉得满满的 AI 味就是在侮辱我的眼睛。越专业越主观有人可能会说让模型自我评价本身就是伪命题它们没有自我意识只是在模仿人类常见的自夸话语。我们模仿阅卷标准往往是优先模仿前辈经验久而久之我们把这些模仿内化为自己的判断然后理直气壮地说我认为这篇最好。可是人类所谓的客观评价不就是一种高级的模仿吗不也是一种你中有我我中有你的偏见高考作文有评分细则49分和52分的差距很多时候不过是阅卷老师昨天刚读过一篇相似文章后觉得当下这篇文章就是复刻版我们常常说比赛的时候为什么越早上场越好因为往往先入为主。放下最高分的执念实验结束后我找了以前的高中语文老师重新为这几篇文章打分结果很有意思没有一篇得到绝对最高分deepseekV4夸自己有思想但老师说他的结尾有点套路化Minimax m3赞自己非常有生活味但如果是议论文的角度来说结构有些许松散【其实我还蛮喜欢的】qwen 被说内容平淡如水没有一点起伏节奏感等等。单独贴一下 Minimax 的作文吧我觉得所有的模型里边关于这次高考作文的角度就它人味最明显但是我老师说了一句话让我记记忆深刻其实真正的好文章缺点恰好成了风格的一部分而风格往往是无法打分的我们也常常在内心深处给自己的每篇人生作文打着偏高的分数这没什么可耻的越挫越勇、越战越勇才能持续给自己加油。但想真正进步就需要偶尔把镜子拿远一点听听别人的声音甚至听听那些锐评良药先苦口忠言先逆耳。毕竟评价的目的从来不是证明我最好却是弄清楚我怎样才能更好的最佳途径。这篇文章我不给自己打分留给读者吧。OK今天的分享就到此我是黄啊码码字的码如果觉得我说得有道理欢迎一键三连如果觉得有异议欢迎评论区指正我们都是 AI 时代的共创者。