AI 测试必修课:深入理解 LLM 的 Token、上下文与温度参数

AI 测试必修课:深入理解 LLM 的 Token、上下文与温度参数 一位资深测试工程师的血泪忠告:“你花三个月搭建的测试框架崩溃了——不是因为代码逻辑有bug,而是因为昨天 temperature 是 0 的时候模型输出是‘PASS’,今天同样的代码、同样的输入,模型说‘FAIL’。你以为温度设成 0 就稳了?天真。”这是一篇写给 AI 测试工程师、LLM 应用开发者以及所有需要与大型语言模型打交道的人的文章。Token、上下文窗口、温度参数——这三个概念是 LLM 的“底层三件套”,它们决定了模型能读多少、能写多少、写出来的东西靠不靠谱。但绝大多数人直到踩了坑才开始认真对待它们。接下来的内容将沿着一条主线展开:先弄清楚 Token 和上下文窗口为什么是 AI 测试的硬约束,再深入温度参数和其他采样策略如何影响模型输出的稳定性与多样性,然后讨论这些参数在不同部署方案、不同模型之间的差异,最后给出可落地的工程实践指南。全文约 12000 字,建议收藏。一、Token:大模型世界的“计量单位”1.1 LLM 到底在做什么?——自回归生成的本质当你向 ChatGPT 提问“今天天气怎么样”时,模型并不是一次性“写出”整个回答,而是一个字一个字(严格说是“一个 Token 一个 Token”)地预测下一个最可能出现的文本片段。每生成一个 Token,就把这个 Token 加进已有的序列,再预测下一个——这个过程叫做自回归生成。理解了这个机制,所有概