LLM 推理全链路:从 Prompt 到 Next Token

LLM 推理全链路:从 Prompt 到 Next Token 一、这些现象,你一定遇到过**首字很慢:**把一大段文本放进 Prompt,请求发出后等了好几秒,才开始输出第一个字**结果不稳定:**同样的问题跑两次,结论大体一致,但措辞、结构每次都不完全一样。**输出写到一半停住了:**生成一段较长的内容,前面输出正常,到某个位置突然停住,回答看起来不完整**Prompt 加长之后变慢变贵:**system prompt 加了角色设定、格式要求、示例,效果更稳了,但响应时间和成本一起涨了这些现象就像用一个黑盒:输入进去,结果出来,中间发生了什么完全不知道。不知道为什么慢,不知道为什么随机,不知道为什么贵。这篇分享想做的事就是把这个黑盒打开——看清楚模型收到 Prompt 之后,到底发生了什么。二、一句话主线:next token 预测LLM 看起来是在“回答问题”,但从推理过程看,它每一步只做一件事:根据当前上下文,预测下一个 token。生成是一个循环模型不是先在内部写好完整答案,再一次性吐出来。它是根据输入的 prompt,先预测第一个 token,然后再预测下一个 token,一个一个 token 拼接到一起形成的完整回答。比如我们让模型继续做会议总结:当前上下文:这次会议