【AI黑话日日新】什么是token吞吐量？-尧图企业网站定制

在大语言模型（LLM）的落地部署中，Token吞吐量是衡量系统性能的核心指标——它直接决定了服务能支撑的并发用户数、算力成本，甚至用户体验（生成速度）。本文将从「概念拆解」到「实战测试」再到「性能优化」，全方位讲透Token吞吐量，所有代码均可直接复制运行，帮你快速掌握LLM吞吐量的测试与调优方法。一、Token吞吐量核心概念1.1 什么是Token吞吐量？Token吞吐量（Token Throughput）是指LLM推理系统在单位时间内处理+生成的Token总数，核心单位为每秒Token数（tok/s 或 TPS）。简单理解：输入Token：用户提问、上下文等模型需要“读取”的内容；输出Token：模型生成的回答内容；吞吐量=（总输入Token数 + 总输出Token数）/ 总耗时（秒）。1.2 核心细分指标实际测试中，我们通常关注3类吞吐量指标，覆盖不同场景：指标类型计算公式适用场景