推理篇第16节：实战——BERT部署：动态序列长度下的高效推理-尧图企业网站定制

一句话10个token和200个token——BERT必须同时处理好，这才是NLP推理的真功夫前言BERT的推理不像YOLO那样整齐划一——图片可以resize到固定尺寸，但文本序列的长度天然不同。一条推文可能只有20个token，而一篇长文档可能有512个token。直接把所有输入padding到最大长度是对算力和显存的巨大浪费。这一节，我们将完成BERT的TensorRT部署，重点处理动态序列长度的优化：如何配置Optimization Profile、如何避免padding计算浪费、以及如何在实际服务中匹配变长输入。一、BERT模型导出到ONNX1.1 PyTorch BERT导出importtorchfromtransformersimportBertModel,BertTokenizerdefexp