Python工程师面试常问提问和回答(AI工程化方向 · 2026版)

Python工程师面试常问提问和回答(AI工程化方向 · 2026版) 本文面向3年左右Python后端 / 初级AI Engineer候选人覆盖高频技术题 工程实战题 架构设计题。不只给答案更给面试官想听的点。一、Python 基础与工程能力必考Q1Python 的 GIL 是什么对 AI 工程有什么影响答GILGlobal Interpreter Lock​ 是 CPython 的全局锁同一时刻只允许一个线程执行 Python 字节码。对 CPU 密集型任务训练、推理GIL 会限制多线程并行必须用多进程multiprocessing​ 或C 扩展PyTorch 底层​ 绕过。对 IO 密集型任务LLM API 调用GIL 影响很小因为 IO 等待时会释放 GIL。AI工程启示LLM 推理用vLLM / TensorRT底层是 C不受 GIL 限制FastAPI 用async uvloop适合高并发 IO批量推理用多进程 Worker✅ 面试官想听你知道 GIL 的边界不会被“Python 不能并发”吓住。Q2async / await 在 AI 服务中有什么用答LLM 调用是IO 密集型网络等待使用async defhttpx.AsyncClient可以单进程支撑成百上千并发请求避免线程切换开销在 FastAPI 中app.post(/chat) async def chat(): async with httpx.AsyncClient() as client: resp await client.post(url, jsonpayload) return resp.json()✅ 加分点提到streamingSSE / WebSocket必须用 async。Q3FastAPI 为什么适合做 AI 服务答特性原因async 原生高并发 LLM 调用Pydantic强类型输入输出自动文档Swagger / OpenAPI依赖注入模型、缓存、配置管理中间件Token 限流、Trace✅ 面试官想听你会用框架特性解决 AI 工程问题而不是“只是会用 FastAPI”。二、RAG 核心技术面试核心区Q4什么是 RAG为什么不用直接微调答RAGRetrieval-Augmented Generation用户问题 → 检索相关知识 → 拼接 Prompt → LLM 生成为什么不用微调维度RAG微调知识更新实时需重新训练成本低高可解释性有来源黑盒幻觉可控仍存在✅ 加分提到Hybrid Search向量 关键词。Q5Chunk Size 怎么选太大或太小会怎样答太小丢失上下文召回片段不完整太大噪声多超过 context window经验值通用文档512 ~ 1024 tokens代码256 ~ 512 tokens工程做法用 RAGAS 评估不同 chunk 效果支持多种 chunk 策略并存✅ 面试官想听你不是拍脑袋而是有评估方法。Q6为什么要用 Re-rank答向量检索是粗排可能语义相似但无关Re-rank 用Cross-Encoder​ 做精细打分流程Vector DB → Top-K → Re-rank → Final-N代价Re-rank 慢只在最后阶段用✅ 加分提到bge-reranker。Q7RAG 如何防止幻觉答检索阶段提高召回准确率设置相似度阈值生成阶段Prompt 明确要求“不知道就说不知道”限制上下文来源输出阶段引用来源CitationGuardrails 校验✅ 面试官想听你有系统性防幻觉意识。三、Prompt 工程与模型调用Q8Temperature 和 Top-p 有什么区别答参数作用Temperature随机性0确定性Top-p核采样只保留累积概率前p的词代码 / SQLtemperature 0创意写作temperature 0.7~0.9生产系统固定 temperature避免不可复现✅ 加分提到seed 固定。Q9Function Calling 和 Tool Use 是什么答LLM 不直接执行动作只输出结构化调用意图后端执行真实逻辑{ name: query_order, arguments: {order_id: 123} }✅ 面试官想听你理解LLM 是“大脑”后端是“手脚”。四、Agent 与工作流Q10Agent 和传统 if-else 有什么区别答维度Agentif-else决策LLM 动态静态扩展性高低可解释性中高成本高低Agent 适合多步骤不确定性高if-else 适合明确规则高可靠✅ 加分提到Human-in-the-loop。Q11LangGraph 解决了什么问题答普通 Chain 是线性Agent 需要循环条件分支状态共享LangGraph 提供StateGraphNode / EdgeCheckpoint断点续跑✅ 面试官想听你做过复杂 Agent不是只会chain.invoke()。五、性能与工程化Q12vLLM 为什么快答PagedAttentionKV Cache 分页管理Continuous Batching不等请求结束就批处理KV Cache 复用多轮对话共享历史✅ 加分对比 HuggingFace Transformers 慢的原因。Q13如何评估 RAG 系统答指标说明Context Recall检索是否完整Faithfulness是否忠实原文Answer Relevance回答是否相关Latency响应时间Token Cost成本工具RAGAS、DeepEval、LangSmith✅ 面试官想听你用数据说话不是凭感觉。Q14AI 服务怎么做限流和降级答限流API Key 粒度IP 粒度Token 配额降级超时返回缓存复杂问题降级规则高峰期关闭非核心功能✅ 加分提到Redis Lua 限流脚本。六、架构设计题压轴Q15设计一个企业级 RAG 系统答标准架构┌──────────┐ │ Client │ └────┬─────┘ │ ┌────▼──────────┐ │ API Gateway │ │ Auth / Limit │ └────┬──────────┘ │ ┌────▼──────────┐ │ RAG Service │ │ · Retriever │ │ · Rerank │ │ · Generator │ └────┬──────────┘ │ ┌────▼──────────┐ │ Vector DB │ │ Qdrant │ └────┬──────────┘ │ ┌────▼──────────┐ │ Object Store │ │ MinIO/S3 │ └──────────────┘关键点异步检索流式输出来源可追溯可观测LangSmith✅ 面试官想听你不是只会写 Demo而是能设计可扩展系统。七、反问面试官的问题加分项问题目的现在 RAG 的主要痛点是什么展示关心业务模型是自建还是 API判断技术栈有评测体系吗显示工程成熟度服务 SLA 是多少体现责任心八、总结面试官到底在考什么考察维度核心Python 工程并发、性能、代码质量AI 原理不要求推导但要懂机制RAG检索、评估、防幻觉Agent工作流、状态、工具架构可扩展、可观测、可降级✅一句话总结AI Engineer Python 后端 模型工程 系统工程 一点点 AI 直觉