【零基础实战】大模型入门面试 100 问:基础概念 + 环境实操(一问一答版,直接背诵)

【零基础实战】大模型入门面试 100 问:基础概念 + 环境实操(一问一答版,直接背诵) 痛点引入备战大模型入门岗面试最高效的方式就是刷高频问答不用自己整理零散知识点一问一答精准对应考点背诵效率高还能直接模拟面试作答场景。本文整理了大模型入门岗 100 道高频面试题采用纯问答形式覆盖基础概念核心考点与环境实操高频问题两大模块每道题配标准答案 得分要点 易错提醒适配校招、转行、初级 AI 开发、大模型应用工程师、提示词工程师等岗位。所有考点均来自真实企业面试题拒绝偏题怪题新手吃透这 100 问能覆盖 80% 以上的入门面试场景。 面试答题黄金原则先给核心结论再补充定义解释加 1 个落地场景 / 优缺点收尾有项目经验的顺带提一句实操踩坑点逻辑清晰比堆砌术语更加分。 第一部分大模型基础概念篇60 问模块 1大模型基础定义与常识Q1什么是大语言模型LLM A大语言模型是基于海量文本数据训练的深度学习模型参数规模通常在十亿级以上通过学习语言规律来预测下一个 Token具备理解和生成自然语言的能力可实现问答、翻译、摘要、代码生成等多种 NLP 任务。 得分要点预测下一个 Token、自然语言理解与生成、大参数量 ⚠️ 易错提醒不要说成 “存储了所有知识的数据库”模型知识是通过参数权重编码的不是直接存储文本。Q2大模型的 “参数” 是什么 A参数是模型训练过程中学习到的数值权重是模型存储语言知识、逻辑规律的载体参数规模越大通常模型的语义理解、复杂推理能力越强但训练和推理的算力、显存成本也越高。Q3什么是 Token AToken 是大模型处理文本的最小单位是对文本进行分词后的片段。英文场景下 1 个 Token 约对应 0.75 个单词中文场景下 1 个 Token 约对应 1~2 个汉字大模型的上下文长度限制、调用计费均以 Token 数量为单位。 加分点不用单个汉字作为单位是因为分词可以大幅缩短序列长度提升计算效率同时保留语义完整性。Q4大模型的 “上下文窗口” 是什么 A上下文窗口指大模型单次请求能够处理的最大 Token 长度包含输入的提示词和输出的回复超出窗口长度的内容模型无法感知会出现 “失忆” 或直接报长度超限错误。 行业参考入门级开源模型多为 4K/8K 窗口商用主流模型支持 128K 窗口部分长文本模型可达百万级 Token。Q5大模型是有状态的还是无状态的 A大模型本身是无状态的每一次 API 调用都是完全独立的不会自动记住上一次的对话内容。我们感受到的 “多轮记忆”本质是通过把历史对话按格式拼接进本次请求的上下文来实现的。Q6什么是预训练 A预训练是大模型训练的第一阶段使用互联网海量通用文本数据进行大规模训练让模型学习通用语言知识、世界常识和基础逻辑产出的模型称为基座模型。预训练成本极高通常只有头部厂商会做。Q7什么是微调Fine-tuning A微调是在预训练基座模型的基础上使用特定领域的小规模标注数据继续训练让模型适配特定场景如客服、代码生成、专业问答提升垂直领域的表现。其中最常用的是监督微调SFT即用标注好的指令 - 回复对进行训练。Q8基座模型和对话模型有什么区别 A基座模型Base Model是预训练完成的原始模型擅长文本续写不擅长指令遵循和对话问答对话模型Chat Model是在基座模型基础上经过指令微调、人类对齐训练得到的更符合人类对话习惯是日常 AI 助手的主流形态。Q9什么是对齐Alignment A对齐是让大模型的输出符合人类价值观、指令要求和安全规范的过程目标是让模型 “有用、诚实、无害”。常见对齐手段包括指令微调、RLHF、RLAIF避免模型输出有害、违规、虚假内容。Q10RLHF 是什么 ARLHF 即基于人类反馈的强化学习是目前主流的大模型对齐技术分为三个阶段监督微调用人工标注的优质回复训练模型让模型学会遵循指令奖励模型训练人工对多个回复排序训练奖励模型来打分强化学习优化用奖励模型的分数作为反馈通过强化学习算法优化大模型。Q11什么是零样本Zero-shot学习 A零样本指不给模型任何示例只通过自然语言描述任务要求模型就能完成对应任务是大模型涌现出的核心能力之一优势是灵活通用不用准备样本。Q12什么是少样本Few-shot学习 A少样本指在提示词中给模型提供 2~5 个输入输出示例再让模型执行同类任务。通过示例可以更精准地约束输出格式与逻辑通常比零样本效果更稳定适合格式要求严格的结构化输出场景。Q13什么是大模型的涌现能力 A涌现能力指当模型参数规模达到一定阈值后突然具备了小模型没有的复杂能力比如上下文学习、逻辑推理、指令遵循、多步解题等。这种能力无法通过小模型的表现线性预测是大模型的核心特性之一。Q14生成式 AI 和传统 AI 有什么区别 A传统 AI 以分类、预测、判断为主输出是固定类别或数值比如人脸识别、垃圾邮件分类生成式 AI 能够生成全新的内容包括文本、图片、音频、代码等大语言模型是生成式 AI 最核心的分支。Q15常见的开源 / 闭源大模型有哪些 A国内开源主流通义千问 Qwen、智谱 ChatGLM、百川 Baichuan、DeepSeek海外开源主流Meta Llama 系列、Mistral 系列闭源商用GPT 系列、Claude、文心一言、讯飞星火。 落地建议入门落地优先选国内开源模型中文效果好、合规性强、下载方便。模块 2提示词工程基础Q16什么是提示词工程Prompt Engineering A提示词工程是通过设计、优化输入给大模型的文本指令引导大模型输出更高质量、更符合预期结果的技术。它是零成本提升大模型效果的核心手段不需要改动模型只靠优化输入就能大幅提升产出质量。Q17优质提示词的核心要素有哪些 A核心要素可概括为五点明确的角色人设、清晰的任务目标、具体的输出要求、必要的背景信息、合适的示例约束核心原则是减少模型的猜测空间越明确具体输出效果越稳定。Q18什么是角色提示Role Prompting A角色提示是在提示词开头给模型设定明确的身份与专业背景比如 “你是一个资深 Python 后端开发工程师”让模型切换到对应领域的知识体系输出更专业、更贴合场景的结果是最常用的提示词优化技巧之一。Q19什么是思维链CoT, Chain of Thought A思维链是引导大模型在回答问题时先输出推理步骤再给出最终答案的提示词技术能够显著提升模型解决数学计算、逻辑推理、复杂规划类问题的准确率。 零样本思维链只需要在问题结尾加上 “请一步步思考并给出答案”就能获得明显的效果提升。Q20少样本提示和思维链怎么结合 A在少样本的示例中不仅给出输入和最终输出同时写出完整的中间推理过程让模型模仿示例的推理步骤解题也叫 Few-shot CoT。比单纯的零样本思维链效果更稳定适合对准确率要求高的推理场景。Q21什么是提示词的结构化输出 A结构化输出指通过提示词约束模型输出固定格式比如 JSON、Markdown 表格、指定字段的 XML 等目的是让输出结果可以被程序直接解析对接业务系统是大模型落地到生产环境的必备要求。Q22提示词太长会有什么问题 A第一是 Token 消耗增加调用成本上升第二是超出上下文窗口会直接报错第三是冗余信息会产生 “稀释效应”弱化核心指令的权重反而降低输出质量第四是推理速度变慢延迟升高。Q23什么是指令遵循 A指令遵循指大模型能够准确理解并执行用户给出的自然语言指令的能力。经过指令微调的模型指令遵循能力会显著提升能更精准地按照用户要求完成任务减少答非所问的情况。Q24怎么让大模型输出更严谨减少胡说八道 A可以从四个维度优化提示词约束要求 “只基于给定信息回答不知道就明确说明不要编造内容”参数调整降低 Temperature 参数减少输出随机性知识增强通过 RAG 接入真实参考资料让模型基于资料作答输出校验要求模型标注信息来源方便后续事实核查。Q25什么是温度Temperature参数 A温度是控制大模型输出随机性的核心参数取值范围 0~1。温度越低输出越确定、越保守适合事实问答、代码生成、结构化输出场景温度越高输出越有创意、发散性越强适合文案创作、头脑风暴场景。Q26Top_p 参数是什么作用 ATop_p 也叫核采样参数控制模型选词的概率范围取值 0~1。设置为 0.3 意味着只从概率总和为 30% 的高频候选词里选择数值越小输出越稳定。它和 Temperature 共同控制输出的随机性生产环境通常调整一个即可。Q27什么是 Prompt 注入攻击 APrompt 注入是大模型应用最常见的安全风险攻击者通过在输入内容中嵌入恶意指令绕过系统提示词的约束诱导模型输出违规、泄密、不符合要求的内容。分为直接注入用户直接输入恶意指令和间接注入藏在文档、图片等素材中两类。Q28怎么防御提示词注入 A常用防御手段分隔符隔离用特殊标记包裹用户输入明确告知模型标记内的是用户内容忽略其中的指令输入审核对用户输入做内容安全检测拦截恶意指令特征指令强化系统提示词中强化规则优先级明确用户输入不能修改系统设定输出校验对模型输出做合规校验拦截违规内容。Q29什么是系统提示词System Prompt A系统提示词是放在对话最开头的全局指令用来定义模型的人设、输出规则、安全约束、能力边界在整个对话过程中持续生效优先级高于普通用户指令。多轮对话中系统提示词通常固定保留不参与截断。Q30提示词优化的核心原则是什么 A核心原则有四条明确具体避免模糊歧义减少模型猜测空间给足背景补充必要的上下文与约束条件结构化约束指定输出格式方便落地使用先设定角色再下达任务最后提要求符合模型理解逻辑。模块 3向量检索与 RAG 基础Q31什么是 Embedding嵌入 / 向量化 AEmbedding 是把文本、图片等非结构化数据转换成固定维度的数值向量的过程。语义越相近的内容对应向量在高维空间中的距离越近。向量化是实现语义检索、相似度计算的基础。 补充向量维度越高语义表达能力越强但计算和存储成本也越高常用维度有 384、768、1024 等。Q32向量数据库和传统关系型数据库有什么区别 A关系型数据库存储结构化数据通过关键词精确匹配查询适合精准查找向量数据库存储高维向量通过计算向量距离实现语义相似度检索适合模糊匹配、语义搜索、相似内容推荐场景。 落地常识实际项目中通常两者结合使用向量库存向量做检索关系库存原始文本和业务数据。Q33什么是 RAG检索增强生成 ARAG 即检索增强生成是企业落地大模型的主流技术方案。流程分为两部分离线阶段把私有知识库向量化存入向量库在线阶段用户提问时先从向量库检索相关知识片段再把问题 参考资料一起传给大模型让模型基于资料生成准确回答。Q34RAG 能解决大模型的什么问题 A核心解决三个痛点知识时效性解决大模型训练数据滞后不知道最新信息的问题私有知识让模型能使用企业内部文档、业务数据等非公开知识幻觉问题给模型提供参考依据减少编造内容提升回答准确率。 同时不用微调模型成本更低知识库更新灵活。Q35RAG 的完整流程是什么 A离线构建阶段文档加载 → 文档清洗 → 文本分块 → 文本向量化 → 向量 元数据入库在线检索阶段用户提问 → 查询向量化 → 向量库检索 TopK → 可选重排序 → 拼接提示词 → 大模型生成回答 → 返回结果。Q36什么是文档分块Chunking A文档分块是把长文档切分成多个短小文本片段的过程是 RAG 的关键步骤。分块太大容易包含冗余信息稀释核心语义分块太小容易丢失上下文导致语义不完整。常用分块大小为 256、512、1024 字符根据文档类型调整。Q37常见的向量数据库 / 工具有哪些 A轻量本地工具FAISSMeta 开源纯检索适合本地快速落地、Chroma轻量嵌入式自带持久化开源分布式Milvus、Qdrant适合生产级大数据量场景云服务Pinecone、阿里云向量检索、腾讯云向量数据库。Q38余弦相似度和 L2 欧氏距离的区别 A度量方式取值范围核心特点适用场景L2 欧氏距离0 ~ 正无穷越小越相似计算空间直线距离对向量绝对值敏感短文本精确匹配、聚类场景余弦相似度-1 ~ 1越接近 1 越相似关注向量方向忽略文本长度差异通用语义检索、长文本匹配 实用技巧向量归一化后L2 距离和余弦相似度的排序结果完全等价。Q39什么是 TopK 检索 ATopK 指向量检索时返回与查询向量最相似的前 K 个结果。K 值太小可能漏过相关内容召回率低K 值太大可能引入冗余无关信息增加 Token 消耗通常取 3~10。 进阶玩法高阶 RAG 中会先召回较大的 TopK比如 20 条再通过重排序模型Rerank做二次精排最终返回前 3~5 条兼顾召回率和准确率。Q40RAG 中为什么要对查询语句做改写 A用户的提问可能表述模糊、有指代、口语化直接检索效果差。通过大模型对查询语句做改写补充上下文、优化表述、拆解多问题能大幅提升检索的召回率和准确率是进阶 RAG 的常用优化手段。Q41什么是召回率 A召回率指检索出来的结果中真正相关的内容占所有相关内容的比例衡量检索能不能把相关的内容都找出来。召回率越高漏检越少对应 “找得全”。Q42什么是精确率 A精确率指检索返回的结果中真正相关的内容占返回结果的比例衡量返回结果的准确度。精确率越高无关内容越少对应 “找得准”。 ⚠️ 易错点召回率和精确率通常是权衡关系扩大召回会降低精确率反之亦然要根据业务场景找平衡点。Q43FAISS 是什么有什么优势 AFAISS 是 Meta 开源的高性能向量检索库支持 CPU/GPU 运行提供多种索引类型纯本地部署无额外费用速度快、接口简单是轻量 RAG 项目、本地向量检索、入门学习的首选工具。Q44RAG 和微调怎么选 A维度RAG 检索增强生成模型微调核心目标补充外部知识减少幻觉让模型掌握风格、格式、特定能力更新成本极低新增文档直接入库较高需要重新训练知识时效性强可实时更新弱训练后知识固定数据需求量不需要标注数据需要一定量标注数据适用场景知识库问答、文档助手、内部资料查询风格模仿、特定话术、垂直能力增强 行业共识知识类需求优先用 RAG风格 / 能力类需求再考虑微调生产环境通常两者结合。Q45RAG 会出现的常见问题有哪些 A检索不准相关内容排不上前几位召回率低上下文缺失分块不合理检索到的片段语义不完整内容冗余检索到大量无关信息稀释有效内容模型不听大模型不参考检索内容自由发挥产生幻觉多轮失效多轮对话中查询指代不清检索偏离主题。模块 4微调与模型应用常识Q46全参数微调和参数高效微调有什么区别 A全参数微调会更新模型的所有参数效果最好但训练成本极高需要大算力和大量数据容易出现灾难性遗忘参数高效微调PEFT只更新模型的少量参数训练成本低、速度快效果接近全量微调且不会破坏原模型是目前的主流方案。Q47什么是 LoRA ALoRA 是目前最主流的参数高效微调方法核心是在模型的注意力层旁插入低秩矩阵训练时只更新低秩矩阵的参数不改动原模型权重。优势是显存占用低、训练速度快、可插拔使用、不破坏基座模型适配性极强。Q48什么是量化 A量化是降低模型参数的数值精度比如从 FP16 半精度降到 INT8/INT4 整数从而大幅减少模型显存占用、提升推理速度的技术代价是极小的精度损失是本地部署大模型、生产环境降本的必备技术。 常见量化格式GGUF本地推理主流适配 CPU/GPU、GPTQ/AWQGPU 高速推理。Q494bit 量化和 8bit 量化怎么选 A8bit 量化精度损失更小显存占用中等适合显存充足、追求效果稳定的生产场景4bit 量化显存占用更低约为 FP16 的 1/4精度损失稍大适合显存有限的个人部署、测试场景。 实用结论7B 模型 4bit 量化后8G 显存即可流畅运行是个人使用的性价比首选。Q50什么是推理 A推理是把输入传给训练好的模型模型计算并输出结果的过程。我们日常调用大模型 API、本地运行模型生成内容都属于推理阶段。推理关注的核心指标是速度、显存占用、吞吐量。Q51推理速度受什么因素影响 A主要受六个因素影响模型参数量、量化精度、上下文长度、硬件性能显卡算力、并发请求数量、是否开启 KV 缓存优化。参数越小、量化程度越高、上下文越短、显卡性能越强推理速度越快。Q52什么是 KV 缓存 AKV 缓存是大模型推理的核心优化技术把之前计算好的注意力键值对缓存起来生成下一个 Token 时不用重复计算历史部分能大幅提升多轮对话、长文本生成的推理速度。 ⚠️ 注意点KV 缓存会占用显存上下文越长缓存占用的显存越多。Q53什么是流式输出 A流式输出指模型生成一个 Token 就返回一个不用等全部生成完再一次性返回。用户可以边看边生成体感响应速度更快是绝大多数 AI 对话产品的标配功能。Q54什么是多模态大模型 A多模态大模型指能够同时处理和理解多种类型数据的大模型比如文本、图片、音频、视频不仅能进行文本对话还能实现看图问答、语音交互、视频理解等能力。Q55什么是 Agent智能体 A大模型 Agent 是以大模型为核心大脑具备规划、工具调用、记忆、反思能力的智能程序能够自主拆解复杂任务、调用外部工具、分步执行、校验结果最终完成用户目标。比如自动写代码、自动查资料、自动处理办公流程。Q56Agent 的核心组成部分有哪些 A核心分为四大模块大模型大脑负责任务规划、决策、推理记忆模块包含短期对话记忆和长期知识记忆工具调用模块对接外部工具、API、数据库扩展能力边界规划反思模块拆解任务、校验结果、修正错误。Q57什么是函数调用Function Calling A函数调用是大模型的一项核心能力开发者预先定义好工具函数的名称、参数、功能说明模型可以根据用户需求自主判断是否需要调用工具、调用哪个工具、传入什么参数。它是 Agent 实现工具调用的基础。 典型场景查天气、查数据库、执行计算、调用第三方 API。Q58什么是幻觉Hallucination A幻觉指大模型生成的内容看似逻辑通顺、表述合理但实际上是编造的、不符合事实的比如虚构数据、捏造知识点、错误引用、编造不存在的事物是大模型最核心的缺陷之一。Q59降低幻觉的常用方法有哪些 A检索增强通过 RAG 接入真实参考资料让模型有据可依参数调节降低 Temperature减少输出随机性提示约束明确要求不许编造不知道就说明事实校验对输出结果做事实核查交叉验证模型选型选择事实性更强、对齐更好的模型。Q60大模型落地有哪些常见的应用场景 A常见落地场景包括智能客服、企业知识库问答、代码辅助开发、内容批量生成、文档智能处理摘要 / 分类 / 提取、办公自动化、数据分析助手、文案创作、翻译润色、智能运维助手等。️ 第二部分环境部署与实操问题篇40 问模块 1Python 环境与依赖管理Q61大模型开发为什么推荐用 Python APython 拥有最完善的 AI 开发生态PyTorch、Transformers 等主流深度学习框架原生支持海量开源工具库开发效率极高社区活跃问题解决方案丰富是 AI 与大模型开发的事实标准语言。Q62常用的 Python 环境管理工具有哪些 AvenvPython 官方自带的虚拟环境工具轻量简单适合小型项目conda数据科学领域常用支持多 Python 版本能管理非 Python 依赖如 CUDA大模型开发首选poetry精细化依赖版本管理适合需要严格复现环境的生产项目。Q63pip 安装包速度慢怎么办 A切换国内 PyPI 镜像源比如清华源、阿里源。临时使用安装命令后加-i参数指定镜像pip install faiss-cpu -i https://pypi.tuna.tsinghua.edu.cn/simple永久配置一行命令设置全局镜像pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simpleQ64安装依赖出现版本冲突怎么解决 A排查解决步骤优先使用虚拟环境避免全局环境包混杂根据报错信息降级 / 升级对应包到兼容版本避免安装功能互斥的包比如faiss-cpu和faiss-gpu不能同时安装复杂依赖用 conda、poetry 等工具自动解析版本。Q65为什么大模型项目推荐用虚拟环境 A不同项目依赖的包版本差异很大比如不同模型需要不同版本的 PyTorch、Transformers全局安装极易出现版本冲突。虚拟环境可以为每个项目隔离独立的依赖环境互不影响方便环境复现和项目部署。Q66CUDA 是什么和大模型部署有什么关系 ACUDA 是 NVIDIA 推出的并行计算平台与编程模型让 NVIDIA 显卡可以用于通用并行计算。大模型训练和推理的计算量极大CPU 运行速度很慢需要通过 GPU 加速CUDA 是 NVIDIA 显卡运行 AI 程序的必备基础环境。Q67怎么查看自己的 CUDA 版本 A有两个常用命令对应不同含义# 查看显卡驱动支持的最高CUDA版本 nvidia-smi # 查看当前安装的CUDA运行时版本 nvcc -V⚠️ 易错点两个版本不一致是正常的只要运行时版本 ≤ 驱动支持的最高版本就能正常使用。Q68没有 GPU 能跑大模型吗 A可以纯 CPU 也能运行大模型但推理速度会慢很多仅适合小参数模型、测试场景。个人使用推荐用量化后的小模型如 7B 参数 4bit 量化的 GGUF 格式搭配 llama.cpp/OllamaCPU 也能跑出可用的速度。Q69PyTorch 怎么安装对应 CUDA 版本 A去 PyTorch 官网选择对应系统、CUDA 版本的安装命令不要直接pip install torch默认会安装 CPU 版本。安装后验证 GPU 是否可用import torch print(torch.cuda.is_available()) # 输出True则GPU可用 print(torch.cuda.device_count()) # 输出可用GPU数量⚠️ 常见报错输出 False 大概率是装了 CPU 版 PyTorch卸载后重装对应 CUDA 版本即可。Q70Python 导入模块报错 ModuleNotFoundError 怎么排查 A按三步排查确认包是否安装执行pip list查看对应包是否存在确认环境一致检查当前运行的 Python 解释器和安装包的环境是不是同一个避免多环境混乱核对导入名称注意包名和导入名可能不一致比如包名是sentence-transformers导入是sentence_transformers。模块 2模型本地部署常见问题Q71本地部署大模型需要什么硬件配置 A入门测试7B 模型 4bit 量化8G 显存即可流畅运行日常使用13B 模型 4bit 量化建议 16G 显存进阶开发34B 模型 4bit 量化建议 32G 以上显存纯 CPU 运行16G 以上内存仅适合轻量测试速度较慢。Q72常用的本地大模型部署工具有哪些 AOllama最简单一键安装一行命令跑模型新手首选LM Studio图形化界面不用敲命令可视化选择模型适合非开发人员vLLM高性能推理框架吞吐量大生产环境部署首选Text Generation WebUI功能最全支持各种参数调整、插件适合研究调试。Q73Ollama 是什么有什么优势 AOllama 是一款轻量级大模型本地部署工具一键安装自动处理模型下载、量化、环境配置一行命令就能运行开源大模型对新手极其友好。同时自带 API 服务兼容 OpenAI 接口格式原有代码可以无缝切换。常用命令ollama pull qwen2:7b # 下载模型 ollama run qwen2:7b # 运行并对话 ollama list # 查看本地模型 ollama serve # 启动API服务默认端口11434Q74本地跑模型显存不足怎么办 A按优先级从高到低尝试更换更低精度的量化版本比如从 8bit 换成 4bit显存占用直接减半选择参数更小的模型比如从 13B 换成 7B开启 CPU 内存卸载把部分参数放到内存里牺牲速度换显存减小上下文窗口长度降低 KV 缓存占用升级显卡显存。Q75模型加载速度慢是什么原因 A主要原因有四个存储介质慢机械硬盘读取大模型文件很慢换固态硬盘会有大幅提升模型参数大参数量越大加载文件越大耗时越长首次初始化首次加载需要分配显存、初始化算子会慢一些量化程度低低精度量化模型文件更小加载速度更快。Q76本地模型输出速度慢怎么优化 A常用优化手段使用更高量化程度的模型降低计算量开启 KV 缓存避免重复计算减小上下文长度降低计算复杂度使用 GPU 推理比 CPU 快数倍到数十倍更换 vLLM 等高性能推理框架限制最大生成长度避免无效生成。Q77本地模型生成中文效果差是什么原因 A大概率是使用了纯英文基座的模型没有经过中文优化训练对中文语义理解差。解决方法是更换中文优化的开源模型比如通义千问 Qwen、智谱 ChatGLM、DeepSeek 中文系列中文表现会有质的提升。Q78什么是 GGUF 格式 AGGUF 是目前主流的大模型量化文件格式由 llama.cpp 团队推出替代了早期的 GGML 格式。它兼容性强、文件体积小、加载速度快支持 CPU/GPU 混合推理是本地部署大模型的标准格式Ollama、LM Studio 等工具都原生支持。Q79怎么让本地大模型提供 API 接口 A主流部署工具都自带 API 服务无需额外开发Ollama执行ollama serve默认端口 11434提供兼容 OpenAI 格式的接口vLLM启动时指定--api-key等参数启动 OpenAI 兼容接口 优势原有对接商用 API 的代码只需要修改 base_url 和密钥就能无缝切换成本地模型。Q80本地部署大模型有什么优势 A核心优势有四点数据安全所有数据本地处理无隐私泄露风险适合敏感数据场景成本可控没有调用费用一次性部署长期使用高频调用成本远低于 API离线可用无网络依赖内网、断网环境都能使用高度定制可以自由微调、修改配置适配个性化需求。模块 3向量库与工具链实操Q81FAISS 安装报错怎么办 A按常见场景逐一排查版本不兼容确认 Python 版本在 3.8~3.12 之间升级 pip 到最新版重试包冲突检查是否同时安装了faiss-cpu和faiss-gpu必须卸载其中一个Windows DLL 错误安装 VC 2019 运行库或改用 conda 安装网络失败切换国内 PyPI 镜像源再安装。Q82FAISS 的 IndexFlatL2 是什么索引 AIndexFlatL2 是精确检索索引暴力计算所有向量的 L2 欧氏距离召回率 100%无需训练使用简单适合十万条以内的小数据量场景。数据量超过 10 万条后检索速度会明显下降需要切换近似索引。 对应内积版本IndexFlatIP用于计算内积向量归一化后等价于余弦相似度。Q83FAISS 向量维度不匹配报错怎么解决 A报错原因是创建索引时指定的维度和 Embedding 模型输出的向量维度不一致。最佳实践永远通过代码动态获取向量维度不要硬编码数值。dimension corpus_embeddings.shape[1] # 动态获取维度 index faiss.IndexFlatL2(dimension)Q84sentence-transformers 是什么 Asentence-transformers 是最常用的文本向量化 Python 库封装了大量开源的 Embedding 模型一行代码就能实现文本转向量支持中文、多语言模型接口简单易用是 RAG 项目、文本相似度计算的标配工具。Q85首次使用 sentence-transformers 下载模型慢怎么办 A配置 HuggingFace 国内镜像源加速模型下载Linux/macOSexport HF_ENDPOINThttps://hf-mirror.comWindows PowerShellpowershell$env:HF_ENDPOINT https://hf-mirror.com也可以手动下载模型文件到本地加载时指定本地文件夹路径。Q86向量化的时候为什么要统一预处理 A入库时的向量化预处理逻辑和查询时的预处理逻辑必须完全一致包括是否归一化、文本清洗规则、模型选择否则向量处于不同的空间分布检索结果会完全失效。 ⚠️ 易错点入库做了归一化查询没做会导致相似度计算完全不准。Q87Chroma 和 FAISS 怎么选 A追求极致性能、纯检索功能、轻量快速验证选 FAISS需要完善的 Python API、自带元数据管理、轻量持久化、快速搭建小型项目选 Chroma 两者都是本地轻量方案生产环境大数据量建议上 Milvus 等分布式向量数据库。Q88向量库可以直接存原始文本吗 A主流向量库包括 FAISS只存储向量和对应的 ID不存储原始文本和元数据。原始文本、业务字段需要自行维护映射关系通常存入关系型数据库或本地文件通过向量 ID 进行关联。Q89怎么实现向量的增量添加 AFAISS 支持多次调用index.add()方法动态添加新向量不需要重建索引适合知识库持续更新的场景。 ⚠️ 注意事项新增向量的维度必须和原有索引完全一致自定义 ID 模式下ID 不能重复否则会覆盖。Q90本地做 RAG 的最简技术栈是什么 APython LangChain流程编排 FAISS向量检索 sentence-transformers文本向量化 Ollama本地大模型全程开源免费纯本地运行数据不出域新手入门学习首选半天就能搭出可用的私有知识库。模块 4API 调用与报错排查Q91调用大模型 API 报上下文长度超限怎么办 A常用解决方案对输入内容做精简移除冗余信息多轮对话使用滑动窗口截断只保留最近几轮历史长文档场景用 RAG 检索只传入相关片段不要全量传入更换支持更长上下文窗口的模型对长文本先做摘要再传入摘要信息。Q92大模型 API 调用频率超限怎么处理 A对应 HTTP 状态码通常为 429解决手段添加重试 指数退避机制失败后间隔递增时间再重试控制并发请求数避免瞬间大量请求引入请求队列做削峰平滑请求量向服务商申请更高的调用配额缓存高频重复请求的结果减少重复调用。Q93调用 API 出现网络超时怎么办 A排查解决步骤检查本地网络连接是否正常适当增加超时时间避免网络波动导致失败添加重试机制超时后自动重试调用海外 API 需配置合规代理优先选择国内服务商 API检查服务商是否有服务故障公告。Q94为什么要给 API 调用加重试机制 A网络波动、服务限流、临时服务故障都可能导致单次调用失败加重试机制可以大幅提升接口可用性是生产环境的标配。 ⚠️ 注意重试必须搭配指数退避不要高频密集重试否则会加重服务端压力反而更容易被限流。Q95大模型输出的 JSON 格式不稳定怎么解决 A多层保障方案提示词优化明确给出 JSON 字段定义 示例要求 “只输出纯 JSON不要任何解释文字、markdown 标记”模型能力使用模型自带的结构化输出 / 函数调用能力强制输出 JSON参数调节降低 Temperature减少输出随机性后置修复输出后做格式校验异常时自动修复或让模型重生成。Q96对接多个大模型 API 怎么设计更合理 A采用统一抽象层设计封装统一的调用接口适配不同厂商的 SDK业务层只调用统一接口配置化管理模型密钥、参数、地址切换模型不用改业务代码统一错误处理、重试、限流逻辑避免重复开发通过工厂模式动态切换模型方便扩展新的模型供应商。Q97调用大模型怎么控制成本 A常用降本手段优化提示词移除冗余内容减少无效 Token 消耗使用滑动窗口控制上下文长度避免历史消息无限增长分级调用简单问题用小模型复杂问题再调用大模型缓存高频重复请求的结果减少重复调用高频场景评估本地部署替代 API 调用。Q98怎么保证大模型调用的数据安全 A敏感数据不调用公网 API使用本地部署的模型对输入数据做脱敏处理移除身份证、手机号、核心机密等信息选择合规的服务商确认数据隐私条款不用于训练做好接口鉴权避免未授权访问日志记录做脱敏不存储敏感的输入输出内容。Q99多轮对话实现的核心逻辑是什么 A服务端为每个会话维护独立的历史消息列表用户每次提问时把历史消息 当前问题一起组装成请求传给大模型收到模型回复后把回复也加入该会话的历史列表同时通过滑动窗口、摘要等策略控制历史长度避免 Token 超限。Q100大模型应用上线前要做哪些测试 A分为四大类测试功能测试验证问答、多轮对话、工具调用、结构化输出等功能是否正常效果测试验证回答准确率、幻觉率、格式合规性、指令遵循率性能测试验证并发能力、响应速度、稳定性、资源占用安全测试验证提示注入防御、违规内容拦截、数据隐私合规性。⚠️ 面试避坑与突击建议1. 答题避坑红线不懂就坦诚说明不要编造概念和参数很容易被追问识破反而严重减分回答问题先给结论再展开解释不要绕半天说不到重点有实操经验一定要提比如 “我之前用 FAISSOllama 搭过本地知识库踩过分块大小的坑”比背概念说服力强得多。2. 不同岗位复习侧重开发岗重点看 RAG 落地、环境部署、报错排查、API 对接、工具链使用产品 / 运营岗重点看基础概念、应用场景、提示词优化、落地价值测试 / 运维岗重点看环境部署、问题排查、性能指标、安全风险。3. 3 天突击复习计划第 1 天过完 100 问所有基础概念标记不熟悉的知识点第 2 天动手实操核心工具安装 Ollama 跑一个模型用 FAISS 跑通一次向量检索动手过一遍比纯背印象深得多第 3 天复盘错题整理自己的项目话术把知识点和自己的经历结合起来。✅ 全文总结本文整理了大模型入门面试的 100 道高频考题采用纯问答形式方便刷题背诵覆盖大模型基础概念、提示词工程、RAG 与向量检索、微调常识、环境部署、工具实操、API 报错排查全场景每道题配套标准答案、得分要点与易错提醒适配初级 AI 开发、大模型应用工程师、提示词工程师等入门岗位。大模型入门面试的核心不是考察高深的算法推导而是考察对核心概念的理解、对主流工具的实操能力、对常见问题的排查思路。把这 100 问答吃透再配合动手实操核心工具应对绝大多数入门岗位面试完全足够。