1. 讨论在闭源项目中,用 Codex 的 API 微调模型来学习私有代码库的利弊。答案利:能深度理解私有 API、内部约定,生成更贴合的代码。弊:成本高,需要高质量标注数据,模型更新时需重新微调,存在泄露私有代码的风险(即使微调模型也存在逆向可能),合规审批困难。大多数场景下,RAG 是更轻量的替代。追问:假如公司法律部门批准了微调,你会如何准备训练数据?追问参考答案:数据筛选:选择质量高、风格一致且包含详尽注释的核心库代码作为训练集。脱敏处理:移除所有硬编码密钥、客户数据、内部 IP 和域名。格式标准化:统一编码风格,确保训练数据一致性。构建指令-响应对:从 commit 历史和 PR 中提取“修改前→修改后”对,模拟编辑任务。质量清洗:移除包含已知 bug 的代码快照,确保模型学到最佳实践。划分验证集:保留部分内部代码不参与训练,用于评估微调效果和检测过拟合。2. 能否构建一个 VS Code 扩展,同时调用 Claude 和 Codex 进行代码评审并合并建议?
AI 编程工具面试题(Claude Code、Codex 等)高阶篇(二)
1. 讨论在闭源项目中,用 Codex 的 API 微调模型来学习私有代码库的利弊。答案利:能深度理解私有 API、内部约定,生成更贴合的代码。弊:成本高,需要高质量标注数据,模型更新时需重新微调,存在泄露私有代码的风险(即使微调模型也存在逆向可能),合规审批困难。大多数场景下,RAG 是更轻量的替代。追问:假如公司法律部门批准了微调,你会如何准备训练数据?追问参考答案:数据筛选:选择质量高、风格一致且包含详尽注释的核心库代码作为训练集。脱敏处理:移除所有硬编码密钥、客户数据、内部 IP 和域名。格式标准化:统一编码风格,确保训练数据一致性。构建指令-响应对:从 commit 历史和 PR 中提取“修改前→修改后”对,模拟编辑任务。质量清洗:移除包含已知 bug 的代码快照,确保模型学到最佳实践。划分验证集:保留部分内部代码不参与训练,用于评估微调效果和检测过拟合。2. 能否构建一个 VS Code 扩展,同时调用 Claude 和 Codex 进行代码评审并合并建议?