先说结论在特定场景下国产模型已经不输 GPT 了但全维度对标还没到。测试条件10 道题5 个维度编程、翻译、逻辑推理、创意写作、知识问答temperature0.7全部统一 API 调用。 测试模型DeepSeek V4、通义千问 Max、智谱 GLM-4-Plus、豆包 Pro、GPT-4o、Claude Sonnet 4、Gemini 3【编程】DeepSeek 赢了 题Python 实现带过期时间的 LRU 缓存线程安全。 DeepSeek 代码最完整边界条件到位。GPT-4o 也不错但啰嗦。 排名DeepSeek GPT-4o Claude 通义千问 Gemini 智谱 豆包【中文翻译】通义千问最强 题500 词技术英文翻译中文。 通义千问 Max 最接近专业翻译水准。GPT 和 Claude 正确但不接地气。 排名通义千问 DeepSeek GPT-4o Claude 智谱 Gemini 豆包【逻辑推理】DeepSeek Claude 并列 题狼羊白菜过河。 DeepSeek 推理链最清晰Claude 很强但啰嗦。GPT-4o 偶尔跳过关键判断。 排名DeepSeek Claude GPT-4o 通义千问 Gemini 智谱 豆包【创意写作】Claude 独一档 题以最后一杯咖啡写 300 字微小说。 Claude 有文学性GPT-4o 偏模板化。国产全面落后。 排名Claude GPT-4o DeepSeek 通义千问 智谱 Gemini 豆包【知识问答】GPT DeepSeek 最好 题解释 Transformer Attention 机制限 300 字。 GPT-4o 最教科书DeepSeek 更通俗。 排名GPT-4o DeepSeek Claude 通义千问 Gemini 智谱 豆包综合排名50 分制 DeepSeek V4 — 43 Claude Sonnet 4 — 43 GPT-4o — 40 通义千问 Max — 36 4 Gemini 3 — 32 5 智谱 GLM-4-Plus — 28 6 豆包 Pro — 26建议不要只用一家。编程用 DeepSeek写作用 Claude翻译用通义千问——当前最优解。 国产模型进步是真的和顶尖有差距也是真的。但 DeepSeek 只有 GPT 十分之一的价格编程场景已可放心切国产。
2026 年了,国内的 AI 模型到底能不能打?我用同 10 道题测了中外 8 款模型
先说结论在特定场景下国产模型已经不输 GPT 了但全维度对标还没到。测试条件10 道题5 个维度编程、翻译、逻辑推理、创意写作、知识问答temperature0.7全部统一 API 调用。 测试模型DeepSeek V4、通义千问 Max、智谱 GLM-4-Plus、豆包 Pro、GPT-4o、Claude Sonnet 4、Gemini 3【编程】DeepSeek 赢了 题Python 实现带过期时间的 LRU 缓存线程安全。 DeepSeek 代码最完整边界条件到位。GPT-4o 也不错但啰嗦。 排名DeepSeek GPT-4o Claude 通义千问 Gemini 智谱 豆包【中文翻译】通义千问最强 题500 词技术英文翻译中文。 通义千问 Max 最接近专业翻译水准。GPT 和 Claude 正确但不接地气。 排名通义千问 DeepSeek GPT-4o Claude 智谱 Gemini 豆包【逻辑推理】DeepSeek Claude 并列 题狼羊白菜过河。 DeepSeek 推理链最清晰Claude 很强但啰嗦。GPT-4o 偶尔跳过关键判断。 排名DeepSeek Claude GPT-4o 通义千问 Gemini 智谱 豆包【创意写作】Claude 独一档 题以最后一杯咖啡写 300 字微小说。 Claude 有文学性GPT-4o 偏模板化。国产全面落后。 排名Claude GPT-4o DeepSeek 通义千问 智谱 Gemini 豆包【知识问答】GPT DeepSeek 最好 题解释 Transformer Attention 机制限 300 字。 GPT-4o 最教科书DeepSeek 更通俗。 排名GPT-4o DeepSeek Claude 通义千问 Gemini 智谱 豆包综合排名50 分制 DeepSeek V4 — 43 Claude Sonnet 4 — 43 GPT-4o — 40 通义千问 Max — 36 4 Gemini 3 — 32 5 智谱 GLM-4-Plus — 28 6 豆包 Pro — 26建议不要只用一家。编程用 DeepSeek写作用 Claude翻译用通义千问——当前最优解。 国产模型进步是真的和顶尖有差距也是真的。但 DeepSeek 只有 GPT 十分之一的价格编程场景已可放心切国产。