辞掉大厂工作,他砸4.8万美元在家自建服务器:一年后,日均省下105美元!

辞掉大厂工作,他砸4.8万美元在家自建服务器:一年后,日均省下105美元! 当越来越多 AI 开发者开始抱怨“云 GPU 太贵”时有人干脆选择了自建服务器。但自己搭服务器到底比租云 GPU 便宜多少本文作者算了一笔账并分享切身体验。作者 | Rosmine 编译 | 苏宓出品 | CSDNIDCSDNnews2024 年Rosmine 选择辞去了在 FAANG 的工作开始成为一名独立研究员。为了开展研究他自己搭建了一台名为 “grumbl” 的服务器配备了 6 张 6000 Ada GPU。这篇文章记录了这台服务器的搭建过程、遇到的问题同时解答一个核心问题自己搭建服务器还是租用云 GPU 更划算Rosmine 解释称这个服务器之所以叫“grumbl”是因为他总是拼不对“GPUs”这个单词。把 GPU 当作一种投资Rosmine 透露这台设备总共花费他 4.8 万美元听起来价格不菲但远低于辞职带来的收入损失。对他而言只要更强大的 GPU 能让他的研究工作比使用小型机器时提前两个月取得成果那么购买更强的服务器就是值得的。因此他最终决定在自己公寓供电和环境条件允许的范围内直接买一台性能最强的服务器。「CSDN 读者专属福利」免费领100小时云算力支持主流 AI 框架与模型部署咖啡领取链接https://s.csdn.cn/4nPsOpGPU 的选择Rosmine 参考了另一位研究员 Tim Dettmers 的 GPU 选型指南综合考量之下把 GPU 候选范围缩小到了 A100、H100 和 RTX 6000 Ada。不过由于 A100 不支持 FP8而且推理性能也比新一代 GPU 更慢而 Rosmine 表示自己接下来会进行大量推理任务强化学习 / RL所以最终只剩下 RTX 6000 Ada 和 H100 两个选择。在比较了 6000 Ada、H100 和 A100 的价格 / 吞吐比之后他最终选择了 RTX 6000 Ada。电力限制因为 Rosmine 住在公寓里没有条件升级电路去支持标准的数据中心服务器。6 张 GPU 的功耗已经超出了普通公寓单路电路所能承受的范围所以他不得不使用两台电源并且把它们分别接到两个不同回路的插座上。然而如果你去 Google 搜索“把一台 PC 接到多个插座”你会看到大量警告仿佛只要考虑这种方案人立刻就会原地爆炸。因此为了规避潜在风险Rosmine 专门聘请了一位专业的 PC 装机工程师以确保整套系统在电力与硬件层面都是安全可靠的。虽然这比完全自行组装的成本更高但相比因操作失误而引发严重事故例如损坏设备甚至危及居住环境这一投入显然更为稳妥。颇具讽刺意味的是尽管整套设计最初都是围绕公寓的供电限制来完成的但最终这台名为 “grumbl” 的 GPU 服务器还是被迁移到了他父母家的地下室——在那里他实际上可以直接对电路进行升级最初的诸多限制也随之不再成立。自建 GPU 服务器 vs 租云服务那么到底是自己购买 GPU 更划算还是直接租用云厂商的 GPU 更合适对此Rosmine 采用了一个相对直接的方法进行评估统计自己实际使用 GPU 的情况并与租用同等算力的云服务成本进行对比。在 2024 年按照当时的 GPU 租赁价格计算他大约需要让这些 GPU 保持接近 85% 以上的利用率并持续运行约一年时间才能与云端租赁成本基本持平。这一结果看起来并不难达到但如果进行更完整的分析还必须将电费纳入计算同时还要考虑一个现实因素随着更高性能 GPU 不断推出同等算力在云端的租赁价格也会逐步下降。为了更精确地统计他专门编写了一个脚本每分钟记录一次每张 GPU 的使用情况。同时也记录了整机功耗瓦数以便进一步计算实际电力成本。在这份对比分析中他仅采用了云服务的按需on-demand计费价格作为参考。当然云厂商也提供 6 至 12 个月的预留实例方案但在他看来这类方案的意义有限——因为其折扣幅度并不显著与直接购买整台服务器相比差距不大而后者的优势在于 GPU 最终仍然完全归自己所有。如果不为 “grumbl” 配备显示器从某种意义上说也是一种浪费——毕竟这台服务器最多支持同时连接 24 台显示器。甚至理论上他还可以将其改造成一个迷你版的 “Las Vegas Sphere拉斯维加斯球幕”。GPU 使用率时间图为衡量 GPU 的实际使用情况Rosmine 对每一张 GPU 进行了统计记录其每天“至少被使用一次”的小时数。他认为这种统计方式与云 GPU 的计费逻辑较为接近——在云端场景中如果一台服务器空闲时间不足一小时通常也不会选择停止并重新启动实例。从对比角度来看这种方法对云租赁模型甚至是相对“宽松”的因为它默认用户可以独立启停每一张 GPU。但在实际使用中Rosmine 表示“我很多空闲时间都发生在‘并行跑多个实验’的时候其中某个实验提前结束或失败了但其他实验还在继续运行。如果我真的在租云服务器我也不会因此就把整台机器停掉。”需要说明的是这里的统计指标是 GPU 的“使用情况”而非训练效率。即使某张 GPU 的利用率仅为 10%只要在该小时内有被使用过也仍然会被计为活跃状态。即便在云端这类代码效率水平也不会发生变化。下方为 GPU 使用率随时间变化的统计图表从图中可以看到期间共有 3 次服务器因维护而停机。每一次停机都带来较高的不确定性压力因为无法判断问题来源是单个 PCIe 转接卡riser故障还是更严重的系统性问题例如 GPU 损坏。Rosmine 称从 2025 年 6 月起GPU 使用率出现明显上升趋势。在此之前他主要运行的是小规模实验开发周期与实验周期接近因此实验间存在较多空闲时间。而在 2025 年 6 月之后Rosmine 开始推进一个需要大量算力的项目大部分 GPU 持续用于实验运行仅保留 1–2 张用于开发调试。从整体统计来看GPU 平均利用率为 76%。若仅统计 2025 年 1 月 1 日之后的数据则利用率为 85%。对此结果他本人表示略感失望因为实际情况是实验几乎 24/7 持续运行并且始终存在待执行的任务队列原本预期利用率应轻松超过 95%。最终计算在成本测算中Rosmine 采用的方法是先按每天的云端租赁价格计算单价再乘以当日实际使用的 GPU 小时数逐日累加得出总成本。由于缺乏云服务商的历史 API 价格记录他只能根据带时间戳的公开资料对历史价格进行反向估算。基于已记录的功耗数据他进一步计算出整体电费成本约为 3000 美元折合每月约 125 美元。综合上述所有因素截至 2026 年 3 月 13 日如果使用等效算力的云 GPU其租赁总成本将约为 6.8 万美元。因此相较之下他目前累计节省约 1.7 万美元。在这一计算结果下这套 GPU 系统已经实现回本。按照当前市场价格估算从此之后每天仍可节省约 90–105 美元的计算成本。真正的“最终结论”Rosmine 表示购买这台服务器的出发点从来不是为了节省成本而是为了构建一些“有意思的东西”。在这个过程中他投入了大量时间去尝试高风险、高回报的实验并经历了多次失败。但最终他确实取得了一些成果并声称自己解决了大语言模型中的一个关键问题。他计划在下周正式发布相关成果以验证这究竟是一次真正的技术突破还是又一次“LLM 精神错乱LLM psychosis”式的误判。建议Rosmine 在分享中提醒对于自建高端 GPU 服务器这一类方案需要非常谨慎因为其中很容易出现成本高昂的错误。他原本认为由于公寓无法升级电路因此无法使用标准数据中心服务器只能采用“双电源分别接入不同电路”的方式。正是基于这一限制他选择了一块 GPU 互联速度较慢的主板。这种配置非常适合并行运行大量小型实验也是他的主要使用场景但在需要跨 GPU 切分模型的任务中表现较差。在多次故障中相当一部分问题来自 PCIe riser 相关组件而 Nathan Odle 关于 riser 的调查与分析在排查过程中提供了重要帮助。他也提到自己的消费习惯更接近“预算紧张的研究生”这套设备实际上是多年积攒后的投入。尽管自己处于可以承担这类高风险支出的相对幸运位置但他并不建议所有人都复制同样的方案。在他看来即使只是使用 Google 的 Google Colab 订阅、较便宜的云 GPU或小型本地设备同样可以完成高质量的研究工作。从“租用 GPU”到“拥有 GPU”心理层面的变化非常明显。在租用模式下每一次实验都会产生直接成本因此需要不断权衡是否值得运行而在拥有设备之后不运行实验反而会产生“资源闲置的损失感”。同时也避免了频繁启动和停止云实例带来的麻烦。此外这份分析并未计入时间成本而搭建与维护整套服务器本身就消耗了大量精力。在保险方面他曾尝试将该设备纳入租房保险但保险公司并不接受这一方案最终只能改为商业保险覆盖。最后他表示如果重新选择一次他可能不会再进行这种高度定制化的组装而是直接购买标准数据中心服务器并将其托管在机房。不过这样也意味着会失去偶尔与 “grumbl” 打招呼的那种个人化体验。来源https://rosmine.ai/2026/05/13/was-my-48k-gpu-worth-it/推荐阅读AI又“翻车”Gemini狂删2.8万行代码、系统宕机33分钟还伪造沟通记录谎称“已恢复正常”三周、1.81倍、百亿中国AI的压制性时刻Google搜索迎25年来最大改版Gemini Omni和3.5 Flash两大模型重磅发布免费领取 100 小时 AI 算力CSDN 读者专属加入 AI 开发者计划获取✅ AI 算力资源✅ 官方技术社群✅ Workshop 与 AI Academy✅ 开发者专属福利立即扫码前 50 名额外领取「瑞幸咖啡」咖啡领取链接https://s.csdn.cn/4nPsOp