AI 编程真的靠谱吗?

来自一线工程师的真实使用体会

Posted by Huabing(Robin)Zhao on Sunday, January 18, 2026

我如何用 AI Coding Agent 融入真实的工程开发

最近关于 AI 编码的讨论实在是太火了,无论是在国外的 YouTube、X、Reddit,还是国内的微信视频号上,每天都能看到大量关于 AI 编程工具的体验分享。可说实话,作为一名还在一线写“工程化”代码的工程师,我认为很多分享内容都不是 “真正写代码的人” 写的,而是产品经理、AI 博主或者 AI 爱好者写的。虽然他们的内容非常有参考价值,但其实距离我自己每天真实面对的代码环境还是有点远。我想在这里聊聊作为一个在一线写“工程化”代码的工程师,我是如何在日常工作中使用 AI Coding Agent。

注: 所谓“工程化”,是指类似 Envoy、Envoy Gateway 这类项目,它们是很多企业(如 Google,Microsoft,Apple,Netflix 等)在用的核心基础设施,对代码质量、稳定性、安全性有非常严格的要求。在这类项目中使用 AI,和我们在网上看到的大量 vibe coding 的体验完全不同。

所以今天这篇文章,算是我从一个进行日常高频编码的工程师视角出发,聊聊我是如何使用 AI Coding Agent 的一些真实体验,希望能和大家进行交流和分享。


从 Copilot 开始:提升效率的“加速器”

我最早接触 AI 编码工具是 GitHub Copilot。感谢微软在推出 Copilot 之初慷慨地给了开源贡献者免费使用额度,我使用 Copilot 的主要场景有两个:

  1. 代码补齐:一些常见的模板结构、循环体、switch-case 等,它能非常快地补出来。这种时候我不用每次都从头写,大大节省时间。
  2. 英文注释生成:由于工作的开源项目注释都要求英文写作。Copilot 可以帮我自动写英文注释,作为非母语者,这一点特别有用。

不过那个时候 Copilot 对我来说更多是一个“高级代码片段补全工具”,它还没到进化到能帮你写完整模块、提 PR 的地步。不过已经算是个不错的“加速器”了,能帮我节省不少重复劳动时间。


浅尝 Cursor:比 Copilot 更强,但付费没有免费的香

后来我试了 Cursor。其功能上比 Copilot 强一些,支持更深入的上下文理解和代码生成,由于 Cursor 没有免费额度,我付费试用一个月后觉得虽然 Cursor 的体验更好,但还没有好到值我每月多掏十几美元的程度,所以后面就没有续订了。

注:我使用 Cursor 的时间不算长,因此对其的体验可能不够全面,欢迎对 Cursor 熟悉的朋友留言补充。


Claude Code:AI 开始“写代码”了

真正让我感受到 AI 不只是“自动补齐”,而是真的能写代码、做工程的,是 Claude Code。

去年夏天时,一个同事向我推荐了 Claude Code,说已经使用它写了好几个功能模块,效果不错。于是购买了 Claude Code 的订阅,开始尝试。经过使用一段时间后,我发现它的确有不少亮点,在大部分情况下,Claude Code 可以:

  • 理解需求并自动生成完整的功能 PR;
  • 只需要少量人工干预就能落地;
  • 而不是像 Copilot 只是补全几行而已。

当然,它也有缺点:比如代码结构偏啰嗦、容易生成很多 helper 函数,代码还需要整理;而且当时只有 CLI,没有 VS Code IDE 插件,我使用时需要在 CLI 和 VS Code 之间切换,体验上不够顺畅。


CodeX:AI 工程师的感觉来了!

在使用 Claude Code 一段时间之后,OpenAI 也推出了自己的 Coding Agent - CodeX。 一方面,Codex 当时同时提供了 CLI 和 VS Code 插件,使用起来没有只能去使用 CLI 的限制;另一方面,我本身已经订阅了 ChatGPT,其中就已包含了 Codex 的使用额度,基本覆盖了我日常工作的需要,因此我使用 Codex 并没有额外成本。

在真实工程场景中,我明显感觉到 Codex 在几个方面更稳定:

  • 对复杂上下文的理解更一致
  • 在跨模块修改时更谨慎
  • 生成代码的整体质量更可控

有一次让我印象非常深刻: 我在修复一个比较复杂的 Issue,在和 Codex 讨论方案时,它主动指出了我原本方案中一个潜在的安全漏洞,并给出了一个更完善的替代设计,并根据方案生成了完整的代码实现。 虽然我也对它生成的代码做了多轮 review,并和 Codex 反复讨论并完成了最终的实现,但最初的方案和代码框架确实是 Codex 提供的。那一次的经历让我感觉 Codex 已经接近了一个“经验丰富的工程师”水平。

第三方独立评测也从侧面印证了这一点。其中一个我认为比较有参考价值的是 ARC Prize(Abstraction and Reasoning Corpus)排行榜: https://arcprize.org/leaderboard。ARC Prize 是基于 François Chollet(Keras 作者、前 Google Brain 研究员)提出的 Abstraction and Reasoning Corpus (ARC) 任务构建的一个独立评测 benchmark 和排行榜。它不是由某个大模型厂商发布,而是由开源评测社区推动,采用统一数据集和规则评测模型的抽象推理和通用推理能力,因此在研究社区具有较高的参考价值。

在 ARC Prize 的排行榜中,可以看到 OpenAI 系列模型在整体表现上 “遥遥领先“ Claude 系列模型。虽然 Coding Agent 的能力不完全等同于模型能力,但模型能力是 Coding Agent 能力的基石,因此我认为这在一定程度上解释了我在使用 Codex 和 Claude Code 时的直观感受。 ARC-AGI-2 Leaderboard

自动补:Antigravity 大材小用

虽然 Codex 已经非常强大了,但它不支持自动补齐功能,在需要手搓代码的场景下,自动补齐的能力还是很香的。而 Copilot 也取消了免费额度,单独花10多刀订阅 Coilot 来补齐代码又觉得不划算。 为了弥补 CodeX 的这个问题,我找了个组合方案:

  • Google 的 Antigravity 补齐代码(它也有免费额度,我本来就订了 Google One);
  • CodeX 来生成完整功能模块。

因为我是 Google 生态的重度用户,已经订阅了 Google One,其中已经包含 Antigravity 的使用额度,因此 AntiGravity 对我来说是免费的。说实话 Antigravity 的自动补齐 能力比 Copilot 要差那么一些,但也基本够用。

目前我就是这么用的:补齐靠 Antigravity,复杂功能和 PR 交给 CodeX,用下来非常顺畅,由于我自身已有 ChatGPT 和 Google One 订阅,而且还都不额外花钱,性价比拉满。


一些 AI Coding 的总结

vibe coding

我觉得 Claude Code, Cursor 等厂商宣传的「一次跑十几个 Agent,全自动写出一个系统」的炫酷操作,对真实工程场景来说还不太现实。一是这种操作将消耗大量 Token,对于普通用户来说不现实,二是在 Code Agent 的工作流中,人机协作其实非常重要。这两天 Cursor 号称使用 AI 写出了一个浏览器,但被网友扒出连编译都无法通过的事情,也说明了这些很大程度上是宣传噱头。

在我的真实工作场景中,因为你要提交代码、上线代码,你必须对每一行代码负责。AI 帮你写没问题,但你得看得懂、审得过、测得全。否则出了问题,是你的锅,不是 AI 的锅。

我通常会对 AI 生成的代码做:

  • 人工 review
  • 交叉验证(用另一个 AI Agent Review)
  • 加测试覆盖验证行为是否一致

直到我完全理解了生成的代码,并且信任这个改动,我才会提交到代码库中,让其他 Maintainer 来 review。

vibe coding 这个词其实会让人造成误解,现在已经有人提出来 agent 工程。

AI 编码效果最好的场景 & 风险提醒

AI 编码效果最好的场景:

  • 原有代码结构清晰;
  • 新功能与已有功能非常相近;
  • 有明确的输入/输出。

这种时候,AI 写的代码常常不需要怎么改。

但如果是:

  • 业务复杂(多线程、异步处理、隐式边界条件多);
  • 逻辑差异大
  • 已有代码风格不统一

那就容易出错了,AI 编出来的可能还不如你自己写。

而且大家都知道,AI「一本正经地胡说八道」这事也挺常见的。它生成的 bug 很隐蔽,要靠测试、交叉审查才能挖出来。


关于“Vibe Coding”的一些看法

网上很火的 “vibe coding” 概念,说得好像你边和 AI 聊天,边就把活干了,一边喝咖啡一边编码,轻松搞定。听起来很梦幻,实际上我觉得:

  • 玩具项目或者原型设计阶段,这种用法是 OK 的;
  • 但在工程化落地的项目里,尤其是涉及线上系统、企业服务、高负载业务,那就得慎重。

你不能把责任甩给 AI。你得明白它写了什么,你得负责。


🧵以上就是我一个还在一线写代码的开发者,关于 AI 编码工具的真实体验。

有坑有惊喜,有被惊艳也有踩雷。欢迎大家留言探讨,看看你在用什么,怎么用的,我们一起摸索最靠谱的 AI 工程化路径。


参考资料