我如何用 AI Coding Agent 融入真实的工程开发

最近关于 AI 编码的讨论实在是太火了，无论是在国外的 YouTube、X、Reddit，还是国内的微信视频号上，每天都能看到大量关于 AI 编程工具的体验分享。可说实话，作为一名还在一线写“工程化”代码的工程师，我认为很多分享内容都不是 “真正写代码的人” 写的，而是产品经理、AI 博主或者 AI 爱好者写的。虽然他们的内容非常有参考价值，但其实距离我自己每天真实面对的代码环境还是有点远。我想在这里聊聊作为一个在一线写“工程化”代码的工程师，我是如何在日常工作中使用 AI Coding Agent。

注：所谓“工程化”，是指类似 Envoy、Envoy Gateway 这类项目，它们是很多企业（如 Google，Microsoft，Apple，Netflix 等）在用的核心基础设施，对代码质量、稳定性、安全性有非常严格的要求。在这类项目中使用 AI，和我们在网上看到的大量 vibe coding 的体验完全不同。

所以今天这篇文章，算是我从一个进行日常高频编码的工程师视角出发，聊聊我是如何使用 AI Coding Agent 的一些真实体验，希望能和大家进行交流和分享。

从 Copilot 开始：提升效率的“加速器”

我最早接触 AI 编码工具是 GitHub Copilot。感谢微软在推出 Copilot 之初慷慨地给了开源贡献者免费使用额度，我使用 Copilot 的主要场景有两个：

代码补齐：一些常见的模板结构、循环体、switch-case 等，它能非常快地补出来。这种时候我不用每次都从头写，大大节省时间。
英文注释生成：由于工作的开源项目注释都要求英文写作。Copilot 可以帮我自动写英文注释，作为非母语者，这一点特别有用。

不过那个时候 Copilot 对我来说更多是一个“高级代码片段补全工具”，它还没到进化到能帮你写完整模块、提 PR 的地步。不过已经算是个不错的“加速器”了，能帮我节省不少重复劳动时间。

浅尝 Cursor：比 Copilot 更强，但付费没有免费的香

后来我试了 Cursor。其功能上比 Copilot 强一些，支持更深入的上下文理解和代码生成，由于 Cursor 没有免费额度，我付费试用一个月后觉得虽然 Cursor 的体验更好，但还没有好到值我每月多掏十几美元的程度，所以后面就没有续订了。

注：我使用 Cursor 的时间不算长，因此对其的体验可能不够全面，欢迎对 Cursor 熟悉的朋友留言补充。

Claude Code：AI 开始“写代码”了

真正让我感受到 AI 不只是“自动补齐”，而是真的能写代码、做工程的，是 Claude Code。

去年夏天时，一个同事向我推荐了 Claude Code，说已经使用它写了好几个功能模块，效果不错。于是购买了 Claude Code 的订阅，开始尝试。经过使用一段时间后，我发现它的确有不少亮点，在大部分情况下，Claude Code 可以：

理解需求并自动生成完整的功能 PR；
只需要少量人工干预就能落地；
而不是像 Copilot 只是补全几行而已。

当然，它也有缺点：比如代码结构偏啰嗦、容易生成很多 helper 函数，代码还需要整理；而且当时只有 CLI，没有 VS Code IDE 插件，我使用时需要在 CLI 和 VS Code 之间切换，体验上不够顺畅。

CodeX：AI 工程师的感觉来了！

在使用 Claude Code 一段时间之后，OpenAI 也推出了自己的 Coding Agent - CodeX。一方面，Codex 当时同时提供了 CLI 和 VS Code 插件，使用起来没有只能去使用 CLI 的限制；另一方面，我本身已经订阅了 ChatGPT，其中就已包含了 Codex 的使用额度，基本覆盖了我日常工作的需要，因此我使用 Codex 并没有额外成本。

在真实工程场景中，我明显感觉到 Codex 在几个方面更稳定：

对复杂上下文的理解更一致
在跨模块修改时更谨慎
生成代码的整体质量更可控

有一次让我印象非常深刻：我在修复一个比较复杂的 Issue，在和 Codex 讨论方案时，它主动指出了我原本方案中一个潜在的安全漏洞，并给出了一个更完善的替代设计，并根据方案生成了完整的代码实现。虽然我也对它生成的代码做了多轮 review，并和 Codex 反复讨论并完成了最终的实现，但最初的方案和代码框架确实是 Codex 提供的。那一次的经历让我感觉 Codex 已经接近了一个“经验丰富的工程师”水平。

第三方独立评测也从侧面印证了这一点。其中一个我认为比较有参考价值的是 ARC Prize（Abstraction and Reasoning Corpus）排行榜： https://arcprize.org/leaderboard。ARC Prize 是基于 François Chollet（Keras 作者、前 Google Brain 研究员）提出的 Abstraction and Reasoning Corpus (ARC) 任务构建的一个独立评测 benchmark 和排行榜。它不是由某个大模型厂商发布，而是由开源评测社区推动，采用统一数据集和规则评测模型的抽象推理和通用推理能力，因此在研究社区具有较高的参考价值。

在 ARC Prize 的排行榜中，可以看到 OpenAI 系列模型在整体表现上 “遥遥领先“ Claude 系列模型。虽然 Coding Agent 的能力不完全等同于模型能力，但模型能力是 Coding Agent 能力的基石，因此我认为这在一定程度上解释了我在使用 Codex 和 Claude Code 时的直观感受。 ARC-AGI-2 Leaderboard

自动补：Antigravity 大材小用

虽然 Codex 已经非常强大了，但它不支持自动补齐功能，在需要手搓代码的场景下，自动补齐的能力还是很香的。而 Copilot 也取消了免费额度，单独花10多刀订阅 Coilot 来补齐代码又觉得不划算。为了弥补 CodeX 的这个问题，我找了个组合方案：

用 Google 的 Antigravity 补齐代码（它也有免费额度，我本来就订了 Google One）；
用 CodeX 来生成完整功能模块。

因为我是 Google 生态的重度用户，已经订阅了 Google One，其中已经包含 Antigravity 的使用额度，因此 AntiGravity 对我来说是免费的。说实话 Antigravity 的自动补齐能力比 Copilot 要差那么一些，但也基本够用。

目前我就是这么用的：补齐靠 Antigravity，复杂功能和 PR 交给 CodeX，用下来非常顺畅，由于我自身已有 ChatGPT 和 Google One 订阅，而且还都不额外花钱，性价比拉满。

一些 AI Coding 的总结

vibe coding

我觉得 Claude Code， Cursor 等厂商宣传的「一次跑十几个 Agent，全自动写出一个系统」的炫酷操作，对真实工程场景来说还不太现实。一是这种操作将消耗大量 Token，对于普通用户来说不现实，二是在 Code Agent 的工作流中，人机协作其实非常重要。这两天 Cursor 号称使用 AI 写出了一个浏览器，但被网友扒出连编译都无法通过的事情，也说明了这些很大程度上是宣传噱头。

在我的真实工作场景中，因为你要提交代码、上线代码，你必须对每一行代码负责。AI 帮你写没问题，但你得看得懂、审得过、测得全。否则出了问题，是你的锅，不是 AI 的锅。

我通常会对 AI 生成的代码做：

人工 review
交叉验证（用另一个 AI Agent Review）
加测试覆盖验证行为是否一致

直到我完全理解了生成的代码，并且信任这个改动，我才会提交到代码库中，让其他 Maintainer 来 review。

vibe coding 这个词其实会让人造成误解，现在已经有人提出来 agent 工程。

AI 编码效果最好的场景 & 风险提醒

AI 编码效果最好的场景：

原有代码结构清晰；
新功能与已有功能非常相近；
有明确的输入/输出。

这种时候，AI 写的代码常常不需要怎么改。

但如果是：

业务复杂（多线程、异步处理、隐式边界条件多）；
逻辑差异大；
已有代码风格不统一；

那就容易出错了，AI 编出来的可能还不如你自己写。

而且大家都知道，AI「一本正经地胡说八道」这事也挺常见的。它生成的 bug 很隐蔽，要靠测试、交叉审查才能挖出来。

关于“Vibe Coding”的一些看法

网上很火的 “vibe coding” 概念，说得好像你边和 AI 聊天，边就把活干了，一边喝咖啡一边编码，轻松搞定。听起来很梦幻，实际上我觉得：

在玩具项目或者原型设计阶段，这种用法是 OK 的；
但在工程化落地的项目里，尤其是涉及线上系统、企业服务、高负载业务，那就得慎重。

你不能把责任甩给 AI。你得明白它写了什么，你得负责。

🧵以上就是我一个还在一线写代码的开发者，关于 AI 编码工具的真实体验。

有坑有惊喜，有被惊艳也有踩雷。欢迎大家留言探讨，看看你在用什么，怎么用的，我们一起摸索最靠谱的 AI 工程化路径。

AI 编程真的靠谱吗？

来自一线工程师的真实使用体会