经过一个季度的发展,模型和生态发展都到了新的高度。

但是回过头来看,去年 9 月写的 人人都能写程序:Vibe Coding 与问题规模 依然准确。

当然,这三个月里我比之前更 Vibe coding 了。接下来说说新的 insight。

没有银弹

大部分解决方案没有标准答案,软件工程经常要做 Trade off。

做出决策所需的领域知识 AI 其实已经有了,但 AI 还不能替你决策。即使所有决策因素都塞到上下文里,依然无法全部量化(何况 AI 也不一定真的帮你量化)。

但是 AI 会帮你提供选择,以及提供这些选择的合理性,这给决策带来便利。

初级工程师的末日

纯粹的初级程序员会变成类似纺织女工的存在,也就是未来不存在了。

你问,没有初级程序员,那怎么成长成高级程序员。不用担心,不需要高级程序员。正如新的纺织工厂里不需要高级纺织女工,工厂里的工程师也不是从纺织女工升职来的。

虽然初级程序员没有了,但新的范式出现了。能驾驭这个范式的人依然有需求,比如要求的核心能力从翻译需求为代码变成了定义和验收标准深入修正问题

当然一个厂里的高级技工不会很多,反正不会像之前纺织女工那么多。

重剑无锋,大巧不工

高强度对比着使用 Codex (gpt-5.2-high,不带 -codex 后缀) 和 Claude Code (Opus 4.5),发现啊好的基座模型就是强。

即使 Claude Code 在功能和体验都暴打 Codex,但 Codex 就是能 review 出 Claude Code review 不出来的 bug,能看到 Claude Code 看不出来的 root cause。

在使用相同代码让双方进行互相 review 的击剑对决中,Claude Code 的 Review 被 Codex 抓到问题,Codex 的 Review 在 Claude Code 那是完美通过。

日常开发也是如此,Claude Code 很偷懒,看问题经常停在表面;Codex 确实往下深度多考虑几层。

Codex 唯三的缺点:太慢,写前端和 UI 领域知识不行,审美差。

调试变成了审讯

当代码逻辑复杂到一定程度,且是由 AI 生成的时候,对于某些代码,我开始把 Codex 当作嫌疑人,一边看 diff,一边问: "你确定这里处理了并发情况吗?" / "如果 API 返回空,这段逻辑会崩吗?" / "解释一下为什么你用这个库而不是那个库?"

于是我从维修工变成了检察官。

大多数情况下不再直接上手修,而通过高强度的逻辑质询来逼迫 AI 暴露思维漏洞。可能这就是为什么 Codex 这种慢思考模型在 Review 时无可替代的原因,它相对更加能经得起审讯。

超越 Coding

从 Claude Code 诞生我就开始用它来整理电脑文件了,比如读取 PDF 内容,然后根据内容批量重命名这些文件。

那时候我就想这有点低配 jarvis 的感觉,毕竟这个世界也是程序 Runtime 来的。

然后发现 Anthropic 的 Agent SDK 依赖 Claude Code 作为 SDK 的 Runtime。这是倒反天罡吗?不一定。

所以我感觉,搞不好 Coding Agent 就是 General Agent 的初级形态,已经被 Anthropic 验证过,值得试一试:

代码会从人类逻辑的产物变成为操控世界的中间件。

不再是写程序给计算机执行,而是写需求让 AI 生成代码去操纵这个世界。

面向 AI vs 面向人类

既然现在的 Agent 已经是第一等公民,那么软件交付的终点就不再仅仅是 Human User,而是 Agent User。

以前产品经理看重 UI 是否精美、交互是否顺滑。现在,所有这些为了降低人类心智负担的设计、功能,统统变成了 Agent 工作的路障。

毕竟,当我的用户是一秒钟能处理几万 Token 的 AI 时,它们不需要 CSS,它们只需要准确的 JSON 和确定性的逻辑。

我们可能会需要很多 Service for Agents。