跳到主要内容

本文为非官方中文翻译,内容以 OpenAI 官方英文文档为准。
官方来源:https://developers.openai.com/codex/guides/build-ai-native-engineering-team

构建 AI 原生工程团队

编码代理如何加速软件开发生命周期

简介

AI 模型正在迅速扩展其可执行任务的范围,这对工程领域有着重大影响。前沿系统如今可以持续进行数小时推理:截至 2025 年 8 月,METR 发现领先模型能够连续完成 2 小时 17 分钟 的工作,并且以大约 50% 的置信度 产出正确答案。

这一能力正在快速提升,任务时长大约每七个月翻倍。就在几年前,模型只能进行大约 30 秒的推理——这只够提供一些小型代码建议。如今,随着模型能够维持更长的推理链条,整个软件开发生命周期都可能被纳入 AI 辅助范围,使编码代理能够在规划、设计、开发、测试、代码审查和部署中有效贡献。

在本指南中,我们将分享真实示例,说明 AI 代理如何参与软件开发生命周期,并提供实用指导,帮助工程领导者从今天开始构建 AI 原生团队和流程。

AI 编码:从自动补全到代理

AI 编码工具早已远远超出其作为自动补全助手的起点。早期工具处理的是快速任务,例如建议下一行代码或补全函数模板。随着模型获得更强的推理能力,开发者开始通过 IDE 中的聊天界面与代理交互,用于结对编程和代码探索。

如今的编码代理可以生成整个文件、搭建新项目脚手架,并将设计转换为代码。它们可以对调试或重构等多步骤问题进行推理,而代理执行如今也正从单个开发者的机器转向基于云的多代理环境。这正在改变开发者的工作方式,使他们减少在 IDE 内与代理一起生成代码的时间,转而将整个工作流委派出去。

能力它所带来的作用
跨系统的统一上下文单个模型可以读取代码、配置和遥测数据,在过去需要不同工具分别处理的各层之间提供一致的推理。
结构化工具执行模型现在可以直接调用编译器、测试运行器和扫描器,产出可验证结果,而不只是静态建议。
持久的项目记忆长上下文窗口以及诸如压缩之类的技术,使模型能够从提案一路跟踪某个功能直到部署,并记住先前的设计选择和约束。
评估循环模型输出可以根据基准自动测试——如单元测试、延迟目标或风格指南——从而使改进建立在可衡量的质量之上。

在 OpenAI,我们已经亲眼见证了这一点。开发周期已经加快,过去需要数周的工作现在几天就能交付。团队更容易跨领域协作,更快地上手不熟悉的项目,并且在整个组织中以更高的敏捷性和自主性开展工作。许多例行且耗时的任务——从为新代码编写文档、找出相关测试,到维护依赖项和清理功能开关——现在都已完全委派给 Codex。

然而,工程的一些方面依然没有改变。对代码的真正所有权——尤其是在面对全新或模糊问题时——仍然属于工程师,而且某些挑战仍超出当前模型的能力范围。但有了像 Codex 这样的编码代理,工程师如今可以把更多时间花在复杂且新颖的挑战上,把重点放在设计、架构和系统级推理上,而不是调试或机械式实现。

在接下来的章节中,我们将拆解 SDLC 的每个阶段在编码代理参与下如何发生变化——并说明你的团队可以采取哪些具体步骤,开始以 AI 原生工程组织的方式运作。

1. 规划

组织中的团队往往依赖工程师来判断某项功能是否可行、构建需要多长时间,以及会涉及哪些系统或团队。虽然任何人都可以起草规范,但要形成准确的计划,通常仍需要对代码库有深入认知,并且需要与工程团队进行多轮迭代,以发现需求、澄清边界情况,并就技术上真正可行的内容达成一致。

编码代理如何提供帮助

AI 编码代理能在规划和范围界定期间,为团队提供即时、具备代码感知能力的洞察。例如,团队可以构建工作流,将编码代理连接到其问题跟踪系统,让代理读取某个功能规范,对照代码库进行交叉参考,然后标记其中的歧义、将工作拆分为多个子组件,或评估难度。

编码代理还可以即时追踪代码路径,展示某项功能涉及哪些服务——而这类工作以前往往需要花费数小时甚至数天,在大型代码库中手动梳理。

工程师转而做什么

由于代理能够提前呈现过去需要通过产品对齐和范围界定会议才能获得的上下文,团队可以把更多时间投入到核心功能工作中。关键实现细节、依赖关系和边界情况会在前期就被识别出来,从而以更少的会议实现更快的决策。

委派审查负责
AI 代理可以先完成对可行性和架构分析的第一轮处理。它们会读取规范,将其映射到代码库,识别依赖项,并找出需要澄清的歧义或边界情况。团队审查代理的发现,以验证准确性、评估完整性,并确保估算反映真实的技术约束。故事点分配、工作量评估以及识别不明显风险,仍然需要人的判断。战略决策——例如优先级、长期方向、执行顺序以及权衡——仍然由人主导。团队可以让代理提供选项或下一步建议,但规划和产品方向的最终责任仍属于组织。

开始使用检查清单

  • 找出那些需要在功能与源代码之间进行对齐的常见流程。常见领域包括功能范围界定和工单创建。
  • 从实现基础工作流开始,例如为问题或功能请求打标签并去重。
  • 考虑更高级的工作流,例如基于初始功能描述为工单添加子任务。或者,当工单进入特定阶段时启动一次代理运行,以补充更多描述细节。

2. 设计

设计阶段往往会被基础搭建工作拖慢。团队会花费大量时间连接样板代码、集成设计系统,以及打磨 UI 组件或交互流程。模型图与实现之间的不一致可能导致返工和漫长的反馈周期,而用于探索替代方案或适应变化需求的带宽有限,也会推迟设计验证。

编码代理如何提供帮助

AI 编码工具通过搭建样板代码、构建项目结构,以及即时实现设计 token 或风格指南,显著加快了原型开发。工程师可以用自然语言描述期望的功能或 UI 布局,并获得符合团队约定的原型代码或组件桩。

它们可以将设计直接转换为代码,提出无障碍改进建议,甚至分析代码库中的用户流程或边缘情况。这使得团队能够在数小时而非数天内迭代多个原型,并且能够在早期就进行高保真原型设计,为团队提供更清晰的决策依据,并使客户测试在流程更早阶段成为可能。

工程师转而做什么

当常规的设置和转换任务由 agents 处理后,团队可以将注意力重新投入到更高杠杆的工作中。工程师专注于优化核心逻辑、建立可扩展的架构模式,并确保组件符合质量和可靠性标准。设计师可以花更多时间评估用户流程并探索替代概念。协作的重心从实现开销转向改善底层产品体验。

DelegateReviewOwn
Agents 通过搭建项目脚手架、生成样板代码、将 mockup 转换为组件,以及应用 design token 或风格指南来处理初始实现工作。团队审查 agent 的输出,以确保组件遵循设计约定,满足质量和无障碍标准,并能与现有系统正确集成。团队拥有整体设计系统、UX 模式、架构决策,以及用户体验最终方向的所有权。

入门检查清单

  • 使用支持文本和图像输入的多模态 coding agent
  • 通过 MCP 将设计工具与 coding agents 集成
  • 通过 MCP 以编程方式暴露组件库,并将其与你的 coding model 集成
  • 构建设计 → 组件 → 组件实现的工作流
  • 使用类型化语言(例如 Typescript)为 agent 定义有效的 props 和子组件

3. 构建

构建阶段是团队感受到最多摩擦的地方,也是 coding agents 影响最明显的地方。工程师会花大量时间将规格说明转换为代码结构、将服务连接起来、在整个代码库中复制模式,并填充样板代码,即使是很小的功能也需要数小时的繁琐工作。

随着系统增长,这种摩擦会不断叠加。大型 monorepo 会积累模式、约定和历史遗留怪癖,从而拖慢贡献者的速度。工程师花在重新发现某件事“正确做法”上的时间,可能和真正实现该功能所花的时间一样多。在规格说明、代码搜索、构建错误、测试失败和依赖管理之间不断切换上下文,会增加认知负担——而在长时间运行任务期间的中断会打断心流,并进一步延迟交付。

coding agents 如何提供帮助

在 IDE 和 CLI 中运行的 coding agents 通过处理更大规模、多步骤的实现任务来加速构建阶段。它们不只是生成下一个函数或文件,而是可以在一次协调运行中端到端地产出完整功能——数据模型、API、UI 组件、测试和文档。凭借跨整个代码库的持续推理,它们能够处理过去需要工程师手动追踪代码路径才能做出的决策。

对于长时间运行的任务,agents 可以:

  • 基于书面规格起草完整的功能实现。
  • 在保持一致性的同时,跨数十个文件搜索并修改代码。
  • 生成符合约定的样板代码:错误处理、遥测、安全包装器或风格模式。
  • 在构建错误出现时立即修复,而不是暂停等待人工介入。
  • 将测试与实现一并编写,作为单一工作流的一部分。
  • 产出可直接用于 diff 的变更集,遵循内部指南并包含 PR 消息。

在实践中,这会将大量机械性的“构建工作”从工程师转移给 agents。agent 成为第一轮实现者;工程师则成为审查者、编辑者和方向提供者。

工程师转而做什么

当 agents 能够可靠地执行多步骤构建任务时,工程师会将注意力转向更高层次的工作:

  • 在实现前澄清产品行为、边缘情况和规格。
  • 审查 AI 生成代码的架构影响,而不是执行机械性的连接工作。
  • 优化需要深度领域推理的业务逻辑和性能关键路径。
  • 设计模式、护栏和约定,以指导 agent 生成的代码。
  • 与 PM 和设计协作,迭代功能意图,而不是样板代码。

工程师不再是把功能规格“翻译”成代码,而是专注于正确性、一致性、可维护性和长期质量,这些仍然是最需要人类上下文的领域。

DelegateReviewOwn
Agents 为定义明确的功能起草第一轮实现——脚手架、CRUD 逻辑、连接、重构和测试。随着长时间推理能力的提升,这将越来越多地覆盖完整的端到端构建,而不仅仅是孤立的代码片段。工程师评估设计选择、性能、安全性、迁移风险和领域一致性,同时纠正 agent 可能遗漏的细微问题。他们塑造并优化 AI 生成的代码,而不是执行机械性工作。工程师仍然拥有那些需要深度系统直觉的工作:新抽象、跨领域架构变更、含糊不清的产品需求,以及长期可维护性的权衡。随着 agents 承担更长的任务,工程工作将从逐行实现转向迭代式监督。

示例:

Cloudwalk 的工程师、PM、设计师和运营人员每天都使用 Codex 将规格转换为可运行的代码,无论他们需要的是脚本、新的欺诈规则,还是几分钟内交付的完整微服务。它消除了构建阶段的繁琐工作,并赋予每位员工以惊人速度实现想法的能力。

入门检查清单

  • 从定义明确的任务开始
  • 让 agent 通过 MCP 使用规划工具,或通过编写提交到代码库中的 PLAN.md 文件来进行规划
  • 检查 agent 尝试执行的命令是否成功
  • 迭代完善 AGENTS.md 文件,以解锁诸如运行测试和 linter 来接收反馈之类的 agentic loops

4. 测试

开发者常常难以确保足够的测试覆盖率,因为编写和维护全面测试需要时间、需要切换上下文,并且需要深入理解边缘情况。团队经常需要在快速推进和编写充分测试之间做权衡。当截止日期临近时,测试覆盖率往往最先受到影响。

即使已经编写了测试,随着代码演进保持其更新也会带来持续的摩擦。测试可能会变得脆弱、因原因不明而失败,并且随着底层产品变化而需要自身进行重大重构。高质量的测试能够让团队以更高信心更快地发布。

编码 agents 如何提供帮助

AI 编码工具可以通过几种强大的方式帮助开发者编写更好的测试。首先,它们可以基于阅读需求文档和功能代码逻辑来建议测试用例。模型在建议边界情况和失败模式方面往往出奇地出色,而这些情况开发者可能很容易忽略,尤其是在他们已经深度专注于某个功能、需要第二意见的时候。

此外,模型还能帮助测试随着代码演进而保持最新状态,从而减少重构时的阻力,避免测试陈旧而变得不稳定。通过处理测试编写中的基础实现细节并暴露边界情况,coding agents 加快了测试开发流程。

工程师转而做什么

使用 AI 工具编写测试并不会消除开发者思考测试的必要性。事实上,随着 agents 消除了生成代码的障碍,测试作为应用功能事实来源的重要性变得越来越高。由于 agents 可以运行测试套件并根据输出迭代,定义高质量测试通常是让 agent 构建功能的第一步。

相应地,开发者会更多专注于观察测试覆盖中的高层模式,在模型识别测试用例的基础上继续扩展并加以质疑。让测试编写更快,既使开发者能够更快交付功能,也能承担更有雄心的功能开发。

DelegateReviewOwn
工程师会把基于功能规格生成测试用例的初始工作委托给模型。他们也会使用模型来完成生成测试的第一版。让模型在与功能实现分开的独立会话中生成测试,通常会很有帮助。工程师仍然必须彻底审查模型生成的测试,以确保模型没有走捷径或实现了占位测试。工程师还要确保测试可以被他们的 agents 运行;agent 拥有适当的运行权限,并且 agent 对它可以运行的不同测试套件具备上下文感知能力。工程师负责使测试覆盖与功能规格和用户体验预期保持一致。对抗性思维、在映射边界情况时的创造力,以及对测试意图的关注,仍然是关键技能。

开始清单

  • 引导模型将测试实现作为单独步骤完成,并在进入功能实现之前验证新测试会先失败。
  • 在你的 AGENTS.md 文件中设置测试覆盖的指导原则
  • 给 agent 提供它可以调用的代码覆盖率工具的具体示例,以帮助其理解测试覆盖情况

5. 审查

开发者平均每周会花 2–5 小时进行代码审查。团队常常面临一个选择:是投入大量时间进行深入审查,还是对看起来较小的改动做一次快速但“足够好”的检查。当这种优先级安排失误时,bug 就会溜进生产环境,给用户造成问题,并带来大量返工。

编码 agents 如何提供帮助

Coding agents 让代码审查流程可以规模化,使每个 PR 都能获得一致的基础关注度。与传统静态分析工具(依赖模式匹配和基于规则的检查)不同,AI 审查者实际上可以执行部分代码、解释运行时行为,并跨文件和服务追踪逻辑。不过,要想有效,模型必须专门训练来识别 P0 和 P1 级别的 bug,并调优为提供简洁、高信号的反馈;过于冗长的回复会像嘈杂的 lint 警告一样,很容易被忽略。

工程师转而做什么

在 OpenAI,我们发现 AI 代码审查让工程师更有信心,相信自己不会把重大 bug 发布到生产环境中。很多时候,代码审查会发现贡献者可以在拉入另一位工程师之前自行修正的问题。代码审查未必会让 pull request 流程更快,尤其是在它发现了有意义的 bug 时——但它确实能防止缺陷和故障。

Delegate vs review vs own

即使有 AI 代码审查,工程师仍然有责任确保代码已准备好发布。实际来说,这意味着阅读并理解此次变更的影响。工程师将初始代码审查委托给 agent,但对最终审查和合并流程负责。

DelegateReviewOwn
工程师将初始代码审查委托给 agents。这可能会发生多次,直到 pull request 被标记为可供队友审查。工程师仍然要审查 pull request,但会更多强调架构一致性;是否实现了可组合模式,是否使用了正确的约定,功能是否符合需求。工程师最终对部署到生产环境中的代码负责;他们必须确保代码可靠运行并满足预期需求。

示例:

Sansan 使用 Codex 审查竞态条件和数据库关系,这些都是人类经常忽略的问题。Codex 还能够捕捉不恰当的硬编码,甚至提前预判未来的可扩展性问题。

开始清单

  • 整理由工程师执行过的黄金标准 PR 示例,包括代码变更和留下的评论。将其保存为评估集,用于衡量不同工具。
  • 选择一个拥有专门针对代码审查训练模型的产品。我们发现通用模型往往过于吹毛求疵,信噪比偏低。
  • 定义你的团队将如何衡量审查是否高质量。我们建议跟踪 PR 评论反应,作为一种低摩擦方式来标记好的和差的审查。
  • 从小规模开始,但一旦你对审查结果建立信心,就快速推广。

6. 文档

大多数工程团队都知道自己的文档已经落后,但又觉得补上成本高昂。关键知识往往掌握在个人手中,而不是被记录在可搜索的知识库里;现有文档也会很快过时,因为更新文档会让工程师偏离产品工作。即使团队开展文档冲刺,结果通常也只是一次性的工作,一旦系统演进就会迅速失效。

编码 agents 如何提供帮助

Coding agents 非常擅长基于阅读代码库来总结功能。它们不仅可以编写关于代码库各部分如何工作的说明,还能用 mermaid 这样的语法生成系统图。当开发者使用 agents 构建功能时,他们也可以仅通过提示模型来更新文档。借助 AGENTS.md,可以将“按需更新文档”的说明自动包含在每次提示中,从而获得更高的一致性。

由于编码 agent 可以通过 SDK 以编程方式运行,它们也可以被纳入发布工作流中。例如,我们可以让一个编码 agent 审查将被包含在发布中的提交,并总结关键变更。其结果是,文档成为交付流水线的内置组成部分:生成更快、更容易保持最新,而且不再依赖某个人“抽出时间”。

工程师转而做什么

工程师会从手动编写每一份文档,转向塑造和监督这个系统。他们决定文档如何组织,补充决策背后重要的“为什么”,设定清晰的标准和模板供 agent 遵循,并审查关键或面向客户的内容。他们的工作变成确保文档结构清晰、内容准确,并已接入交付流程,而不是自己完成所有文字输入。

DelegateReviewOwn
将低风险、重复性的工作完全交给 Codex,例如对文件和模块的首轮摘要、输入和输出的基本说明、依赖项列表,以及对 pull request 变更的简短总结。工程师审查并编辑由 Codex 起草的重要文档,例如核心服务概览、公共 API 和 SDK 文档、运行手册以及架构页面,然后才会发布任何内容。工程师仍然负责整体文档策略和结构、agent 所遵循的标准和模板,以及所有对外发布或涉及法律、监管或品牌风险的安全关键文档。

入门检查清单

  • 通过向编码 agent 发出提示来试验文档生成
  • 将文档指南纳入你的 AGENTS.md
  • 识别可以自动生成文档的工作流(例如发布周期)
  • 审查生成的内容,确保其质量、正确性和重点

7. 部署与维护

理解应用程序日志对软件可靠性至关重要。在事件处理中,软件工程师会参考日志工具、代码部署和基础设施变更来识别根本原因。这个过程通常出人意料地依赖手动操作,需要开发者在不同系统之间来回切换标签页,这在事件等高压场景中会浪费宝贵的几分钟。

编码 agent 如何提供帮助

借助 AI 编码工具,除了代码库上下文之外,你还可以通过 MCP servers 提供对日志工具的访问。这让开发者拥有单一工作流:他们可以提示模型查看某个特定端点的错误,然后模型可以利用该上下文遍历代码库,找出相关的 bug 或性能问题。由于编码 agent 还可以使用命令行工具,它们能够查看 git 历史,以识别可能导致日志追踪中所记录问题的具体变更。

工程师转而做什么

通过自动化日志分析和事件分流中繁琐的环节,AI 让工程师能够专注于更高层次的故障排查和系统改进。工程师不再需要手动关联日志、提交和基础设施变更,而是可以专注于验证 AI 生成的根因、设计更稳健的修复方案,以及制定预防措施。这种转变减少了花在被动救火上的时间,使团队能够将更多精力投入到主动的可靠性工程和架构改进中。

DelegateReviewOwn
许多运维任务都可以委托给 agents —— 解析日志、发现异常指标、识别可疑代码变更,甚至提出热修复建议。工程师审核并完善 AI 生成的诊断结果,确认其准确性,并批准修复步骤。他们确保修复符合可靠性、安全性和合规标准。关键决策仍由工程师负责,尤其是在新型事件、敏感的生产环境变更或模型置信度较低的情况下。人类仍然对判断和最终签署负责。

示例:

Virgin Atlantic 使用 Codex 来强化团队部署和维护系统的方式。Codex VS Code Extension 让工程师能够在一个地方调查日志、跨代码和数据追踪问题,并通过 Azure DevOps MCP 和 Databricks Managed MCP 审查变更。通过在 IDE 内统一这些运维上下文,Codex 加快了根因发现,减少了手动分流,并帮助团队专注于验证修复和提升系统可靠性。

入门检查清单

  • 将 AI 工具连接到日志和部署系统:将 Codex CLI 或类似工具与你的 MCP servers 和日志聚合器集成。
  • 定义访问范围和权限:确保 agents 可以访问相关日志、代码仓库和部署历史,同时保持安全最佳实践。
  • 配置提示模板:为常见运维查询创建可复用的提示,例如“Investigate errors for endpoint X”或“Analyze log spikes post-deploy.”
  • 测试工作流:运行模拟事件场景,确保 AI 能提供正确的上下文、准确追踪代码,并提出可执行的诊断建议。
  • 持续迭代和改进:从真实事件中收集反馈,调整提示策略,并随着系统和流程演进扩展 agent 能力。

结论

编码 agents 正在通过承担那些传统上拖慢工程团队的机械性、多步骤工作,来改变软件开发生命周期。凭借持续推理、统一的代码库上下文以及执行真实工具的能力,这些 agents 如今能够处理从范围界定和原型设计到实现、测试、审查,甚至运维分流等任务。工程师始终牢牢掌控架构、产品意图和质量——但编码 agents 正越来越多地在 SDLC 的每个阶段充当首轮实现者和持续协作者。

这种转变并不需要激进的全面改造;随着编码 agents 变得更强大、更可靠,小而有针对性的工作流会迅速产生叠加效应。那些从边界清晰的任务开始、投入防护措施、并迭代扩展 agent 责任的团队,会在速度、一致性和开发者专注度方面获得显著提升。

如果你正在探索编码 agents 如何加速你的组织,或正在为首次部署做准备,请联系 OpenAI。我们随时准备帮助你将编码 agents 转化为真正的杠杆——设计覆盖规划、设计、构建、测试、审查和运维的端到端工作流,并帮助你的团队采用可投入生产的模式,让 AI-native engineering 成为现实。