本文为非官方中文翻译,内容以 OpenAI 官方英文文档为准。
官方来源:https://developers.openai.com/codex/concepts/cyber-safety
网络安全
面向 Codex 用户的网络安全防护与可信访问
GPT-5.3-Codex 是我们根据 Preparedness Framework 视为具备高网络安全能力的首个模型,因此需要额外的防护措施。这些防护措施包括训练模型拒绝明显的恶意请求,例如窃取凭证。
除安全训练外,基于自动化分类器的监控还会检测可疑网络活动信号,并将高风险流量路由到网络能力较弱的模型(GPT-5.2)。我们预计只有极少部分流量会受到这些缓解措施影响,并且正在努力改进我们的策略、分类器和产品内通知。
我们为什么这样做
在过去几个月里,我们看到模型在网络安全任务上的表现有了显著提升,这让开发者和安全专业人士都受益。随着我们的模型在漏洞发现等网络安全相关任务上的能力提升,我们采取了预防性方法:扩展保护和执行机制,在支持合法研究的同时减缓滥用。
网络安全能力本质上具有双重用途。支撑重要防御工作的同样知识与技术——渗透测试、漏洞研究、大规模扫描、恶意软件分析和威胁情报——也可能被用于造成现实世界中的危害。
这些能力和技术需要在可用于提升安全性的场景中保持可用,并且更易于使用。我们的 Trusted Access for Cyber 试点项目使个人和组织能够继续将模型用于潜在高风险的网络安全活动而不受中断。
工作原理
从事网络安全相关工作,或进行可能被自动检测系统误判的类似活动的开发者和安全专业人士,其请求可能会被重新路由到 GPT-5.2 作为后备模型。我们预计只有极少部分流量会受到缓解措施影响,并且正在积极校准我们的策略和分类器。
最新的 Codex CLI alpha 版本已包含产品内消息提示, 用于在请求被重新路由时进行通知。该提示将在接下来的几天内 支持所有客户端。
受缓解措施影响的账户可以通过加入下方的 Trusted Access 项目来恢复对 GPT-5.3-Codex 的访问权限。
我们认识到,加入 Trusted Access 可能并不适合所有人,因此随着这些缓解措施的扩展以及网络韧性的增强,我们计划在大多数情况下将安全检查从账户级别迁移到请求级别。
Trusted Access for Cyber
我们正在试点“trusted access”,它允许开发者在我们继续为广泛可用性校准策略和分类器的同时保留高级能力。我们的目标是只有极少数用户需要加入 Trusted Access for Cyber。
要将模型用于潜在高风险的网络安全工作:
- 用户可以在 chatgpt.com/cyber 验证其身份
- 企业可以通过其 OpenAI 代表,为整个团队默认申请 trusted access
可能需要访问能力更强或限制更少的网络安全模型以加速合法防御工作的安全研究人员和团队,可以表达对我们仅限邀请项目的兴趣。具有 trusted access 的用户仍必须遵守我们的 Usage Policies 和 Terms of Use。
误报
合法活动或非网络安全活动有时可能会被标记。当发生重新路由时,响应所使用的模型将在 API 请求日志中可见,并会通过 CLI 中的产品内通知显示,很快也会在所有界面中提供。如果你遇到了你认为不正确的重新路由,请通过 /feedback 报告误报。