美东时间6月26日,OpenAI正式发布了新一代旗舰模型GPT-5.6 Sol,一同亮相的还有均衡版Terra和低成本版Luna。三款模型在编程、生物学和网络安全方面的能力都大幅提升。
但和以往不一样的是——这代模型不公开。
OpenAI在官方博客中明确表示,应美国政府要求,GPT-5.6系列将首先向「一小群受信任的合作伙伴」开放预览,普通用户需要再等几周才能用上。
发生了什么?
这不是孤立事件。
两周前,Anthropic刚被迫关闭了Fable 5和Mythos 5两款新模型的访问权限,原因是特朗普政府签署了一份出口管制指令。6月初,特朗普签署了AI行政令,要求AI开发商在模型全面发布前「自愿」让政府评估其能力。
这次OpenAI的GPT-5.6系列,就是在这套新规则下走的第一批正式流程。
OpenAI的措辞很有意思——他们说「不认为这种政府准入流程应该成为长期默认做法」,但为了尽快推动更广泛的发布,先配合走这一步。
对于国内用户来说,这层限制意味着:目前没有任何合法渠道能直接用到GPT-5.6 Sol的API。
GPT-5.6 Sol强在哪?
OpenAI称Sol是「迄今为止最强的模型」。几个关键数据:
- 编程:在Terminal-Bench 2.1(测试命令行工作流、规划、工具协调)上,Sol创下了新纪录(state of the art)
- 生物学:在GeneBench v1(长周期基因组学和定量生物学分析)上,Sol用更少的token取得了比GPT-5.5更好的成绩
- 网络安全:在ExploitBench²上,Sol仅用Mythos Preview约1/3的输出token就达到了相近表现。在ExploitGym上,Sol、Terra、Luna三款模型都展示了推理增强带来的能力提升
此外,GPT-5.6引入了两个新模式:
- Max推理模式:给模型最长的深度思考时间
- Ultra模式:调用子代理(subagent)并行处理复杂任务,突破单模型的算力上限
简单说,Sol不是一个简单的参数升级,而是一次架构层面的能力跃迁。
安全能力:能攻也能守,但防守更强
GPT-5.6 Sol是OpenAI在网络安全方面最强的模型。但OpenAI强调了一个关键点:
Sol更擅长帮助人们发现和修复漏洞,而不是可靠地完成端到端的攻击。
OpenAI 官方博客
在针对Chromium和Firefox的测试中,Sol能找到漏洞和利用原语(exploit primitives),但在测试条件下并未自主生成可用的全链exploit。
按照OpenAI的《预备框架》(Preparedness Framework),Sol没有跨越「网络关键」(Cyber Critical)风险阈值。
安全栈方面,这次是OpenAI历史上最严格的一版:
- 模型层面训练了拒绝恶意网络指令的能力
- 实时输出分类器:检测到潜在违规时暂停生成,由更大的推理模型审查上下文
- 账户级信号监控:跨对话追踪滥用模式,区分恶意行为和合法安全工作
- 差异化访问控制:防御性工作不受影响,但高危能力不默认开放
国内用户能用上吗?
先说结论:短期内很难。
目前的限制是双重的:
即使几周后「广泛发布」,国内开发者也大概率无法直接通过官方API调用。可能的间接途径包括:
- 通过Azure OpenAI Service(如果微软获得GPT-5.6部署授权)
- 通过海外代理企业账号
- 第三方聚合平台(如Poe、You.com等,但功能会阉割)
但目前这几种途径都未经证实。建议不要轻信任何声称能提供GPT-5.6 API的第三方服务,等官方渠道明确后再做判断。
对比:GPT-5.6 vs GPT-4 vs Claude vs DeepSeek
由于GPT-5.6尚未公开,目前只能根据OpenAI披露的评估数据做一个初步对比:
| 维度 | GPT-5.6 Sol | GPT-4 / GPT-5.5 | Claude (Anthropic) | DeepSeek |
|---|---|---|---|---|
| 编程 | 新SOTA,subagent并行 | 强但无ultra模式 | 强编码,Mythos顶尖 | 性价比极高,中文友好 |
| 安全攻防 | 最强,但防守优先 | 基础能力 | Mythos更强但被禁 | 未重点投入 |
| 推理深度 | Max模式加持 | 扩展思考模式 | 扩展思考 | 链式推理(R1) |
| 可用性 | 仅限合作伙伴 | 广泛可用 | 受限(出口管制) | 完全开放 |
| 中文能力 | 未知 | 良好 | 一般 | 母语级 |
| 价格 | 未公布 | 中高 | 中高 | 极低 |
对于国内开发者来说,一个现实的选择是:
- 日常开发继续用DeepSeek,中文能力和性价比无敌
- 需要前沿能力、英文场景用Claude(如果你能访问)
- GPT-5.6值得关注,但不用着急——等它真的能用了,再判断值不值得切换
我的判断
GPT-5.6 Sol是一次重要的技术飞跃——subagent并行架构、更强的安全能力、在多个benchmark上的SOTA表现,这些都是实打实的进步。
但它也标志着AI行业进入了一个新的阶段:最先进的模型不再是对所有人开放的公共产品。
美国政府的「安全审查」正在成为AI发布的常态流程。对国内用户来说,这条鸿沟短期内只会变宽,不会变窄。
这不是技术问题,是地缘问题。
但反过来想——这也给DeepSeek这样的国产模型留出了市场空间。当最前沿的模型对你不开放时,「够用且可用」的国产方案反而更有价值。
参考来源:OpenAI – Previewing GPT-5.6 Sol | CNBC – OpenAI limits new AI models
