618京东红包领取

OpenAI正式发布GPT-5.6 Sol:最强模型来了,

2026-06-27 01:23:29 | 2026-06-27 01:25:13 | 分享
4 查看

美东时间6月26日,OpenAI正式发布了新一代旗舰模型GPT-5.6 Sol,一同亮相的还有均衡版Terra和低成本版Luna。三款模型在编程、生物学和网络安全方面的能力都大幅提升。

但和以往不一样的是——这代模型不公开

OpenAI在官方博客中明确表示,应美国政府要求,GPT-5.6系列将首先向「一小群受信任的合作伙伴」开放预览,普通用户需要再等几周才能用上。

发生了什么?

这不是孤立事件。

两周前,Anthropic刚被迫关闭了Fable 5和Mythos 5两款新模型的访问权限,原因是特朗普政府签署了一份出口管制指令。6月初,特朗普签署了AI行政令,要求AI开发商在模型全面发布前「自愿」让政府评估其能力。

这次OpenAI的GPT-5.6系列,就是在这套新规则下走的第一批正式流程。

OpenAI的措辞很有意思——他们说「不认为这种政府准入流程应该成为长期默认做法」,但为了尽快推动更广泛的发布,先配合走这一步。

对于国内用户来说,这层限制意味着:目前没有任何合法渠道能直接用到GPT-5.6 Sol的API。

GPT-5.6 Sol强在哪?

OpenAI称Sol是「迄今为止最强的模型」。几个关键数据:

  • 编程:在Terminal-Bench 2.1(测试命令行工作流、规划、工具协调)上,Sol创下了新纪录(state of the art)
  • 生物学:在GeneBench v1(长周期基因组学和定量生物学分析)上,Sol用更少的token取得了比GPT-5.5更好的成绩
  • 网络安全:在ExploitBench²上,Sol仅用Mythos Preview约1/3的输出token就达到了相近表现。在ExploitGym上,Sol、Terra、Luna三款模型都展示了推理增强带来的能力提升

此外,GPT-5.6引入了两个新模式:

  • Max推理模式:给模型最长的深度思考时间
  • Ultra模式:调用子代理(subagent)并行处理复杂任务,突破单模型的算力上限

简单说,Sol不是一个简单的参数升级,而是一次架构层面的能力跃迁

安全能力:能攻也能守,但防守更强

GPT-5.6 Sol是OpenAI在网络安全方面最强的模型。但OpenAI强调了一个关键点:

Sol更擅长帮助人们发现和修复漏洞,而不是可靠地完成端到端的攻击。

OpenAI 官方博客

在针对Chromium和Firefox的测试中,Sol能找到漏洞和利用原语(exploit primitives),但在测试条件下并未自主生成可用的全链exploit。

按照OpenAI的《预备框架》(Preparedness Framework),Sol没有跨越「网络关键」(Cyber Critical)风险阈值

安全栈方面,这次是OpenAI历史上最严格的一版:

  • 模型层面训练了拒绝恶意网络指令的能力
  • 实时输出分类器:检测到潜在违规时暂停生成,由更大的推理模型审查上下文
  • 账户级信号监控:跨对话追踪滥用模式,区分恶意行为和合法安全工作
  • 差异化访问控制:防御性工作不受影响,但高危能力不默认开放

国内用户能用上吗?

先说结论:短期内很难。

目前的限制是双重的:

即使几周后「广泛发布」,国内开发者也大概率无法直接通过官方API调用。可能的间接途径包括:

  • 通过Azure OpenAI Service(如果微软获得GPT-5.6部署授权)
  • 通过海外代理企业账号
  • 第三方聚合平台(如Poe、You.com等,但功能会阉割)

但目前这几种途径都未经证实。建议不要轻信任何声称能提供GPT-5.6 API的第三方服务,等官方渠道明确后再做判断。

对比:GPT-5.6 vs GPT-4 vs Claude vs DeepSeek

由于GPT-5.6尚未公开,目前只能根据OpenAI披露的评估数据做一个初步对比:

维度GPT-5.6 SolGPT-4 / GPT-5.5Claude (Anthropic)DeepSeek
编程新SOTA,subagent并行强但无ultra模式强编码,Mythos顶尖性价比极高,中文友好
安全攻防最强,但防守优先基础能力Mythos更强但被禁未重点投入
推理深度Max模式加持扩展思考模式扩展思考链式推理(R1)
可用性仅限合作伙伴广泛可用受限(出口管制)完全开放
中文能力未知良好一般母语级
价格未公布中高中高极低

对于国内开发者来说,一个现实的选择是:

  • 日常开发继续用DeepSeek,中文能力和性价比无敌
  • 需要前沿能力、英文场景用Claude(如果你能访问)
  • GPT-5.6值得关注,但不用着急——等它真的能用了,再判断值不值得切换

我的判断

GPT-5.6 Sol是一次重要的技术飞跃——subagent并行架构、更强的安全能力、在多个benchmark上的SOTA表现,这些都是实打实的进步。

但它也标志着AI行业进入了一个新的阶段:最先进的模型不再是对所有人开放的公共产品

美国政府的「安全审查」正在成为AI发布的常态流程。对国内用户来说,这条鸿沟短期内只会变宽,不会变窄。

这不是技术问题,是地缘问题。

但反过来想——这也给DeepSeek这样的国产模型留出了市场空间。当最前沿的模型对你不开放时,「够用且可用」的国产方案反而更有价值。

参考来源:OpenAI – Previewing GPT-5.6 Sol | CNBC – OpenAI limits new AI models

分享