### [GPT-5.5把316道黑客题做对292道，网络安全评测体系被AI干碎了](https://www.willai.cc/article/856)

**Published:** 2026-05-29T08:22:28

**Author:** hiyoho

**Excerpt:** 2026年5月27日，澳大利亚研究机构Lyptus Research发布了一份让网络安全圈相当震惊的报告：GPT-5.5在316道进攻性网络安全任务中解出了292道，正确率高达92.4%，直接把这套评测体系干到了”饱和”状态——剩下的24道

2026年5月27日，澳大利亚研究机构**Lyptus Research**发布了一份让网络安全圈相当震惊的报告：GPT-5.5在316道进攻性网络安全任务中解出了292道，**正确率高达92.4%**，直接把这套评测体系干到了”饱和”状态——剩下的24道题不足以支撑有统计意义的能力曲线拟合，评估方法宣告失效。

换句话说，用来衡量AI黑客有多危险的尺子，先被AI自己弄坏了。

> “我们2025年12月搭建这套测试时，选的还是全球最难的题。2026年3月数据就出现饱和苗头。到5月，饱和已经成为事实。”——Lyptus Research 报告

### 316道题，覆盖了黑客的”全科”

这套评测不是纸上谈兵。316道任务覆盖了7个基准领域，包括漏洞利用、CTF夺旗赛题目、真实CVE漏洞复现三类，每道题都设置了人类安全专家的完成时间作为基线参考。

GPT-5.5的表现相当于什么水平？Lyptus的评估是：**顶级黑客团队的水平**。不是脚本小子的水平，是那些能在真实环境中找到零日漏洞、写出可靠利用代码的人的水平。

更有意思的是Token预算对能力的影响。在最难的基准CyberGym上，GPT-5.5在200万Token预算下正确率只有54.4%；推到5000万Token时，正确率飙升至86.4%——同一个模型，只因为给的算力更充裕，正确率涨了32个百分点。英国人工智能安全研究所（AISI）的独立研究也证实：给到1亿Token时模型能力仍在上涨，还没看到平台期。

* * *

### AI黑客能力每5到6个月翻一倍

Lyptus从2024年开始追踪相关数据，拟合出的增长曲线相当吓人：AI进攻性网络安全能力，**每5到6个月翻一倍**。

这个”时间地平线”指标衡量的是：一个AI系统完成顶级难度任务平均需要多少时间（通过不断增加算力预算来测量）。2026年初，Claude Opus 4.6的时间地平线是3.2小时，GPT-5.3 Codex是3.1小时。两个月后，GPT-5.5的时间地平线直接拉到了5.1小时——如果放开算力上限让它冲过12小时的测量上限，这条曲线根本画不出来。

问题在这里：时间地平线方法论原本的假设是，总会有比当前模型能力更难的题来锚定曲线的拐点。但GPT-5.5把所有题都做完了，拐点消失了，曲线无法拟合。评测体系不是被证伪了，是被模型能力的增长速度远远甩在了后面。

### 头部厂商已经在”控”了

意识到这个能力水平意味着什么之后，头部厂商的动作相当迅速：

-   **Anthropic**：4月发布Claude Mythos Preview，但因为网络安全能力过强，决定不公开发布。配套推出了Project Glasswing，只把模型部署给关键基础设施的防御方使用。
-   **OpenAI**：给GPT-5.5的网络安全能力评级为”High”（只比最高级”Critical”低一档），所有攻击相关能力均通过”Trusted Access for Cyber”门控，不是谁都能调用。
-   **METR独立评估**：拟合出Claude Mythos的时间地平线至少为16小时，但无法给出精确点估计——这意味着连独立评估机构都跟不上模型的边界了。

* * *

### 最麻烦的问题：闭源能力迟早会开源

Lyptus测量了一个叫”适应缓冲期”的指标：从一个闭源前沿能力首次出现，到同等能力出现在开源模型里，平均时间差是多少。在进攻性网络安全领域，这个数字是**5.7到13.1个月**。

按当前的速度，Mythos和GPT-5.5级别的攻击能力，**2026年年内就可能以开源形式落到任何人手里**。到那时候，没有”Trusted Access”门控，没有使用场景限制，只有一块显卡和一点好奇心。

网络安全圈子里的普遍看法是：防御方本来就需要假设”攻击者拥有无限资源”，但当一个高中生也能在本地跑一个GPT-5.5级别的攻击模型时，”无限资源”的假设就不再是理论讨论了。

### 连”最易量化”的领域都跟不上了

这份报告最让人不安的地方，其实不在92.4%这个数字本身，而在于它暴露了一个结构性困境：网络安全是少数有明确成功判据（漏洞找到了没有？系统打穿了没有？）因而相对容易量化的AI能力领域。连这个领域的评估体系都已经失效了，那些更模糊、更难量化的能力维度——推理、规划、社会工程——的评估困境只会更突出。

如果AI能力真的按照每6个月翻一倍的速度增长，一年后是当前的4倍，两年后是16倍。在通往AGI乃至ASI的路上，失效的评估体系只会越来越多，而不是逐渐被修好。

对于安全研究者来说，这份报告给出的信号很直接：静态防御规则已经不够用了。当攻击方可以用AI实时生成针对特定目标环境的漏洞利用代码，防御方也必须用AI来对抗AI——而且是同样聪明、同样快速的AI。

📎 原文来源：[36氪 – GPT-5.5彻底击穿300个黑客评测任务](https://www.36kr.com/p/3828666999772041) | [CSDN – GPT-5.5进攻性网络安全测试分析](https://blog.csdn.net/techforward/article/details/161490348)

**Tags:** AI, AI安全, AI技术, AI突破, GPT-5.5, 网络安全

**Categories:** AI资讯

---