Perplexity「Comet」AI 浏览器功能曝光!自主导航 + 无头模式,5 月中旬将发 5月12日 willai 取消关注 关注 私信 Vending – Bench 是模拟运营自动售货机的 AI 测试环境,考验 AI 跟踪库存、下单等能力。结果显示不同 AI 模型性能差异大,Claude 3.5 Sonnet 和 o3 – mini 等部分模型能盈利甚至超人类基准,但模型表现方差大,即使表现好的模型也会出现读错配送时间表等故障。这表明当前模型难以长时间持续推理决策,凸显了确保 AI 模型长期安全可靠这一关键挑战,对现实世界 AI 部署影响重大。