泄密文件揭示 2025 Super-Assistant 计划:先占年轻人心智 5月26日 willai 取消关注 关注 私信 Sakana AI 发布 Sudoku-Bench 推理基准排行榜,评估大模型在数独任务中的逻辑推理能力。最新数据显示,OpenAI 的 o3 Mini High 在整体表现上位居榜首,是目前唯一能解出任意 9×9 数独的模型,尽管成功率仅为 2.9%。有趣的是,Gemini 2.5 Pro 在更具挑战性的 6×6 数独上表现优异。Sakana 表示,该基准测试旨在持续追踪模型在结构化逻辑推理任务中的进展,实时排行榜也已上线。