泄密文件揭示 2025 Super-Assistant 计划：先占年轻人心智

5月26日

willai

Sakana AI 发布 Sudoku-Bench 推理基准排行榜，评估大模型在数独任务中的逻辑推理能力。最新数据显示，OpenAI 的 o3 Mini High 在整体表现上位居榜首，是目前唯一能解出任意 9×9 数独的模型，尽管成功率仅为 2.9%。有趣的是，Gemini 2.5 Pro 在更具挑战性的 6×6 数独上表现优异。Sakana 表示，该基准测试旨在持续追踪模型在结构化逻辑推理任务中的进展，实时排行榜也已上线。

利好利空

0 条回复 A文章作者 M管理员

更换删除

暂无讨论，说说你的看法吧

❯

个人中心

购物车

优惠劵

今日签到

有新私信私信列表

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_￥_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部

{{userData.name}}已认证

泄密文件揭示 2025 Super-Assistant 计划：先占年轻人心智

无需邀请码！扣子空间宣布开放测试

Windows下部署Docker+Ollama+Dify步骤

Adobe全新Firefly平台引入OpenAI与Google的AI模型，创意工具再升级

在windows11非C盘安装Docker

AI写作-Deepseek实践指南之内容扩写

如何使用即梦3.0模型？