蚂蚁集团开源Ming-lite-omni,参数超20亿对标GPT-4o 5月30日 willai 取消关注 关注 私信 最新对比评测显示,在粒子系统、马里奥游戏、俄罗斯方块和国际象棋等复杂编码任务中,Anthropic 的 Claude Opus 4 综合表现最强,无论是代码质量、提示遵循、风格还是执行稳定性均遥遥领先。Google 的 Gemini 2.5 Pro 表现稳定,性价比高。相比之下,OpenAI 的 o3 表现则较为平庸,难以令人满意。这场实战横评揭示了谁才是真正的AI程序员。