研究称，流行的人工智能基准 LMArena 据称有利于大型供应商

Salesforce AI Research发布多项创新，旨在解决企业AI系统在强大智能与稳定执行力之间的差距，即“锯齿状智能”。核心目标是构建更智能、可信、适用于企业应用的AI代理，并向“企业通用智能”（EGI）迈进。

研究重点在于量化和解决AI性能不一致性，推出了SIMPLE数据集作为公开基准。更重要的是，Salesforce推出了CRMArena，一个模拟真实CRM场景的基准测试框架，用于全面评估AI代理在服务、分析和管理等角色中的表现。早期测试显示，现有领先AI座席在函数调用成功率方面仍有提升空间。

在模型层面，Salesforce发布了SFR-Embedding，一种在文本嵌入基准测试中领先的新模型，旨在更深入地理解上下文。同时推出了针对代码搜索优化的SFR-Embedding-Code。此外，还推出了xLAM V2（大型动作模型），专注于预测和执行任务序列，尤其适用于需要与企业系统交互的自主代理。

为解决企业对AI安全性的担忧，Salesforce推出了SFR-Guard模型，增强了其信任层，为AI代理的行为提供保障。同时推出了ContextualJudgeBench，用于评估基于LLM的判断模型。在多模态领域，推出了TACO模型，通过思维行动链解决复杂的多步骤问题，并在相关基准测试中取得显著性能提升。

Salesforce强调与客户的共同创新，客户反馈是塑造企业AI路线图的关键。通过应用Atlas推理引擎等先进技术，AI性能已得到显著提升。

Salesforce的研究正值企业加速采用AI的关键时刻，其关注点在于将先进功能与可靠性能相结合。与追求更大模型的行业趋势不同，Salesforce更侧重于解决现实世界的业务需求。相关技术将在未来几个月内逐步推出，首先应用于数据云，并为Agentforce的未来版本提供支持。Salesforce认为，在企业AI竞争中，一致性和可靠性将最终胜出。

{{userData.name}}已认证

研究称，流行的人工智能基准 LMArena 据称有利于大型供应商

AI基准测试平台LMArena陷争议：研究指责其偏袒OpenAI、谷歌和Meta

Meta智能眼镜隐私政策更新:默认启用语音录制引隐私担忧

如何使用即梦3.0模型？

AI写作-DeepSeek虚拟伴侣指令之AI男友角色设定

AI绘画-即梦ai智能参考功能实测

豆包 1.5 · 深度思考模型上线边缘大模型网关可免费领百万Tokens

AI变天！HeyGen发布“有灵魂”的数字人Avatar IV 一张照片秒变“戏精”数字人，表情比真人还细腻

ICML 2025 | 视频生成模型无损加速两倍，秘诀竟然是「抓住attention的时空稀疏性」