Perplexity搜索质量下滑,RAG技术难解幻觉问题

阿里通义千问团队5月26日发布QwenLong-L1-32B模型,这是其首个基于强化学习训练的长文本情境推理模型,支持最长131072个tokens上下文窗口。在七个DocQA基准测试中,该模型表现优于o3-mini和Qwen3-235B-A22B,与Claude-3.7-Sonnet-Thinking相当。QwenLong-L1-32B基于GRPO与DAPO算法,结合混合奖励函数与课程引导式训练策略,显著提升了长文本推理的准确性与效率。

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索