Perplexity搜索质量下滑,RAG技术难解幻觉问题 5月29日 willai 取消关注 关注 私信 阿里通义千问团队5月26日发布QwenLong-L1-32B模型,这是其首个基于强化学习训练的长文本情境推理模型,支持最长131072个tokens上下文窗口。在七个DocQA基准测试中,该模型表现优于o3-mini和Qwen3-235B-A22B,与Claude-3.7-Sonnet-Thinking相当。QwenLong-L1-32B基于GRPO与DAPO算法,结合混合奖励函数与课程引导式训练策略,显著提升了长文本推理的准确性与效率。