大型推理模型(如 OpenAI-o1、DeepSeek-R1)展现了强大的推理能力,但其静态知识限制了在复杂知识密集型任务及全面报告生成中的表现。为应对此挑战,深度研究智能体 WebThinker 赋予 LRM 在推理中自主搜索网络、导航网页及撰写报告的能力。WebThinker 集成了深度网页探索器,使 LRM 能自主搜索、导航并提取信息;自主思考 – 搜索 – 写作策略无缝融合推理、信息收集与实时报告写作;并结合强化学习训练优化工具调用。实验表明,WebThinker 在 GPQA、GAIA、WebWalkerQA、HLE 等复杂推理基准及 Glaive 研究报告生成任务中展现出强大性能,显著提升了 LRM 在复杂场景下的适用性与可靠性,为构建更强大、通用的深度研究系统奠定了坚实基础。
- 论文标题: WebThinker: Empowering Large Reasoning Models with Deep Research Capability
- 论文链接: https://arxiv.org/abs/2504.21776
- 代码仓库: https://github.com/RUC-NLPIR/WebThinker
Demo
1. OpenAI 有哪些模型?它们有什么区别?