微软实验揭示 LLM 痛点:多轮交互中过度依赖初期方案,纠错能力缺失 5月16日 willai 取消关注 关注 私信 微软最新研究发现,大语言模型(LLM)在多轮对话中的表现不尽人意。通过大规模模拟实验,研究人员对比了顶级开源及闭源 LLM 在单轮和多轮对话中的性能,结果显示,在六个生成任务中,模型性能平均下降 39%。分析超 20 万次模拟对话发现,性能衰退源于固有能力减弱及不可靠性增加。LLM 在对话初期常过早假设并尝试生成最终方案,且过度依赖这些方案,一旦方向错误,便难以自我纠正,彻底迷失方向,严重影响其在多轮对话场景中的实用性 。