腾讯的研究者们发现,大语言模型的性能会随着实例化agent数量的增加而增强,无需复杂的多LLM agents协作框架。实验结果显示多个小LM集成可以超越较大LM的性能。论文探讨了性能提升与问题难度之间的关系,并提出了逐步采样和投票、分层采样和投票两种优化策略。