摘要
在多智能体环境中,战略决策是大型语言模型(LLMs)面临的关键挑战,尤其是在需要通过长时间对话进行协调和谈判的情况下。尽管近期研究探索了LLMs在孤立决策任务中的应用,但很少关注通过对话优化长期目标。本文提出了一种名为GameTalk的框架,用于训练LLMs通过多轮交互进行战略决策。不同于以往专注于单轮目标或静态动作预测的工作,我们训练LLMs在整个对话中优化全局目标。我们通过调整GRPO、DPO和STaR等微调方法,使其能够结合依赖于整个交互过程的奖励信号。我们在一系列复杂度逐渐增加的游戏中评估了该方法,这些游戏旨在测试不同的推理、协调和对手建模方面。实验结果表明,GameTalk显著优于未训练的模型,特别是在奖励塑造下,DPO方法始终表现出最强的提升效果。这些发现表明,对话式微调为LLMs在交互环境中进行推理、协商和行动提供了一条有前景的路径。
AI 推荐理由
论文涉及多智能体对话中的长期目标优化,与Agent Memory相关但非核心主题。
论文信息