摘要
为了实现人类对代理AI系统的监督,通常会提供推理和行动步骤的记录。设计具有信息量但不过于繁杂的记录仍是一个关键挑战。通过三个关于计算机用户代理的用户研究,我们调查了基本行动记录在验证中的效用,探索了三种替代方案,并测试了一种新型界面在问答任务中发现错误的影响。如预期所见,当前的做法较为繁琐,限制了其有效性。然而,我们提出的方案减少了参与者寻找错误所花费的时间。尽管参与者报告了更高的决策信心,但最终准确性并未显著提高。因此,我们的研究揭示了代理系统的人类验证面临的挑战,包括管理内置假设、用户的主观且变化的正确性标准,以及传达代理过程的重要性与不足。
AI 推荐理由
论文探讨了代理系统中人类监督的挑战,涉及行动痕迹的设计与信息传达,与Agent Memory相关但非核心。
论文信息