RE-TRAC: REcursive TRAjectory Compression for Deep Search Agents
Jialiang Zhu, Gongrui Zhang, Xiaolong Ma, Lin Xu, Miaosen Zhang et al.
基于大语言模型的深度研究智能体多采用ReAct框架,其线性设计难以回溯早期状态、探索替代路径或在长上下文中保持全局感知,易陷入局部最优与冗余搜索。本文提出Re-TRAC框架,通过在每条轨迹后生成结构化状态表示,汇总证据、不确定性、失败原因及后续计划,并以此引导后续轨迹,实现跨轨迹探索、迭代反思与全局信息驱动的规划,将研究重构为渐进式过程。实验表明,Re-TRAC在BrowseComp上相较ReAct提升15–20%;针对小模型引入Re-TRAC感知的监督微调,达到同规模SOTA性能。此外,工具调用与token消耗随轮次单调下降,表明其通过跨轨迹反思实现高效定向探索。
Agent Memory
Trajectory Compression
提出跨轨迹状态表示以支持迭代反思与全局规划,属记忆机制关键应用。
分享
夯
0
拉
0
More Than a Quick Glance: Overcoming the Greedy Bias in KV-Cache Compression
Aryan Sood, Tanvi Sharma, Vansh Agrawal
尽管大语言模型(LLMs)理论上支持超长上下文窗口,但其实际部署受限于键值(KV)缓存内存的线性增长。现有压缩策略虽通过剪枝机制缓解该问题,却常以牺牲语义召回为代价换取内存效率。本文提出LASER-KV(基于精确局部敏感哈希的层累积选择框架),在严格累积预算策略下探索KV压缩极限。不同于固定摘要大小的方法,该框架采用由保护除数(n)控制的分块累积策略,有效分离压缩效应与滑动窗口伪影。在Babilong基准上的实验表明,先前方法在多种长上下文任务中性能下降15–30%,而LASER-KV在128k上下文长度下保持稳定,准确率最高提升10%。研究挑战了“注意力分数足以作为token效用代理”的主流假设。
KV缓存压缩
长上下文建模
聚焦KV缓存压缩,属LLM推理内存优化,与Agent Memory密切相关但非专为Agent设计。
分享
夯
0
拉
0
Hierarchical Adaptive Eviction for KV Cache Management in Multimodal Language Models
Xindian Ma, Yidi Lu, Peng Zhang, Jing Zhang
将视觉信息融入大语言模型催生了多模态大语言模型(MLLMs),但Transformer架构的二次方内存与计算开销仍是瓶颈。现有KV缓存驱逐策略未能处理视觉与文本token间异构的注意力分布,导致效率低下或性能下降。本文提出分层自适应驱逐(HAE)框架,通过预填充阶段的双注意力剪枝(利用视觉token稀疏性与注意力方差)和受操作系统回收站启发的动态解码驱逐策略,优化MLLM中文本-视觉token交互。HAE在各层最小化KV缓存使用,通过索引广播降低计算开销,并在理论上保证优于贪心策略的信息完整性与更低误差界。实验表明,在Phi3.5-Vision-Instruct模型上,HAE在图像理解任务中减少41% KV缓存内存(准确率仅下降0.3%),并在故事生成任务中实现1.5倍推理加速且保持输出质量。
KV缓存管理
多模态大语言模型
聚焦KV缓存管理,属LLM内存优化关键机制,但非通用Agent Memory架构。
分享
夯
0
拉
0
Scaling Search-Augmented LLM Reasoning via Adaptive Information Control
Siheng Xiong, Oguzhan Gungordu, Blair Johnson, James C. Kerce, Faramarz Fekri
搜索增强型推理智能体通过多步推理与外部信息检索交替进行,但无约束的检索常导致冗余证据、上下文过载及学习不稳定。现有方法依赖基于结果的强化学习(RL),对信息获取调控指导有限。本文提出DeepControl框架,基于形式化的信息效用概念——衡量在给定推理状态下检索证据的边际价值——引入检索延续性与粒度控制机制,动态决定何时继续或停止检索以及扩展多少信息。通过退火控制策略,使智能体在训练中内化高效的信息获取行为。在七个基准上的实验表明,该方法显著优于强基线,在Qwen2.5-7B和Qwen2.5-3B上平均性能分别提升9.4%和8.6%,凸显自适应信息控制对复杂现实信息环境中扩展搜索增强型智能体的重要性。
信息检索控制
搜索增强推理
聚焦信息获取控制,涉及记忆检索机制但非核心记忆架构。
分享
夯
0
拉
0
You Need an Encoder for Native Position-Independent Caching
Shiju Zhao, Junhao Hu, Jiaqi Zheng, Guihai Chen
大语言模型(LLMs)的键值(KV)缓存基于前缀,难以高效处理任意顺序检索的上下文。位置无关缓存(PIC)虽被提出以解除位置约束并支持KV复用,但现有方法常导致显著精度下降。本文通过在主流仅解码器LLM中重新引入编码器,并显式训练其支持PIC,提出原生PIC方案。同时开发了COMB——一种兼容现有推理框架的PIC感知缓存系统。实验表明,COMB在保持相当精度的前提下,将首Token生成时间(TTFT)降低51–94%,吞吐量提升3倍,并在DeepSeek-V2-Lite-Chat上验证了其通用性。
KV缓存
位置无关缓存
聚焦KV缓存优化,属LLM推理内存机制关键改进。
分享
Code
夯
0
拉
0
A State-Transition Framework for Efficient LLM Reasoning
Liang Zhang, Yu Zhao, Longyue Wang, Tianqi Shi, Weihua Luo et al.
尽管长链式思维(CoT)推理显著提升了大语言模型(LLMs)在复杂推理任务上的性能,但生成长CoT序列带来的高昂计算与内存开销限制了其效率与实用性。现有方法通常通过压缩CoT序列提升效率,但这与测试时扩展相冲突,制约了模型的推理能力。本文提出一种高效推理框架,将LLM的推理过程建模为状态转移过程:首先利用线性注意力机制估计记录历史推理信息的“推理状态”;随后基于查询提示与该状态执行当前推理步骤并更新状态。借助线性注意力,当前步骤中的每个token可直接从状态中检索相关历史信息,无需显式关注先前步骤的token,从而将注意力计算复杂度从二次降至线性,大幅提升推理效率。此外,本文还提出基于状态的推理策略以缓解噪声推理步骤导致的过度思考问题。大量实验表明,该框架不仅提高了LLM的推理效率,还增强了其推理性能。
状态记忆
高效推理
提出状态转移机制显式建模并维护历史推理信息,属于记忆机制的关键应用。
分享
夯
0
拉
0
MedBeads: An Agent-Native, Immutable Data Substrate for Trustworthy Medical AI
Takahito Nakajima
Takahito Nakajima (Diagnostic Imaging and Interventional Radiology, Institute of Medicine, University of Tsukuba)
背景:截至2026年,大语言模型(LLMs)已具备专家级医学知识,但作为自主“临床智能体”部署仍受限。现有电子病历(EMR)及FHIR等标准面向人类设计,导致“上下文错配”:AI智能体接收碎片化数据,需依赖概率推理(如RAG)重建病史,易产生幻觉且难以审计。方法:我们提出MedBeads——一种面向智能体的原生数据基础设施,将临床事件表示为不可变的“珠子”(Beads),构成Merkle有向无环图(DAG)节点,并通过密码学方式引用因果前驱。该“一次写入、多次读取”架构使篡改在数学上可检测。我们实现了包含Go核心引擎、Python中间件(用于LLM集成)和React可视化界面的原型系统。结果:基于合成数据成功验证工作流;FHIR到DAG的转换将扁平资源重构为因果图;广度优先搜索(BFS)上下文检索算法以O(V+E)复杂度遍历相关子图,支持实时决策;篡改证据由设计保障;可视化通过显式因果链提升临床理解。结论:MedBeads通过从概率检索转向确定性图遍历、从可变记录转向不可变链,解决了“上下文错配”,为“可信医疗AI”提供基础。其结构化Bead格式构成高效、面向AI的“原生语言”。项目已开源以推动面向智能体的数据标准发展。
Agent Memory
Immutable Data Structure
提出面向Agent的不可变数据基底,解决上下文记忆的完整性与可追溯性问题。
分享
夯
0
拉
0
The Keyhole Effect: Why Chat Interfaces Fail at Data Analysis
Mohan Reddy
聊天界面已成为AI辅助数据分析的默认交互方式,但对于多步骤、状态依赖的分析任务而言,这是一种错误选择。本文基于Woods(1984)提出的“钥匙孔效应”——即通过狭窄视口观察大型信息空间所引发的认知代价——指出聊天界面通过五种机制系统性地损害分析表现:(1)持续内容替换干扰海马体空间记忆;(2)隐藏状态变量超出工作记忆容量(负载下约4个组块);(3)强制语言化引发言语遮蔽,削弱视觉模式识别;(4)线性文本流阻碍认知外化与探索性操作;(5)序列化惩罚随数据维度增加而加剧。作者形式化认知超载为O = max(0, m - v - W),并提出八种混合设计模式以缓解上述问题。
认知负荷
工作记忆
深入探讨工作记忆与空间记忆在Agent交互中的认知负荷机制。
分享
夯
0
拉
0
HyperOffload: Graph-Driven Hierarchical Memory Management for Large Language Models on SuperNode Architectures
Fangxin Liu, Qinghua Zhang, Hanjing Shen, Qinghua Zhang, Zhibo Liang et al.
Fangxin Liu (Shanghai Jiao Tong University, Shanghai, China) | Qinghua Zhang (Huawei Technologies Co., Ltd., China) | Hanjing Shen (Shanghai Jiao Tong University, Shanghai, China)
随着大语言模型(LLMs)向长上下文推理和稀疏架构演进,其内存需求已远超单设备HBM容量。尽管新兴SuperNode架构通过高带宽互连提供TB级共享内存池,现有软件栈仍难以高效利用该硬件。本文提出SuperNode内存管理框架HyperOffload,采用编译器辅助的图驱动方法,将远程内存访问显式建模为计算图中的操作,专为分层SuperNode架构设计。该框架在编译器中间表示中引入缓存算子以表达数据移动,实现对张量生命周期与执行依赖的全局静态分析,并据此开发执行顺序优化算法,在计算密集区域隐藏远程内存延迟。在MindSpore中实现后,实验表明该方法在推理任务中最高可降低26%的峰值设备内存占用,同时保持端到端性能。
大语言模型
内存管理
聚焦LLM内存管理,虽非专为Agent设计,但机制高度相关。
分享
夯
0
拉
0
Cross-Modal Memory Compression for Efficient Multi-Agent Debate
Jing Wu, Yue Sun, Tianpei Xie, Suiyao Chen, Jingyuan Bao et al.
多智能体辩论可提升推理质量并减少幻觉,但随着辩论轮次和智能体数量增加,上下文迅速膨胀。保留完整文本历史会导致令牌使用超出上下文限制,并常需重复摘要,带来额外开销与信息损失。本文提出DebateOCR——一种跨模态压缩框架,将冗长的文本辩论记录替换为紧凑的图像表示,并通过专用视觉编码器在后续轮次中加以利用。该方法可将通常达数万至数十万令牌的历史压缩92%以上,在多个基准上显著降低计算成本并加速推理。理论分析表明,智能体间的多样性有助于恢复被省略的信息:尽管单个压缩历史可能丢失细节,但聚合多个智能体的压缩视图可使集体表征以指数级高概率逼近信息瓶颈。
记忆压缩
多智能体系统
提出跨模态记忆压缩机制,显著优化多智能体辩论中的记忆存储与使用效率。
分享
夯
0
拉
0
Deep Search with Hierarchical Meta-Cognitive Monitoring Inspired by Cognitive Neuroscience
Zhongxiang Sun, Qipeng Wang, Weijie Yu, Jingxuan Yang, Haolang Lu et al.
Qipeng Wang (Gaoling School of Artificial
IntelligenceRenmin University of ChinaBeijingChina) | Weijie Yu (School of Information Technologyand ManagementUniversity of International Business and EconomicsBeijingChina)
基于大语言模型的深度搜索智能体在多步检索、推理和长周期任务执行中展现出强大能力,但其实际失败常源于缺乏对不确定环境下推理与检索状态的监控与调节机制。受认知神经科学启发,人类元认知具有分层结构,结合快速异常检测与选择性触发的经验驱动反思。本文提出DS-MCM框架,在深度搜索中嵌入显式的分层元认知监控机制:包含快速一致性监控器(轻量级检查外部证据与内部推理置信度的一致性)和慢速经验驱动监控器(基于历史智能体轨迹中的经验记忆选择性激活以指导纠正干预)。该机制直接嵌入推理-检索循环,决定何时干预及如何利用先验经验指导修正。在多个深度搜索基准和主干模型上的实验表明,DS-MCM显著提升性能与鲁棒性。
Agent Memory
Metacognition
论文核心引入基于经验记忆的监控机制,Memory是关键组成部分。
分享
夯
0
拉
0
EvoClinician: A Self-Evolving Agent for Multi-Turn Medical Diagnosis via Test-Time Evolutionary Learning
Yufei He, Juncheng Liu, Zhiyuan Hu, Yulin Chen, Yue Liu et al.
当前主流医疗AI采用不切实际的“一次性”诊断模式,而真实临床诊断是一个迭代过程,医生需依次提问和安排检查以高效获取信息。为此,作者提出新基准Med-Inquire,基于真实病例模拟多轮诊断,通过Patient与Examination智能体隐藏完整病历,迫使诊断智能体主动获取信息。为应对该挑战,作者设计了EvoClinician——一种在测试时自演化的智能体,其核心为“诊断-评分-演化”循环:Actor执行诊断;Process Grader评估每步操作的临床价值与资源效率;Evolver据此反馈演化Actor的提示与记忆。实验表明,EvoClinician优于持续学习基线及其他自演化智能体。
Agent Memory
Medical Diagnosis
论文核心机制包含通过演化更新Agent的记忆,Memory是策略优化的关键组成部分。
分享
Code
夯
0
拉
0
Large Language Model Agents Are Not Always Faithful Self-Evolvers
Weixiang Zhao, Yingshuo Wang, Yichen Zhang, Yang Deng, Yanyan Zhao et al.
自我进化的大型语言模型(LLM)智能体通过积累和复用过往经验持续提升性能,但其是否真正依赖这些经验指导行为尚不明确。本文首次系统研究了自进化LLM智能体中“经验忠实度”——即智能体决策对其所获经验的因果依赖性。通过对原始与压缩形式经验进行受控因果干预,我们在10种LLM主干模型和9个环境中全面评估了四种代表性框架。研究发现显著不对称现象:智能体始终依赖原始经验,却常忽视或误读压缩经验,即使后者是唯一可用信息。该现象在单/多智能体设置及不同模型规模下均存在。根源在于压缩内容的语义局限、内部处理偏差抑制经验使用,以及预训练先验已足够应对的任务场景。结果挑战了当前自进化方法的假设,强调需更忠实可靠的经验整合机制。
经验忠实度
自进化智能体
聚焦LLM Agent对经验(记忆)的依赖性与忠实度,属记忆使用机制研究。
分享
夯
0
拉
0
Embodied Task Planning via Graph-Informed Action Generation with Large Lanaguage Model
Xiang Li, Ning Yan, Masood Mortazavi
尽管大语言模型(LLMs)展现出强大的零样本推理能力,但其作为具身智能体在长视野任务规划中仍面临根本挑战。标准LLM规划器常因上下文窗口限制或生成违反环境约束的幻觉转移而难以维持策略一致性。本文提出GiG框架,采用“图中图”架构组织智能体记忆:利用图神经网络(GNN)将环境状态编码为嵌入,并在经验记忆库中构建动作连接的执行轨迹图;通过聚类这些图嵌入,实现结构感知的先验知识检索,使当前决策能锚定于相关历史结构模式。此外,引入新颖的有界前瞻模块,结合符号转移逻辑增强基于记忆的动作投射能力。在Robotouille同步/异步及ALFWorld三个基准上,该方法以相当或更低计算成本显著超越现有最优基线。
Agent Memory
Embodied Planning
提出基于图结构的经验记忆库,用于存储和检索执行轨迹,是规划中的关键记忆机制。
分享
夯
0
拉
0
Epistemic Context Learning: Building Trust the Right Way in LLM-Based Multi-Agent Systems
Ruiwen Zhou, Maojia Song, Xiaobao Wu, Sitao Cheng, Xunjian Yin et al.
Ruiwen Zhou (National University of Singapore)
多智能体系统中的个体智能体常因盲目顺从而缺乏鲁棒性。本文指出该问题源于谄媚倾向及对同伴可靠性评估能力不足。为此,作者形式化了“历史感知引用”学习问题,将同伴的历史交互作为额外输入,使智能体能在不确定时依据可信同伴进行学习。该方法将任务从评估同伴推理质量转变为基于交互历史估计其可靠性。作者提出认知上下文学习(ECL)框架,通过显式构建同伴历史档案来调节预测,并结合强化学习与辅助奖励进行优化。实验表明,ECL使Qwen 3-4B小模型性能超越无历史感知的8倍大模型(Qwen 3-30B),并使前沿模型达到近100%准确率,且在多种多智能体配置中具有良好泛化能力。
多智能体系统
信任建模
利用历史交互构建记忆以评估同伴可靠性,属记忆关键应用。
分享
夯
0
拉
0
Non-Markov Multi-Round Conversational Image Generation with History-Conditioned MLLMs
Haochen Zhang, Animesh Sinha, Felix Juefei-Xu, Haoyu Ma, Kunpeng Li et al.
Animesh Sinha (Meta)
对话式图像生成要求模型在多轮交互中遵循用户指令,并以累积的图文聊天历史为依据。现有方法多采用马尔可夫假设,仅依赖最新图像,忽略长程历史。本文提出非马尔可夫设定,支持用户回溯早期状态、撤销修改或引用多轮前引入的实体。为此,作者构建了包含回滚编辑和基于名称的跨轮个性化等非马尔可夫数据;设计了带token级缓存的历史条件化训练与推理框架,防止身份漂移;并引入基于重建的DiT解码器与多阶段微调策略,提升图像保真度与可编辑性。实验表明,该方法显著增强多轮一致性与指令遵循能力,同时保持单轮编辑性能。
多模态大语言模型
对话记忆
非马尔可夫交互
图像生成
论文聚焦多轮对话中对历史状态的长期依赖与检索,涉及记忆机制的关键应用。
分享
夯
0
拉
0
Beyond Speedup -- Utilizing KV Cache for Sampling and Reasoning
Zeyu Xing, Xing Li, Hui-Ling Zhen, Mingxuan Yuan, Sinno Jialin Pan
KV缓存通常仅用于加速自回归解码,但其编码的上下文信息可零成本复用于下游任务。本文提出将KV缓存视为一种轻量级表征,无需重新计算或存储完整隐藏状态。尽管弱于专用嵌入,KV衍生表征在两项关键应用中表现优异:(i) 嵌入链(Chain-of-Embedding),在Llama-3.1-8B-Instruct和Qwen2-7B-Instruct上达到竞争性甚至更优性能;(ii) 快/慢思维切换(Fast/Slow Thinking Switching),在Qwen3-8B和DeepSeek-R1-Distil-Qwen-14B上实现自适应推理,最多减少5.7倍的token生成,且精度损失极小。研究确立了KV缓存作为采样与推理的有效免费基底,为大语言模型推理中的表征复用开辟新方向。
KV缓存
推理优化
将KV缓存作为轻量级记忆表征用于推理与采样,属记忆机制的重要应用。
分享
Code
夯
1
拉
0
MALLOC: Benchmarking the Memory-aware Long Sequence Compression for Large Sequential Recommendation
Qihang Yu, Kairui Fu, Zhaocheng Du, Yuxuan Si, Kaiyuan Li et al.
Qihang Yu (Zhejiang UniversityHangzhouChina) | Kairui Fu (Zhejiang UniversityHangzhouChina) | Zhaocheng Du (Huawei Noah’s Ark LabHangzhouChina)
随着模型规模和数据量的增长,推荐系统面临高昂的计算开销,尤其在处理用户长行为序列时。现有方法常通过预存用户历史中间状态以避免重复计算,但忽视了由此带来的巨大内存开销。本文提出MALLOC,一个面向内存感知长序列压缩的综合基准,系统性地分类并评估适用于大规模序列推荐的内存管理技术。这些技术被集成至前沿推荐模型中,构建了一个可复现、易访问的评估平台。通过在准确性、效率与复杂度上的广泛实验,验证了MALLOC在推动大规模推荐系统发展中的整体可靠性。
序列推荐
内存压缩
聚焦推荐系统中的长序列内存压缩,属Memory关键应用但非Agent核心架构。
分享
夯
0
拉
0
PathWise: Planning through World Model for Automated Heuristic Design via Self-Evolving LLMs
Oguzhan Gungordu, Siheng Xiong, Faramarz Fekri
大语言模型(LLMs)已推动组合优化问题(COPs)中自动化启发式设计(AHD)的发展,但现有框架依赖固定进化规则和静态提示模板,易导致短视生成、冗余评估及推理能力不足。本文提出PathWise——一种多智能体推理框架,将启发式生成建模为在蕴含图上的序贯决策过程,该图作为紧凑且具状态性的记忆结构,记录搜索轨迹并支持跨代信息复用或规避。系统包含策略智能体规划进化动作、世界模型智能体生成条件启发式 rollout,以及批评家智能体提供路由反思以总结历史经验,从而将LLM驱动的AHD从试错式进化转向基于状态感知的规划推理。实验表明,PathWise在多种COP上更快收敛至更优启发式,兼容不同LLM主干,并可扩展至更大规模问题。
Agent Memory
Automated Heuristic Design
提出基于蕴含图的状态化记忆机制,用于记录和复用搜索轨迹,是启发式生成的关键组件。
分享
夯
0
拉
0
HARMONI: Multimodal Personalization of Multi-User Human-Robot Interactions with LLMs
Jeanne Malécot, Hamed Rahimi, Jeanne Cattoni, Marie Samson, Mouad Abrini et al.
Jeanne Malécot∗,1,2{}^{*,~1,~2}, Hamed Rahimi∗,2{}^{*,~2}, Jeanne Cattoni3, Marie Samson2, Mouad Abrini2, Mahdi Khoramshahi2, Maribel Pino3, Mohamed Chetouani2 (1Institut Curie, Université Paris-Saclay2Institute of Intelligent Systems and Robotics (ISIR), Sorbonne University3Assistance Publique – Hôpitaux de Paris (AP-HP), Université Paris CitéParisFrance)
现有人机交互系统在多用户环境中常缺乏持续个性化与动态适应机制,限制了其在现实场景中的有效性。本文提出HARMONI——一种多模态个性化框架,利用大语言模型使社交辅助机器人能够管理长期多用户交互。该框架整合四个关键模块:(i)感知模块用于识别活跃说话者并提取多模态输入;(ii)世界建模模块维护环境与短期对话上下文表示;(iii)用户建模模块更新长期说话者特定档案;(iv)生成模块产出上下文相关且符合伦理的回应。通过在四个数据集上的广泛评估、消融实验及养老院真实场景用户研究,验证了HARMONI在说话者识别、在线记忆更新和伦理对齐个性化方面的优越性,在用户建模准确性、个性化质量与用户满意度上均优于基线LLM方法。
Agent Memory
多用户交互
论文核心包含长期用户建模与在线记忆更新机制,是Agent Memory的关键应用。
分享
夯
0
拉
0
SPARC-RAG: Adaptive Sequential-Parallel Scaling with Context Management for Retrieval-Augmented Generation
Yuxin Yang, Gangda Deng, Ömer Faruk Akgül, Nima Chitsazan, Yash Govilkar et al.
检索增强生成(RAG)通过外部证据支撑大语言模型输出,但在需要长推理的多跳问答任务中仍面临挑战。近期研究从两个互补维度扩展RAG:顺序深度用于迭代优化和并行宽度用于覆盖扩展。然而,简单扩展导致上下文污染和效率低下,计算增加但效果不升反降。为解决这些问题,本文提出SPARC-RAG,一种多智能体框架,在统一的上下文管理机制下协调顺序与并行推理扩展。SPARC-RAG采用专门智能体维护共享全局上下文,并对扩展过程进行显式控制。它为每个分支生成针对性、互补性子问题以实现多样化的并行探索,并根据答案正确性和证据支撑情况显式调节退出决策。为进一步优化扩展行为,本文引入一种轻量级微调方法,结合可验证的过程级偏好,提升了顺序扩展的效率和并行扩展的效果。在单跳和多跳问答基准测试中,SPARC-RAG始终优于之前的RAG基线模型,在更低的推理成本下平均F1值提升6.2。
RAG
Agent Memory
多智能体系统
上下文管理
检索增强生成
论文提出SPARC-RAG框架,涉及上下文管理与多智能体协作,与Agent Memory密切相关。
分享
夯
0
拉
0
ReCreate: Reasoning and Creating Domain Agents Driven by Experience
Zhezheng Hao, Hong Wang, Jian Luo, Jianqing Zhang, Yuyan Zhou et al.
大语言模型智能体正在重塑工业格局,但多数实用智能体仍依赖人工设计,因任务差异大而成本高昂。本文提出ReCreate——一种由经验驱动的自动领域智能体构建框架,系统性地利用智能体交互历史,从中提取成功或失败的原因及改进路径。该框架引入“智能体即优化器”范式,包含三大组件:按需调用的经验存储与检索机制、将执行经验映射为脚手架编辑的推理-创建协同流水线,以及将实例级细节抽象为可复用领域模式的分层更新策略。实验表明,ReCreate在多个领域中优于人工设计及现有自动化方法,即使从极简初始脚手架出发亦表现优异。
Agent Memory
Automated Agent Creation
论文核心利用交互历史(即经验记忆)驱动Agent创建与优化,涉及记忆存储、检索与抽象机制。
分享
夯
0
拉
0
Spurious Rewards Paradox: Mechanistically Understanding How RLVR Activates Memorization Shortcuts in LLMs
Lecheng Yan, Ruizhe Li, Guanhua Chen, Qing Li, Jiahui Geng et al.
基于可验证奖励的强化学习(RLVR)虽能有效提升大语言模型的推理能力,但近期研究表明,即使使用虚假或错误的奖励,如Qwen 2.5等模型仍能获得显著性能提升。本文发现这一现象背后存在“困惑度悖论”:虚假RLVR导致答案词元的困惑度下降,但提示侧的语义连贯性却退化,表明模型倾向于绕过推理而依赖记忆。通过路径修补、Logit Lens、JSD分析和神经微分方程,作者识别出一个隐藏的“锚点-适配器”回路:中层(L18–20)的功能锚点触发记忆检索,后续层(L21+)的结构适配器则调整表征以适应该捷径信号。进一步实验表明,调控该回路中特定MLP键可实现对污染驱动性能的双向因果干预。本研究为识别与缓解RLVR调优模型中的数据污染提供了机制性路线图。
Agent Memory
Mechanistic Interpretability
论文揭示LLM在RLVR中通过记忆捷径绕过推理,深入分析记忆激活机制。
分享
Code
夯
0
拉
0
LOOKAT: Lookup-Optimized Key-Attention for Memory-Efficient Transformers
Aryan Karmore
在边缘设备部署大语言模型需压缩KV缓存。现有量化方法虽减少存储,但因注意力计算前需将INT4/INT8键反量化为FP16,未能降低带宽开销。本文指出注意力评分等价于内积相似性搜索,可借鉴向量数据库压缩技术。提出LOOKAT方法,通过乘积量化与非对称距离计算,将键向量分解为子空间、学习码本,并利用查找表计算注意力,使注意力计算从内存受限转为计算受限。在GPT-2上实现64倍压缩(输出保真度95.7%)和32倍压缩(95.0%),无需修改架构或重新训练,且保持排名相关性ρ>0.95。理论分析表明相关性退化率为O(d_k/mK),在序列长度达1024时仍有效。
KV缓存压缩
内存高效推理
聚焦KV缓存压缩,属LLM推理内存优化,与Agent Memory密切相关但非专为Agent设计。
分享
夯
0
拉
0
Role-Playing Agents Driven by Large Language Models: Current Status, Challenges, and Future Trends
Ye Wang, Jiaxing Chen, Hongjiang Xiao
近年来,随着大语言模型(LLMs)的快速发展,角色扮演语言智能体(RPLAs)成为自然语言处理与人机交互交叉领域的研究热点。本文系统综述了RPLAs的发展现状与关键技术,梳理了从早期基于规则的模板范式,经由语言风格模仿阶段,到以人格建模与记忆机制为核心的认知模拟阶段的技术演进路径。文章总结了支撑高质量角色扮演的关键技术路径,包括基于心理量表的角色建模、记忆增强的提示机制,以及基于动机-情境的行为决策控制。在数据层面,分析了角色专用语料库构建的方法与挑战;在评估方面,整理了涵盖角色知识、人格保真度、价值对齐与交互幻觉的多维评估框架及基准数据集。最后,展望了人格演化建模、多智能体协同叙事、多模态沉浸式交互及与认知神经科学融合等未来方向。
角色扮演智能体
记忆增强提示
论文将记忆机制作为角色扮演智能体认知模拟阶段的核心组成部分,并探讨记忆增强提示等关键技术。
分享
夯
0
拉
0
Sparse-RL: Breaking the Memory Wall in LLM Reinforcement Learning via Stable Sparse Rollouts
Sijia Luo, Xiaokang Zhang, Yuxuan Hu, Bohan Zhang, Ke Wang et al.
强化学习(RL)已成为激发大语言模型(LLM)复杂推理能力的关键手段。然而,在长周期轨迹生成过程中存储键值(KV)缓存带来的巨大内存开销,成为在有限硬件上高效训练的主要瓶颈。现有KV压缩技术虽适用于推理阶段,但直接用于RL训练会引发严重的策略不匹配,导致性能崩溃。为此,本文提出Sparse-RL,通过稀疏感知拒绝采样与基于重要性的重加权机制,校正因压缩导致的信息损失所引入的离策略偏差,从而实现稳定训练。实验表明,Sparse-RL在显著降低轨迹内存开销的同时保持了模型性能,并天然支持稀疏推理部署,提升模型鲁棒性。
LLM Agent Memory
强化学习
聚焦KV缓存压缩对RL训练的影响,属LLM Agent内存效率关键问题。
分享
夯
0
拉
0
SPRInG: Continual LLM Personalization via Selective Parametric Adaptation and Retrieval-Interpolated Generation
Seoyeon Kim, Jaehyung Kim
大语言模型的个性化通常依赖静态检索或一次性适应,假设用户偏好恒定不变。然而,真实交互中用户兴趣持续演化,模型需在避免灾难性遗忘的同时适应偏好漂移。现有持续学习方法常因无差别更新噪声交互而失效,难以区分真实偏好变化与临时上下文。为此,本文提出SPRInG——一种新型半参数化持续个性化框架。训练阶段采用基于似然评分的漂移驱动选择性适应机制,仅在高新颖性交互上更新用户特定适配器,并将难学残差存入回放缓冲区;推理阶段通过严格相关性门控,结合参数化知识与检索历史进行logit插值。在长文本个性化生成基准上的实验表明,SPRInG显著优于现有基线,验证了其在现实持续个性化场景中的鲁棒性。
持续学习
个性化
半参数化记忆
偏好漂移
论文聚焦持续个性化中的记忆机制,结合参数与检索记忆应对偏好漂移。
分享
夯
0
拉
0
Structured Knowledge Representation through Contextual Pages for Retrieval-Augmented Generation
Xinze Li, Zhenghao Liu, Haidong Xin, Yukun Yan, Shuo Wang et al.
检索增强生成(RAG)通过引入外部知识提升大语言模型(LLM)性能。近期研究将迭代知识累积机制融入RAG,以逐步积累并优化与查询相关的知识,但缺乏连贯的组织结构,限制了知识表示的完整性与一致性。为此,本文提出PAGER——一种面向RAG的页面驱动自主知识表示框架。PAGER首先引导LLM为给定问题构建包含多个知识维度槽位的结构化认知提纲,随后迭代检索并精炼相关文档以填充各槽位,最终形成一个连贯的上下文页面,用以指导答案生成。在多个知识密集型基准和主干模型上的实验表明,PAGER显著优于现有RAG方法。进一步分析显示,其构建的知识表示质量更高、信息更密集,能更有效缓解知识冲突,并提升LLM对外部知识的利用效率。
检索增强生成
结构化记忆
知识表示
大语言模型
提出结构化知识表示框架,用于迭代构建和组织外部记忆,是Agent Memory的关键组成部分。
分享
Code
夯
0
拉
0
Long-term Task-oriented Agent: Proactive Long-term Intent Maintenance in Dynamic Environments
Qinglong Shi, Donghai Wang, Hantao Zhou, Jiguo Li, Jun Xu et al.
当前大语言模型智能体主要采用被动响应范式,难以在动态环境中维持用户长期意图并自适应调整。本文提出一种主动式任务导向智能体新范式,通过两项核心能力实现:(i)基于对话历史自主构建触发条件的意图条件监控;(ii)在检测到有益环境更新时主动与用户交互。为此,我们构建了高质量数据合成流程,生成动态环境下的复杂多轮对话数据,并提出新基准ChronosBench以弥补动态任务导向交互评估标准的缺失。实验表明,现有主流模型在此类长期任务中表现不足,而基于合成数据微调的模型在包含用户意图变化的复杂任务上达到85.19%的任务完成率,验证了所提数据驱动策略的有效性。
Agent Memory
Proactive Interaction
论文聚焦长期意图维护,涉及记忆机制以支持主动监控与环境适应。
分享
夯
0
拉
0
PrivacyReasoner: Can LLM Emulate a Human-like Privacy Mind?
Yiwen Tu, Xuan Liu, Lianhui Qin, Haojian Jin
本文提出PRA,一种用于模拟个体用户如何基于现实新闻形成隐私关切的人工智能代理设计。区别于群体层面的情感分析,PRA融合隐私理论与认知理论,利用用户历史评论和上下文线索构建其个性化的“隐私心智”。该代理通过模拟有限理性的上下文过滤器动态激活相关隐私记忆,并生成反映用户在新隐私场景下可能反应的合成评论。研究还引入一个经校准的LLM-as-a-Judge评估器,依据既定隐私关切分类体系量化生成推理的忠实度。在Hacker News真实讨论数据上的实验表明,PRA在隐私关切预测上优于基线代理,并能跨AI、电商和医疗等领域迁移推理模式。
隐私推理
记忆建模
论文核心机制依赖隐私记忆的动态激活与重构,属Agent Memory关键应用。
分享
夯
0
拉
0
Don't Break the Cache: An Evaluation of Prompt Caching for Long-Horizon Agentic Tasks
Elias Lumer, Faheem Nizar, Akshaya Jangiti, Kevin Frank, Anmol Gulati et al.
近年来,大型语言模型(LLM)代理在执行需要大量工具调用的复杂多轮任务方面取得了进展,但提示缓存对这类任务的效益尚未被充分研究。本文对OpenAI、Anthropic和Google三家主要LLM提供商的提示缓存策略进行了全面评估,比较了三种缓存方法,并在DeepResearch Bench基准上测试了其效果。结果表明,提示缓存可显著降低API成本并提升首次响应时间。研究还发现,通过合理控制缓存块布局可以更一致地提高性能,而全上下文缓存可能反而增加延迟。此外,研究揭示了不同提供商在缓存策略上的差异。
LLM代理
提示缓存
成本优化
多轮任务
论文重点研究了提示缓存对代理任务的影响,涉及记忆机制优化和成本控制。
分享
夯
0
拉
0
BackdoorAgent: A Unified Framework for Backdoor Attacks on LLM-based Agents
Yunhao Feng, Yige Li, Yutao Wu, Yingshui Tan, Yanming Guo et al.
大语言模型(LLM)智能体通过结合规划、记忆和工具使用的多步工作流执行任务,这种设计虽提升了自主性,却也扩大了后门威胁的攻击面。针对现有研究碎片化、缺乏对跨阶段后门触发机制系统理解的问题,本文提出BackdoorAgent——一个模块化、阶段感知的统一框架,从智能体中心视角结构化分析规划攻击、记忆攻击和工具使用攻击三类功能阶段。该框架支持对触发器在不同阶段间激活与传播的系统性研究,并构建了涵盖Agent QA、Agent Code、Agent Web和Agent Drive四大典型应用的标准化基准。实验表明,单阶段植入的触发器可在多步中持续存在并传播,其中记忆攻击在GPT基座模型上触发持久率达77.97%,凸显智能体工作流对后门威胁的脆弱性。
LLM Agent
Memory Attack
论文将记忆攻击作为三大核心攻击阶段之一,系统分析其在Agent工作流中的触发与传播机制。
分享
夯
0
拉
0
Mind2Report: A Cognitive Deep Research Agent for Expert-Level Commercial Report Synthesis
Mingyue Cheng, Daoyu Wang, Qi Liu, Shuo Yu, Xiaoyu Tao et al.
从海量且嘈杂的网络信息中合成高质量商业报告对高风险商业决策至关重要。尽管现有深度研究智能体已取得显著进展,其生成报告在质量、可靠性和覆盖范围方面仍显不足。本文提出Mind2Report——一种模拟商业分析师的认知深度研究智能体,通过细粒度意图探测、动态网络检索与信息即时记录,并迭代合成报告。该系统采用无需训练的智能体工作流,为通用大语言模型(LLMs)引入动态记忆机制,以支持长篇幅认知任务。作者构建包含200个真实商业任务的QRC-Eval评测集,并设计综合评估策略。实验表明,Mind2Report优于OpenAI和Gemini等主流深度研究智能体。
Agent Memory
Dynamic Memory
提出动态记忆机制支持长程认知过程,是报告生成的关键组件。
分享
Code
夯
0
拉
0
Agent Drift: Quantifying Behavioral Degradation in Multi-Agent LLM Systems Over Extended Interactions
Abhishek Rath
多智能体大语言模型(LLM)系统已成为复杂任务分解与协作求解的强大架构,但其长期行为稳定性尚未得到充分研究。本文提出“智能体漂移”概念,指智能体在长期交互中行为、决策质量及相互一致性逐渐退化的现象,并构建包含语义漂移、协调漂移和行为漂移的理论框架。作者设计了涵盖12个维度的智能体稳定性指数(ASI)以量化漂移,并通过仿真分析揭示其对任务准确率和人工干预需求的负面影响。为缓解该问题,论文提出三种策略:情景记忆巩固、漂移感知路由协议和自适应行为锚定,理论分析表明这些方法可显著降低漂移错误并维持系统吞吐量。
agent drift
episodic memory consolidation
提出情景记忆巩固作为缓解策略,Memory是关键组成部分。
分享
夯
0
拉
0
CangLing-KnowFlow: A Unified Knowledge-and-Flow-fused Agent for Comprehensive Remote Sensing Applications
Zhengchao Chen, Haoran Wang, Jing Yao, Pedram Ghamisi, Jun Zhou et al.
针对遥感数据处理缺乏统一端到端智能框架的问题,本文提出CangLing-KnowFlow,融合程序性知识库(PKB)、动态工作流调整机制与进化记忆模块。该系统基于1,008个专家验证的工作流案例指导任务规划,显著减少大模型幻觉;在运行失败时可自主诊断并重规划,其进化记忆模块持续从经验中学习,迭代提升性能。在包含324个工作流的新基准KnowFlow-Bench上,该方法在13种主流大模型上均优于Reflexion基线至少4%的任务成功率,展示了将专家知识转化为可适应、可验证流程的强大潜力。
Agent Memory
Remote Sensing
提出进化记忆模块,是系统关键组件但非唯一焦点
分享
夯
0
拉
0
Recommender systems: when memory matters
Aleksandra Burashnikova, Marianne Clausel, Massih-Reza Amini, Yury Maximov, Nicolas Dante
本文研究了长时记忆在包含用户隐式反馈的序列推荐系统可学习性中的作用。我们提出一种在线算法,其模型参数按用户逐块更新,每一块由一系列未点击项目后接一个点击项目构成。通过全面的实证评估表明,根据用户与系统交互中所包含的长时记忆程度进行筛选,可显著提升MAP和NDCG指标性能,尤其在大规模推荐系统训练场景下效果更为突出。
推荐系统
长时记忆
聚焦用户交互中的长时记忆对推荐系统性能的影响,属记忆机制应用研究。
分享
夯
0
拉
0
The Anxiety of Influence: Bloom Filters in Transformer Attention Heads
Peter Balogh
一些Transformer注意力头似乎充当成员检测器,用于判断某个标记是否在上下文中出现过。本文在四个语言模型(GPT-2小、中、大;Pythia-160M)中识别出这些头,并展示了它们形成了一种成员检测策略的光谱。其中两个头表现出高精度的成员过滤功能,错误率极低。第三个头符合经典布隆过滤器的容量曲线,而第四个头在控制混淆因素后被重新归类为通用前缀注意力头。研究发现,这些真正的成员检测头构成一个多分辨率系统,集中在早期层中,具有距离敏感特性,并且能够广泛泛化到任何重复的标记类型。消融实验表明,这些头参与重复和新标记的处理,说明成员测试与其他计算任务共存。
Transformer
注意力机制
布隆过滤器
成员检测
语言模型
论文探讨了Transformer中注意力头的成员检测机制,与记忆相关,但非唯一主题。
分享
Code
夯
0
拉
0
All Leaks Count, Some Count More: Interpretable Temporal Contamination Detection in LLM Backtesting
Zeyu Zhang, Ryan Chen, Bradly C. Stadie
为了评估LLM是否能准确预测未来事件,需要在已解决的事件上进行回测。这要求模型仅使用指定过去日期前的信息进行推理。然而,LLM可能在训练过程中无意中泄露了截止日期后的时间信息,从而影响回顾性评估的有效性。本文提出了一种基于声明级别的框架,用于检测和量化这种时间知识泄露。该方法将模型的推理分解为原子声明,并根据其时间可验证性进行分类,然后应用Shapley值衡量每个声明对预测的贡献,从而得到一个可解释的指标——Shapley-DCLR,用于衡量决策驱动推理中有多少来源于泄露信息。在此基础上,本文提出了TimeSPEC方法,通过生成与声明验证和再生的交替过程,主动过滤时间污染,确保所有支持性声明均可追溯至截止日期前的来源。实验结果表明,标准提示基线存在显著泄露,而TimeSPEC在保持任务性能的同时降低了Shapley-DCLR,证明显式的声明级验证优于基于提示的时间约束。
LLM
Backtesting
Temporal Knowledge Leakage
Shapley Values
Claim Verification
论文涉及LLM在回测中时间知识泄露问题,与Agent Memory机制相关,但非唯一主题。
分享
夯
0
拉
0
Continual learning and refinement of causal models through dynamic predicate invention
Enrique Crespo-Fernandez, Oliver Ray, Telmo de Menezes e Silva Filho, Peter Flach
在复杂环境中高效导航需要智能体理解其世界的底层逻辑,而标准世界建模方法常面临样本效率低、透明度不足和可扩展性差的问题。本文提出一种框架,通过将连续模型学习与修复集成到智能体的决策循环中,利用元解释学习和谓词发明技术,发现语义上有意义且可复用的抽象概念,从而构建出层次化的解耦高质量概念体系。实验表明,该方法在具有复杂关系动态的领域中表现优异,其样本效率远高于基于PPO神经网络的基准方法。
因果建模
谓词发明
符号推理
持续学习
论文涉及因果模型构建与符号推理,与Agent Memory相关但非核心主题。
分享
夯
0
拉
0
Persona2Web: Benchmarking Personalized Web Agents for Contextual Reasoning with User History
Serin Kim, Sangam Lee, Dongha Lee
大型语言模型已推动了网络代理的发展,但当前代理缺乏个性化能力。由于用户很少明确说明其意图的所有细节,实用的网络代理必须能够通过推断用户偏好和上下文来解释模糊查询。为了解决这一挑战,我们提出了Persona2Web,这是首个在真实开放网络上评估个性化网络代理的基准测试,基于澄清以实现个性化的原理,要求代理基于用户历史而非显式指令解决模糊性。Persona2Web包含:(1) 长时间跨度内隐式揭示偏好的用户历史,(2) 需要代理推断隐式用户偏好的模糊查询,以及(3) 一种支持细粒度个性化评估的推理感知评估框架。我们在多种代理架构、主干模型、历史访问方案和不同模糊程度的查询上进行了广泛实验,揭示了个性化网络代理行为中的关键挑战。为确保可重复性,我们的代码和数据集已在https://anonymous.4open.science/r/Persona2Web-73E8公开。
Agent Memory
个性化代理
用户历史
模糊查询
评估框架
论文涉及基于用户历史的个性化代理,与Agent Memory相关但非唯一主题。
分享
夯
0
拉
0
DeepContext: Stateful Real-Time Detection of Multi-Turn Adversarial Intent Drift in LLMs
Justin Albrethsen, Yash Datta, Kunal Kumar, Sharath Rajasekar
尽管大型语言模型(LLM)的能力已经扩展,但其安全防护机制大多仍为无状态,将多轮对话视为一系列独立事件。这种缺乏时间感知的方式导致了“安全漏洞”,使得诸如Crescendo和ActorAttack等对抗性策略能够逐步在对话轮次之间渗透恶意意图,从而绕过无状态过滤器。本文提出DeepContext,一种有状态的监控框架,旨在映射用户意图的时间轨迹。DeepContext摒弃了孤立评估模型,采用递归神经网络(RNN)架构,输入经过微调的每轮嵌入序列。通过在对话中传播隐藏状态,DeepContext捕捉到无状态模型忽略的风险累积。实验表明,DeepContext在多轮越狱检测中显著优于现有基线,达到最先进的F1分数0.84,相较于主流云服务提供商和开源模型如Llama-Prompt-Guard-2(0.67)和Granite-Guardian(0.67)有明显提升。此外,DeepContext在T4 GPU上的推理开销低于20ms,确保了实时应用的可行性。这些结果表明,对意图序列演化的建模是一种更有效且计算效率更高的替代方案,而非依赖大规模无状态模型。
意图建模
对抗检测
RNN
LLM安全
对话系统
论文提出基于RNN的序列建模方法,用于捕捉对话中的意图演变,与Agent Memory相关。
分享
夯
0
拉
0
AgentLAB: Benchmarking LLM Agents against Long-Horizon Attacks
Tanqiu Jiang, Yuhui Wang, Jiacheng Liang, Ting Wang
随着LLM代理越来越多地部署在长期、复杂的环境中以解决具有挑战性的问题,它们也暴露于利用多轮用户-代理-环境交互实现单轮设置中无法达成目标的长期攻击。为衡量代理对这些风险的脆弱性,我们提出了AgentLAB,这是首个专门用于评估LLM代理对自适应长期攻击易感性的基准。目前,AgentLAB支持五种新型攻击类型,包括意图劫持、工具链、任务注入、目标漂移和记忆污染,涵盖28个现实的代理环境和644个安全测试用例。通过AgentLAB,我们评估了代表性LLM代理,发现它们仍然极易受到长期攻击;此外,为单轮交互设计的防御措施无法可靠缓解长期威胁。我们预计AgentLAB将作为跟踪实际场景中保护LLM代理进展的重要基准。
LLM Agents
Security Benchmark
Long-Horizon Attacks
Memory Poisoning
论文涉及Agent Memory相关的攻击类型,如记忆污染,但核心是评估LLM Agent的安全性。
分享
Code
夯
0
拉
0
Multi-agent cooperation through in-context co-player inference
Marissa A. Weis, Maciej Wołczyk, Rajai Nasser, Rif A. Saurous, Blaise Agüera y Arcas et al.
Marissa A. Weis (Equal contribution) | Maciej Wołczyk (Equal contribution) | Rajai Nasser (Google, Paradigms of Intelligence Team)
在多智能体强化学习中,实现自利智能体之间的合作仍是一个基本挑战。近期研究表明,能够考虑并塑造共玩家学习动态的“学习感知”智能体可以诱导相互合作。然而,现有方法通常依赖于硬编码且常不一致的共玩家学习规则假设,或严格区分“天真学习者”和“元学习者”。本文表明,序列模型的上下文学习能力可以在无需硬编码假设或显式时间尺度分离的情况下实现共玩家学习感知。我们发现,对多样化的共玩家进行训练可自然诱导出上下文最佳响应策略,这些策略在快速的单次回合时间尺度上有效地充当了学习算法。我们发现,先前工作中识别的合作机制——即对勒索的脆弱性驱动相互塑造——在此设置中自然出现:上下文适应使智能体易受勒索,而由此产生的相互压力促使它们学习对手的上下文学习动态,最终演化为合作行为。我们的结果表明,结合序列模型的标准去中心化强化学习与共玩家多样性,为学习合作行为提供了一条可扩展的路径。
多智能体强化学习
上下文学习
合作机制
序列模型
论文涉及基于上下文的协同学习机制,与Agent Memory中的动态适应和学习过程相关。
分享
夯
0
拉
0
Updating Parametric Knowledge with Context Distillation Retains Post-Training Capabilities
Shankar Padmanabhan, Mustafa Omer Gul, Tanya Goyal
微调使预训练的大型语言模型具备多种期望技能,如遵循指令和推理。然而,这些微调后的模型仅编码到某个截止日期的知识,需要持续适应。现有解决方案无法同时从适应文档语料库中学习新知识并缓解早期学习能力的遗忘。为此,我们引入了基于上下文蒸馏的持续知识适应方法DiSC。该方法通过在训练样本的不同片段上生成学生和教师分布,并最小化共享标记之间的KL散度,从而高效应用上下文蒸馏而无需显式生成步骤。我们在四个微调模型和两个适应领域上进行了实验,结果表明,与之前的微调和蒸馏方法相比,DiSC在学习新知识和缓解先前技能(如指令遵循、推理和事实知识)遗忘之间取得了最佳平衡。
持续学习
知识蒸馏
语言模型微调
论文提出了一种持续知识适应方法,涉及防止遗忘和学习新知识,与Agent Memory相关。
分享
夯
0
拉
0
Improving Interactive In-Context Learning from Natural Language Feedback
Martin Klissarov, Jonathan Cook, Diego Antognini, Hao Sun, Jingling Li et al.
Martin Klissarov (Google DeepMind) | Jonathan Cook (Google DeepMind) | Diego Antognini (Google DeepMind)
人类学习中根据纠正性反馈调整思维过程是一项关键能力,尤其在协作环境中。相比之下,当前大语言模型的训练范式主要依赖于建模大量静态语料库,忽视了模型动态适应上下文所需的交互反馈循环。本文提出了一种框架,将这种交互式上下文学习能力视为一种可训练的技能而非涌现特性。我们引入了一种可扩展的方法,将单轮可验证任务转化为由信息不对称驱动的多轮教学互动。实验表明,当前主流模型在复杂推理任务上难以整合纠正性反馈,而采用本文方法训练的模型显著提升了从语言反馈中交互式学习的能力。更具体地,较小模型的多轮性能几乎达到一个数量级更大的模型水平。此外,我们在数学问题上的交互式训练能够泛化到编程、谜题和迷宫导航等不同领域。定性分析表明,这一改进源于上下文可塑性的增强。最后,我们展示了该范式为模型自我改进提供了一条统一路径:通过训练模型预测教师的批评,有效建模反馈环境,将外部信号转化为内部能力,使模型即使没有教师也能自我修正。
交互式学习
反馈机制
模型可塑性
自监督学习
论文探讨了模型通过交互式反馈进行动态学习,涉及记忆的可塑性和适应性,与Agent Memory相关但非核心主题。
分享
夯
0
拉
0
GlobeDiff: State Diffusion Process for Partial Observability in Multi-Agent Systems
Yiqin Yang, Xu Yang, Yuhua Jiang, Ni Mu, Hao Hu et al.
在多智能体系统领域,部分可观测性是有效协调与决策的关键障碍。现有方法如信念状态估计和智能体间通信往往效果不佳。基于信念的方法受限于对过去经验的依赖,而通信方法缺乏有效利用辅助信息的模型。为了解决这一问题,本文提出全局状态扩散算法(GlobeDiff),通过局部观测推断全局状态。将状态推断过程建模为多模态扩散过程,GlobeDiff克服了状态估计中的模糊性,并能高保真地推断全局状态。我们证明了GlobeDiff在单模态和多模态分布下的估计误差均可被限制。大量实验结果表明,GlobeDiff性能优越,能够准确推断全局状态。
多智能体系统
部分可观测性
状态推断
扩散过程
论文提出GlobeDiff算法解决多智能体系统的部分可观测性问题,涉及全局状态推断,与Agent Memory相关。
分享
夯
0
拉
0
Learning to Retrieve Navigable Candidates for Efficient Vision-and-Language Navigation
Shutian Gu, Chengkai Huang, Ruoyu Wang, Lina Yao
视觉与语言导航(VLN)要求智能体根据自然语言指令在未见过的环境中进行导航。近期方法越来越多地采用大语言模型(LLMs)作为高层导航器,因其灵活性和推理能力。然而,基于提示的LLM导航常因决策效率低下而受到限制,因为模型必须在每一步从头开始解释指令并处理冗余的导航候选。本文提出了一种检索增强框架,在不修改或微调底层语言模型的前提下,提升基于LLM的VLN的效率和稳定性。该方法在两个互补层次引入检索:在任务层面,使用指令级嵌入检索器选择语义相似的成功导航轨迹作为上下文示例;在步骤层面,使用模仿学习的候选检索器在LLM推理前剪枝无关的导航方向,减少动作歧义和提示复杂度。两种检索模块均轻量、模块化且独立于LLM训练。我们在Room-to-Room(R2R)基准上评估了该方法,实验结果表明在已见和未见环境中成功率、Oracle成功率和SPL均有显著提升。消融研究进一步表明,指令级示例检索和候选剪枝分别对全局引导和步骤级决策效率提供了互补性贡献。这些结果表明,检索增强的决策支持是提升基于LLM的视觉与语言导航的有效且可扩展策略。
视觉与语言导航
大语言模型
检索增强
导航效率
论文通过检索机制增强LLM导航效率,涉及记忆相关的内容,但非唯一主题。
分享
夯
0
拉
0
World-Model-Augmented Web Agents with Action Correction
Zhouzhou Shen, Xueyu Hu, Xiyun Li, Tianqing Fang, Juncheng Li et al.
基于大语言模型的网络代理在自动化网络任务方面展现出良好的能力。然而,当前网络代理由于预测环境变化的能力有限,难以推理出合理的行动,并可能缺乏对执行风险的全面认知,从而过早采取高风险行动导致损失和任务失败。为解决这些问题,我们提出了WAC,一种结合模型协作、后果模拟和反馈驱动行动优化的网络代理。为克服单个模型的认知孤立,我们引入了多代理协作过程,使行动模型可以咨询作为网络环境专家的世界模型以获得战略指导;然后,行动模型将这些建议转化为可执行的行动,利用环境状态转移动态的先验知识来增强候选行动提案。为实现风险感知的弹性任务执行,我们引入了一个两阶段的推理链。一个专门研究环境状态转移的世界模型模拟行动结果,然后由判断模型进行审查,并在必要时触发行动修正反馈。实验表明,WAC在VisualWebArena上实现了1.8%的绝对提升,在Online-Mind2Web上实现了1.3%的绝对提升。
web agents
action correction
world model
risk-aware execution
论文涉及基于世界模型的行动修正机制,与Agent Memory中的环境状态模拟和风险评估相关。
分享
夯
0
拉
0
The Vision Wormhole: Latent-Space Communication in Heterogeneous Multi-Agent Systems
Xiaoze Liu, Ruowang Zhang, Weichen Yu, Siheng Xiong, Liu He et al.
由大型语言模型驱动的多智能体系统(MAS)实现了先进的协作推理,但受限于离散文本通信的低效性,导致运行时开销大且信息量化损失严重。尽管潜在状态转移提供了一种高带宽替代方案,现有方法要么假设发送方和接收方架构同质化,要么依赖特定配对的学习翻译器,限制了在具有不连续流形的不同模型家族中的可扩展性和模块化。本文提出了一种名为Vision Wormhole的新框架,通过重用视觉语言模型(VLMs)的视觉接口,实现模型无关、无需文本的通信。通过引入通用视觉编解码器,将异构推理轨迹映射到共享的连续潜在空间,并直接注入接收者的视觉路径中,从而将视觉编码器视为智能体间心灵感应的通用端口。该框架采用中心辐射式拓扑结构,将成对对齐复杂度从O(N^2)降低至O(N),并利用无标签的教师-学生蒸馏目标,使高速视觉通道与文本路径的稳健推理模式保持一致。在多个异构模型家族(如Qwen-VL、Gemma)上的广泛实验表明,Vision Wormhole在受控比较中减少了端到端的墙钟时间,同时保持了与标准文本MAS相当的推理保真度。
多智能体系统
潜在空间通信
视觉语言模型
异构模型通信
论文提出了一种基于视觉编码的异构多智能体通信框架,涉及隐空间信息传递,与Agent Memory相关。
分享
Code
夯
0
拉
0
Long Context, Less Focus: A Scaling Gap in LLMs Revealed through Privacy and Personalization
Shangding Gu
大型语言模型(LLMs)越来越多地应用于隐私敏感和个性化场景,但上下文长度在塑造隐私泄露和个人化效果中的作用尚未得到充分研究。我们引入了一个大规模基准测试PAPerBench,系统研究上下文长度增加如何影响LLMs的个性化质量和隐私保护。该基准包含约29,000个实例,上下文长度从1K到256K tokens不等,共生成377K个评估问题。它联合评估了不同场景下的个性化性能和隐私风险,支持对长上下文模型行为的可控分析。对当前最先进的LLMs进行广泛评估,发现随着上下文长度增加,个性化和隐私保护性能均出现退化。我们进一步提供了关于上下文扩展下注意力稀释的理论分析,将这种行为解释为固定容量Transformer中软注意力的固有局限性。实证和理论结果共同表明,当前模型存在一个普遍的扩展差距——长上下文,少关注。我们发布该基准以支持可重复的评估和未来关于可扩展隐私与个性化的研究。
LLM
Privacy
Personalization
Attention Mechanism
Context Length
论文探讨了上下文长度对隐私和个性化的影响,涉及注意力机制的稀释问题,与Agent Memory相关。
分享
Code
夯
0
拉
0
Position: Introspective Experience from Conversational Environments as a Path to Better Learning
Claudiu Cristian Musat, Jackson Tolins, Diego Antognini, Jingling Li, Martin Klissarov et al.
当前的人工智能训练方法将推理视为规模增长的副产品。本文认为,稳健的推理能力源于语言自我反思,而这种反思本身是通过高质量的社会互动内化的。基于维果茨基的发展心理学理论,本文提出了三个核心观点:首先,私人思维的社会起源表明,从对话环境中学习成为理解世界的新方式;与另一个智能体(无论是否为内部)对齐时产生的摩擦,有助于完善和固化推理过程。其次,通过对话构建的内省体验使智能体能够脱离即时数据流进行意义建构,将原始环境数据转化为丰富的、可学习的叙述。最后,对话质量即新的数据质量:智能体私密推理的深度及其测试时计算效率,取决于其掌握的对话多样性与严谨性。结论指出,优化这些对话框架是下一代通用智能的关键杠杆。
对话学习
内省机制
社会互动
认知发展
AI训练
论文探讨了对话环境中的自我反思对学习的影响,与Agent Memory中通过交互优化推理过程相关。
分享
夯
0
拉
0
Atomix: Timely, Transactional Tool Use for Reliable Agentic Workflows
Bardia Mohammadi, Nearchos Potamitis, Lars Klein, Akhil Arora, Laurent Bindschaedler
随着LLM代理越来越多地作用于外部系统,但工具的效果是即时的。在发生故障、推测或竞争时,丢失分支可能导致意外的副作用且无法安全回滚。本文提出Atomix,一个提供进度感知事务语义的运行时环境,用于代理工具调用。Atomix为每个调用标记一个纪元,跟踪每个资源的前沿,并仅在进度谓词表明安全时提交;可缓冲的效果可以延迟,而外部效果则被跟踪并在中止时进行补偿。通过注入故障的真实工作负载测试,事务重试提高了任务成功率,而前沿门控提交在推测和竞争下增强了隔离性。
LLM Agent
事务处理
可靠工作流
状态管理
论文涉及Agent工具调用的事务性语义,与可靠工作流中的记忆或状态管理相关。
分享
夯
0
拉
0
Precedent-Informed Reasoning: Mitigating Overthinking in Large Reasoning Models via Test-Time Precedent Learning
Qianyue Wang, Jinwu Hu, Huanxiang Lin, Bolin Chen, Zhiquan Wen et al.
大型语言模型(LLMs)在推理过程中常因冗长且低效的思维链而产生较高的计算成本并降低性能。受人类推理模式启发,本文提出基于先例的推理(PIR),将推理范式从耗尽式的自我探索转变为基于先例的引导学习。PIR主要解决两个关键挑战:如何选择合适的先例以及如何有效利用这些先例。首先,自适应先例选择(APS)为每个问题和模型构建一个语义相关且信息丰富的先例集合,并通过联合评分(语义相似度与模型困惑度)进行排序,以最大化困惑度的减少。其次,测试时经验内化(TEI)作为测试时的学习机制,通过更新轻量级适配器来内化解决方案模式,并将其作为后续推理的先验知识。实验结果表明,PIR在数学推理、科学问答和代码生成任务中均能有效缩短推理路径,同时保持或提升最终准确性,实现了优异的准确率-效率权衡。
Agent Memory
推理优化
先例学习
LLM推理
测试时学习
论文提出基于先例的推理机制,涉及记忆利用以优化推理过程,属于Agent Memory相关研究。
分享
夯
0
拉
0
Whom to Query for What: Adaptive Group Elicitation via Multi-Turn LLM Interactions
Ruomeng Ding, Tianwei Gao, Thomas P. Zollo, Eitan Bachmat, Richard Zemel et al.
Ruomeng Ding (University of North Carolina at Chapel Hill) | Tianwei Gao* (University of North Carolina at Chapel Hill) | Thomas P. Zollo (Columbia University)
从调查和其他集体评估中获取信息以减少对潜在群体属性的不确定性,需要在真实成本和数据缺失的情况下合理分配有限的提问资源。尽管大语言模型支持自然语言下的自适应、多轮交互,但现有方法大多固定受访者群体,未能根据部分或不完整响应调整受访者选择或利用人口结构。为弥补这一不足,本文研究了自适应群体信息获取问题,在明确的查询和参与预算下,代理自适应地选择问题和受访者。我们提出了一种理论支撑的框架,结合(i)基于LLM的预期信息增益目标来评分候选问题,以及(ii)异构图神经网络传播,用于聚合观察到的响应和参与者属性,以填补缺失响应并指导每轮受访者的选取。该闭环过程在查询少量具有信息量的个体的同时,通过结构相似性推断群体层面的响应。在三个现实世界的观点数据集上,我们的方法在受限预算下一致提升了群体层面的响应预测性能,包括在10%受访者预算下CES指标超过12%的相对提升。
LLM
群体信息获取
图神经网络
自适应查询
论文涉及基于LLM的自适应信息获取,与Agent Memory中的响应选择和信息聚合相关。
分享
夯
0
拉
0
Dual-Signal Adaptive KV-Cache Optimization for Long-Form Video Understanding in Vision-Language Models
Vishnu Sai, Dheeraj Sai, Srinath B, Girish Varma, Priyesh Shukla
视觉-语言模型(VLMs)在处理长视频内容时面临关键的内存瓶颈,因为Key-Value(KV)缓存随序列长度线性增长。现有解决方案主要采用反应式驱逐策略,在丢弃token前计算完整的注意力矩阵,导致大量计算浪费。本文提出Sali-Cache,一种新颖的先验优化框架,通过主动内存管理实现双信号自适应缓存。该方法结合基于光流分析的时间滤波器以检测帧间冗余,并利用显著性检测的空间滤波器识别视觉重要区域,从而在进入计算密集型注意力操作之前智能管理内存分配。在LLaVA 1.6架构上的实验评估表明,该方法在保持BLEU、ROUGE-L和Exact Match指标100%准确率的同时,有效内存使用量达到2.20倍的压缩比。此外,在相同的内存预算约束下,Sali-Cache能够在更长的时间范围内保留上下文丰富的特征,而不会降低模型性能,从而实现在消费级硬件上高效处理长视频内容。
KV缓存优化
视觉-语言模型
长视频处理
内存管理
论文聚焦KV缓存优化,涉及内存管理机制,是长视频处理中的关键问题。
分享
夯
0
拉
0
REDSearcher: A Scalable and Cost-Efficient Framework for Long-Horizon Search Agents
Zheng Chu, Xiao Wang, Jack Hong, Huiming Fan, Yuqi Huang et al.
大型语言模型正在从通用知识引擎向现实问题求解器转变,但在深度搜索任务上的优化仍具挑战性。主要瓶颈在于高质量搜索轨迹和奖励信号的极端稀疏性,这源于可扩展长时域任务构建的困难以及外部工具调用带来的高交互成本。为解决这些问题,我们提出了REDSearcher,一个统一的框架,联合设计复杂任务合成、中期训练和后期训练以实现可扩展的搜索代理优化。具体而言,REDSearcher引入了以下改进:(1)我们将任务合成视为双约束优化问题,通过图拓扑和证据分布精确控制任务难度,从而生成复杂且高质量的任务。(2)我们引入工具增强查询,鼓励主动使用工具而非被动回忆。(3)在中期训练中,我们显著增强了核心原子能力,包括知识、规划和函数调用,大幅降低了收集高质量轨迹的成本。(4)我们构建了一个本地模拟环境,支持快速、低成本的强化学习算法迭代。在文本和多模态搜索代理基准测试中,我们的方法均达到最先进水平。为促进未来对长时域搜索代理的研究,我们将发布10K条高质量复杂文本搜索轨迹、5K条多模态轨迹和1K条文本强化学习查询集,并提供代码和模型检查点。
搜索代理
强化学习
任务合成
工具调用
长时域优化
论文涉及搜索代理的长期任务优化,与记忆机制相关但非核心主题。
分享
Code
夯
0
拉
0
Text Before Vision: Staged Knowledge Injection Matters for Agentic RLVR in Ultra-High-Resolution Remote Sensing Understanding
Fengxiang Wang, Mingshuo Chen, Yueying Li, Yajie Yang, Yuhao Zhou et al.
超高分辨率(UHR)遥感的多模态推理通常受限于视觉证据的获取:模型需要在庞大的像素空间中定位微小的任务相关区域。尽管使用放大工具的智能体强化学习与可验证奖励(RLVR)提供了一种解决方案,但我们发现标准强化学习在没有结构化领域先验的情况下难以导航这些庞大的视觉空间。本文研究了后训练范式之间的相互作用,比较了冷启动监督微调(SFT)、RLVR和智能体RLVR在UHR遥感基准上的表现。受控研究表明,高质量的地球科学文本问答是推动UHR视觉推理提升的主要因素。尽管缺乏图像,特定领域的文本可以注入指导视觉证据检索所需的概念、机制解释和决策规则。基于此,我们提出了一种分阶段的知识注入方法:(1)通过可扩展且知识图谱验证的地球科学文本问答进行冷启动,以建立推理结构;(2)在SFT阶段使用相同的困难UHR图文示例进行“预热”,以稳定并增强后续基于工具的强化学习。该方法在XLRS-Bench上实现了60.40%的Pass@1,显著优于更大的通用模型(如GPT-5.2、Gemini 3.0 Pro、Intern-S1),并建立了新的最先进水平。
Agent Memory
RLVR
知识注入
遥感理解
多模态推理
论文探讨了知识注入对Agent在视觉推理中的作用,涉及记忆机制的应用。
分享
夯
0
拉
0
Toward Autonomous O-RAN: A Multi-Scale Agentic AI Framework for Real-Time Network Control and Management
Hojjat Navidan, Mohammad Cheraghinia, Jaron Fontaine, Mohamed Seif, Eli De Poorter et al.
开放无线接入网络(O-RAN)通过解耦和软件驱动的组件以及开放接口,为6G网络提供了灵活的接入方式,但其可编程性也增加了操作复杂性。服务管理层和RAN智能控制器(RIC)中存在多个控制回路,而独立开发的控制应用可能以非预期的方式交互。近期生成式人工智能(AI)的进步推动了从孤立AI模型向智能体AI系统的转变,这些系统能够解释目标、协调多个模型和控制功能,并随时间调整行为。本文提出了一种适用于O-RAN的多尺度智能体AI框架,将RAN智能组织为跨非实时(Non-RT)、近实时(Near-RT)和实时(RT)控制回路的协调层次结构:(i)在Non-RT RIC中,一个大型语言模型(LLM)代理将运营商意图转化为策略并管理模型生命周期;(ii)在Near-RT RIC中,小型语言模型(SLM)代理执行低延迟优化,并能激活、调整或禁用现有控制应用;(iii)靠近分布式单元的无线物理层基础模型(WPFM)代理提供接近空中接口的快速推理。我们描述了这些代理如何通过标准化的O-RAN接口和遥测数据进行协作。使用基于开源模型、软件和数据集的原型实现,我们在两个代表性场景中展示了所提出的智能体方法:在非平稳条件下的鲁棒运行和意图驱动的切片资源控制。
O-RAN
智能体AI
多层级控制
意图驱动
生成式AI
论文涉及Agent在O-RAN中的多层级协作,包含记忆和意图的处理机制,但非核心研究主题。
分享
夯
0
拉
0
NEST: Nascent Encoded Steganographic Thoughts
Artem Karpov
监控思维链(CoT)推理是大型语言模型(LLM)代理的基础安全技术;然而,如果模型学会隐藏其推理过程,这种监控将受到威胁。本文探讨了隐写式CoT的可能性——即模型在无害文本中隐藏秘密推理,以用于风险评估和部署策略。我们系统地评估了28个模型(从早期到当前前沿)的隐写能力限制,并测量了四个数据集上的监控规避、拒绝率、编码保真度和隐藏任务准确性,将隐写式首字母缩略词与普通推理和填充标记基线进行比较。我们发现当前模型尚无法在复杂的数学和算术任务中维持隐藏推理。然而,在简化计数实验中,Claude Opus 4.5在隐藏任务上达到了92%的准确率,表明其具备初步能力。值得注意的是,在极少数情况下(<1%),GPT-5.2可能在拒绝隐写指令的同时仍遵守它们。我们的研究强调了对隐写风险进行持续评估的必要性。本研究提供了一种方法,可提前检测和防止可能助长对齐偏差和欺骗行为的隐藏推理。
隐写术
思维链
LLM安全
Agent记忆
风险评估
论文探讨了LLM通过隐写术隐藏推理过程的能力,涉及Agent Memory中的隐蔽性与监控问题。
分享
夯
0
拉
0
Context Shapes LLMs Retrieval-Augmented Fact-Checking Effectiveness
Pietro Bernardelle, Stefano Civelli, Kevin Roitero, Gianluca Demartini
Pietro Bernardelle (The University of QueenslandBrisbaneAustralia) | Stefano Civelli (The University of QueenslandBrisbaneAustralia) | Kevin Roitero (University of UdineUdineItaly)
大型语言模型(LLMs)在各种任务中表现出强大的推理能力,但其在扩展上下文中的表现仍不一致。尽管先前研究强调了问答任务中中段上下文退化现象,本研究则考察了基于LLM的事实验证中上下文的影响。使用三个数据集(HOVER、FEVEROUS和ClimateFEVER)以及五个不同参数规模(7B、32B和70B)和模型家族(Llama-3.1、Qwen2.5和Qwen3)的开源模型,评估了参数化事实知识及不同上下文长度下证据位置的影响。我们发现,LLMs展现出非平凡的参数化事实知识,并且随着上下文长度增加,其验证准确性通常下降。与之前的研究结果相似,上下文中相关证据的位置起着关键作用,当相关证据出现在提示的开头或结尾时,准确性较高;而当证据位于中间时,准确性较低。这些结果突显了在检索增强的事实核查系统中提示结构的重要性。
LLM
Fact-Checking
Context Length
Evidence Placement
Retrieval-Augmented
论文探讨了上下文对事实核查的影响,涉及提示结构和证据位置,与Agent Memory相关。
分享
夯
0
拉
0
Prompt-Driven Low-Altitude Edge Intelligence: Modular Agents and Generative Reasoning
Jiahao You, Ziye Jia, Chao Dong, Qihui Wu
大型人工智能模型(LAMs)在感知、推理和多模态理解方面表现出强大能力,能够为低空边缘智能提供先进功能。然而,LAMs在边缘部署仍受到一些根本性限制。首先,任务与特定模型紧密绑定,限制了灵活性;其次,全规模LAMs的计算和内存需求超出了大多数边缘设备的容量;此外,当前的推理流程通常是静态的,难以应对任务的实时变化。为了解决这些挑战,本文提出了一种提示到代理的边缘认知框架(P2AECF),实现灵活、高效和自适应的边缘智能。具体而言,P2AECF通过三种关键机制将高层语义提示转换为可执行的推理工作流。第一,基于提示的认知解析将任务意图转化为抽象且与模型无关的表示形式;第二,基于代理的模块化执行根据当前资源条件动态选择轻量级且可重用的认知代理来实例化任务;第三,扩散控制的推理规划通过结合运行时反馈和系统上下文自适应地构建和优化执行策略。此外,本文通过一个代表性的低空智能网络用例展示了该框架的能力,证明其可以为实时低空空中协作提供自适应、模块化和可扩展的边缘智能。
边缘计算
模块化代理
生成式推理
动态资源管理
低空智能
论文涉及基于提示的边缘智能框架,包含动态推理和资源管理,与Agent Memory相关但非核心主题。
分享
夯
0
拉
0
Cognitive Chunking for Soft Prompts: Accelerating Compressor Learning via Block-wise Causal Masking
Guojie Liu, Yiqi Wang, Yanfeng Yang, Wenqi Fan, Songlei Jian et al.
Yiqi Wang (National University of Defense TechnologyChangshaChina) | Yanfeng Yang (National University of Defense TechnologyChangshaChina)
通过提示提供广泛上下文对于利用大语言模型(LLMs)的能力至关重要。然而,长上下文显著增加了推理延迟,因为自注意力计算成本随序列长度呈二次增长。为缓解此问题,上下文压缩——特别是软提示压缩——已成为广泛研究的解决方案,其通过训练好的压缩器将长上下文转换为较短的记忆嵌入。现有方法通常不加区分地将整个上下文压缩为一组记忆标记,要求压缩器捕捉全局依赖关系,并需要大量预训练数据以学习有效的模式。受人类工作记忆中的分块机制以及记忆嵌入相对于原始标记的空间特化性的启发,我们提出并行迭代压缩(PIC)。通过简单修改Transformer的注意力掩码,PIC明确限制记忆标记的感受野至顺序局部块,从而降低压缩器训练难度。在多个下游任务上的实验表明,PIC始终优于竞争基线,在高压缩场景下表现尤为突出(例如在64倍压缩比下,问答任务的F1分数和EM分数分别提高了29.8%和40.7%)。此外,PIC显著加快了训练过程。具体而言,在训练16倍压缩器时,它超越了竞争基线的峰值性能,同时将训练时间减少了约40%。
上下文压缩
软提示
Transformer优化
记忆嵌入
分块机制
论文涉及基于记忆压缩的上下文处理,与Agent Memory相关但非唯一主题。
分享
夯
0
拉
0
From Fluent to Verifiable: Claim-Level Auditability for Deep Research Agents
Razeen A Rasheed, Somnath Banerjee, Animesh Mukherjee, Rima Hazra
Razeen A Rasheed (Indian Institute of Science) | Somnath Banerjee (IIT Kharagpur, Cisco Systems) | Animesh Mukherjee (IIT Kharagpur)
深度研究代理可以在几分钟内生成流畅的科学报告;然而,仔细阅读后发现,真正的成本并非阅读本身,而是追溯:哪句话由哪个段落支持,哪些内容被忽略,以及证据之间存在冲突。我们认为,随着研究生成变得容易,可审计性成为瓶颈,主要风险也从孤立的事实错误转变为具有科学风格但声明-证据联系薄弱、缺失或误导的输出。本文提出声明级可审计性作为深度研究代理设计和评估的核心目标,总结了长期失败模式(目标漂移、瞬时约束和不可验证推理),并引入了可审计自主研究(AAR)标准,这是一个紧凑的度量框架,通过溯源覆盖率、溯源正确性、矛盾透明性和审计努力来测试可审计性。我们还主张使用语义溯源与协议化验证:持久且可查询的溯源图谱,编码声明-证据关系(包括冲突),并在合成过程中而非发布后进行持续验证,并提供实用的仪器模式以支持大规模部署。
Agent Memory
可审计性
溯源
深度研究代理
验证框架
论文聚焦于研究代理的可审计性,涉及证据追踪与溯源,与Agent Memory相关但非唯一主题。
分享
夯
0
拉
0
PrivAct: Internalizing Contextual Privacy Preservation via Multi-Agent Preference Training
Yuhan Cheng, Hancheng Ye, Hai Helen Li, Jingwei Sun, Yiran Chen
大型语言模型(LLM)代理越来越多地用于涉及敏感、上下文依赖信息的个性化任务,在此过程中,由于上下文隐私的隐含性,代理的行为可能导致隐私泄露。现有方法依赖于外部推理时的干预措施,这些方法脆弱且场景特定,可能扩大隐私攻击面。本文提出PrivAct,一种上下文隐私感知的多智能体学习框架,将上下文隐私保护直接内化到模型的生成行为中,以确保符合隐私规范的代理行为。通过将隐私偏好嵌入每个代理,PrivAct增强了系统的上下文完整性,同时实现了更优的隐私与实用性权衡。在多个LLM主干和基准上的实验表明,PrivAct在上下文隐私保护方面表现出一致的改进,泄漏率降低了高达12.32%,同时保持了相当的实用性,并具备零样本泛化能力和对多样化的多智能体拓扑结构的鲁棒性。
隐私保护
多智能体学习
上下文完整性
LLM代理
论文涉及隐私保护与多智能体生成行为,间接关联记忆机制。
分享
Code
夯
0
拉
0
MAS-on-the-Fly: Dynamic Adaptation of LLM-based Multi-Agent Systems at Test Time
Guangyi Liu, Haojun Lin, Huan Zeng, Heng Wang, Quanming Yao
基于大语言模型(LLM)的多智能体系统(MAS)已成为解决复杂任务的一种有前途的范式。然而,现有工作通常依赖于手动设计或“一刀切”的自动化方法,缺乏部署后的动态适应能力。受生物系统适应方式的启发,本文提出MASFly,一种新型多智能体框架,能够在测试时实现动态适应。为适应系统生成,MASFly采用了一种检索增强的标准操作程序(SOP)实例化机制,利用自构建的成功协作模式库,使LLM能够为新查询组装定制化的MAS。在适应执行方面,MASFly引入了经验引导的监督机制,其中专门的Watcher代理通过参考个性化经验池监控系统行为并提供实时干预。大量实验表明,MASFly在TravelPlanner基准测试中实现了61.7%的成功率,表现出强大的任务适应性和鲁棒性。
多智能体系统
动态适应
经验引导监督
LLM
论文涉及动态适应机制,与Agent Memory相关,但非核心主题。
分享
夯
0
拉
0
PT-RAG: Structure-Fidelity Retrieval-Augmented Generation for Academic Papers
Rui Yu, Tianyi Wang, Ruixia Liu, Yinglong Wang
Rui Yu (Qilu University of Technology (Shandong Academy
of Sciences)JinanShandongChina) | Tianyi Wang (National University of SingaporeSingaporeSingapore) | Ruixia Liu (Qilu University of Technology (Shandong Academy
of Sciences)JinanShandongChina)
检索增强生成(RAG)在长篇学术论文的问答任务中应用日益广泛,其中在固定token预算下准确分配证据至关重要。现有方法通常将学术论文预处理为无结构的块,破坏了其原生的层次结构。这种损失迫使检索在无序空间中进行,导致上下文碎片化、token被错误分配到非证据区域,并增加下游语言模型的推理负担。为此,本文提出PT-RAG,一种RAG框架,将学术论文的原生层次结构视为低熵检索先验。PT-RAG首先继承原生层次结构构建结构保真的PaperTree索引,防止源端熵增加;然后设计路径引导检索机制,将查询语义对齐到相关部分,并在固定token预算下选择高相关性的根到叶路径,从而生成紧凑、连贯且低熵的检索上下文。与现有RAG方法相比,PT-RAG避免了破坏性预处理引起的熵增加,并为后续检索提供了原生的低熵结构基础。为评估该设计,本文引入基于熵的结构诊断方法,量化检索碎片化和证据分配准确性。在三个学术问答基准测试中,PT-RAG在段落熵和证据对齐交叉熵方面均优于强基线,表明其上下文碎片化减少且更精确地分配到证据区域。这些结构优势直接提升了答案质量。
RAG
结构检索
学术问答
低熵检索
上下文优化
论文涉及RAG框架中信息检索与上下文构建,与Agent Memory中的证据分配和结构保持相关。
分享
夯
0
拉
0
Guided Collaboration in Heterogeneous LLM-Based Multi-Agent Systems via Entropy-Based Understanding Assessment and Experience Retrieval
Linlin Wang, Tianqing Zhu, Laiqiao Qin, Longxiang Gao, Wanlei Zhou
随着大型语言模型(LLMs)在推理、规划和复杂任务生成方面的突破,人工智能系统正从孤立的单智能体架构向具有协作智能的多智能体系统转变。然而,在异构多智能体系统(HMAS)中,智能体之间的能力差异导致了一致性的认知问题,强弱模型无法有效贡献。本文将协作定义为强弱系统,并通过全面实验揭示了一个反直觉现象:强弱协作可能表现不如弱弱组合,表明认知不匹配是限制异构协作的关键瓶颈。为克服这些挑战,我们提出了一种基于熵的自适应引导框架,动态地根据每个智能体的认知状态调整引导强度。该框架通过多维熵度量(包括表达、不确定性、结构、一致性和相关性)量化弱智能体的理解能力,并以轻度、中度和重度三种级别自适应调整引导强度。此外,引入了检索增强生成(RAG)机制,保留成功的协作经验,实现即时适应和长期学习。在GSM8K、MBPP和CVRP三个基准数据集上的广泛实验表明,我们的方法显著提升了异构协作的有效性和稳定性。结果表明,自适应引导不仅缓解了认知不平衡,还为更稳健、协作的多智能体智能提供了可扩展的路径。
多智能体系统
熵评估
协作机制
RAG
异构系统
论文涉及基于熵的认知评估与经验检索,与Agent Memory相关但非核心主题。
分享
夯
0
拉
0
In-Context Autonomous Network Incident Response: An End-to-End Large Language Model Agent Approach
Yiran Gao, Kim Hammar, Tao Li
随着网络攻击的快速演变,需要能够自主学习和适应威胁的事件响应系统。先前的研究主要依赖强化学习方法,但该方法需要人工构建模拟器,并且会抑制原始系统日志和警报中的有用语义。为了解决这些问题,本文提出利用大型语言模型(LLM)的预训练安全知识和上下文学习能力,构建一个端到端的代理解决方案用于事件响应规划。具体而言,该代理集成了感知、推理、规划和行动四个功能模块,整合于一个轻量级的LLM(14b模型)中。通过微调和链式推理,该LLM代理能够处理系统日志并推断底层网络状态(感知),更新其对攻击模型的推测(推理),模拟不同响应策略下的后果(规划),并生成有效的响应(行动)。通过将LLM模拟结果与实际观测进行比较,代理不断优化其攻击推测和相应响应,从而实现上下文自适应。该代理方法无需建模,可在普通硬件上运行。在文献中报告的事件日志上的评估表明,该代理的恢复速度比前沿LLM快23%。
LLM Agent
网络安全
事件响应
上下文学习
论文涉及LLM代理在网络安全中的应用,包含感知、推理、规划和行动模块,与记忆机制相关但非核心。
分享
夯
0
拉
0
Look Inward to Explore Outward: Learning Temperature Policy from LLM Internal States via Hierarchical RL
Yixiao Zhou, Yang Li, Dongzhou Cheng, Hehe Fan, Yu Cheng
基于可验证奖励的强化学习(RLVR)通过采样轨迹训练大型语言模型(LLMs),使解码策略成为学习的核心组成部分,而不仅仅是推理时的选择。采样温度直接通过调节策略熵控制探索与利用的权衡,但现有方法依赖静态值或启发式适应,这些方法与任务级奖励脱节。本文提出Introspective LLM,一种分层强化学习框架,能够在生成过程中学习控制采样温度。在每个解码步骤中,模型根据其隐藏状态选择温度,并从相应分布中采样下一个标记。温度和标记策略通过坐标上升方案从下游奖励中联合优化。在数学推理基准上的实验表明,所学温度策略优于固定和启发式基线,并表现出与推理不确定性一致的可解释探索行为。
强化学习
LLM采样策略
探索-利用平衡
分层学习
论文涉及LLM内部状态与温度策略学习,与Agent Memory相关但非唯一主题。
分享
夯
0
拉
0
Know More, Know Clearer: A Meta-Cognitive Framework for Knowledge Augmentation in Large Language Models
Hao Chen, Ye He, Yuchun Fan, Yukun Yan, Zhenghao Liu et al.
知识增强显著提升了大语言模型在知识密集型任务中的表现。然而,现有方法通常基于一个简单前提,即模型性能等同于内部知识,忽视了导致过度自信错误或不确定真相的知识-置信度差距。为弥合这一差距,本文提出了一种新的元认知框架,通过差异化的干预和对齐实现可靠的知识增强。该方法利用内部认知信号将知识空间划分为掌握、困惑和缺失区域,指导有针对性的知识扩展。此外,我们引入了一致性机制,使主观确定性与客观准确性同步,确保校准后的知识边界。大量实验表明,我们的框架在多个基准测试中均优于现有方法,验证了其不仅提升知识能力,还能促进更好区分已知与未知的认知行为。
知识增强
元认知框架
不确定性处理
大语言模型
论文涉及知识增强与模型自信度的关联,间接关联到Agent Memory中的知识管理与不确定性处理。
分享
夯
0
拉
0
WebClipper: Efficient Evolution of Web Agents with Graph-based Trajectory Pruning
Junjie Wang, Zequn Xie, Dan Yang, Jie Feng, Yue Shen et al.
基于网络代理的深度研究系统在解决复杂信息检索任务方面展现出强大潜力,但其搜索效率仍鲜有研究。我们发现许多最先进的开源网络代理依赖于长工具调用轨迹、循环推理和无生产力分支的探索。为了解决这一问题,我们提出了WebClipper框架,通过基于图的剪枝压缩网络代理的轨迹。具体而言,我们将代理的搜索过程建模为状态图,并将轨迹优化转化为最小必要有向无环图(DAG)挖掘问题,从而生成保留关键推理步骤并去除冗余步骤的精简轨迹。在这些优化后的轨迹上进行持续训练,使代理能够进化出更高效的搜索模式,在减少约20%的工具调用次数的同时提高准确性。此外,我们引入了一个新的指标F-AE分数,用于衡量模型在准确性和效率之间的平衡能力。实验表明,WebClipper能够在保持优异性能的同时压缩工具调用次数,为网络代理设计中平衡效果与效率提供了实用见解。
轨迹优化
图结构
代理效率
工具调用
论文提出基于图的轨迹剪枝方法,优化Agent搜索效率,与记忆机制相关。
分享
夯
0
拉
0
Think Fast and Slow: Step-Level Cognitive Depth Adaptation for LLM Agents
Ruihan Yang, Fanghua Ye, Xiang We, Ruoqing Zhao, Kang Luo et al.
大型语言模型(LLMs)越来越多地被部署为自主代理,用于多轮决策任务。然而,当前代理通常依赖于固定的认知模式:非思考模型生成即时响应,而思考模型则进行统一的深度推理。这种刚性对于长期任务效率低下,因为每一步的认知需求差异较大,有些需要战略规划,而有些只需常规执行。本文引入CogRouter框架,训练代理在每一步动态调整认知深度。基于ACT-R理论,设计了从本能反应到战略规划的四个层次认知级别。两阶段训练方法包括认知感知监督微调(CoSFT)以建立稳定的层级特定模式,以及认知感知策略优化(CoPO),通过置信度感知优势重新加权实现步骤级信用分配。关键见解是适当的认知深度应最大化结果动作的置信度。在ALFWorld和ScienceWorld上的实验表明,CogRouter在效率方面达到最先进的性能。使用Qwen2.5-7B时,其成功率达到82.3%,优于GPT-4o、OpenAI-o3和GRPO,同时使用的token减少了62%。
LLM Agent
Cognitive Depth Adaptation
ACT-R Theory
Multi-step Decision Making
论文提出动态调整认知深度的框架,与Agent Memory机制相关,但非唯一主题。
分享
夯
0
拉
0
AttentionRetriever: Attention Layers are Secretly Long Document Retrievers
David Jiahao Fu, Lam Thanh Do, Jiayu Li, Kevin Chen-Chuan Chang
检索增强生成(RAG)已被广泛用于帮助大型语言模型(LLMs)处理涉及长文档的任务。然而,现有的检索模型并未专门设计用于长文档检索,无法解决长文档检索中的几个关键挑战,包括上下文感知、因果依赖性和检索范围。在本文中,我们提出了AttentionRetriever,一种新的长文档检索模型,该模型利用注意力机制和基于实体的检索方法,为长文档构建上下文感知的嵌入并确定检索范围。通过大量实验,我们发现AttentionRetriever在长文档检索数据集上的表现显著优于现有检索模型,同时保持了与密集检索模型相当的效率。
长文档检索
注意力机制
RAG
上下文感知
论文提出了一种针对长文档检索的模型,涉及上下文感知和检索范围,与Agent Memory相关。
分享
夯
0
拉
0
On-Policy Context Distillation for Language Models
Tianzhu Ye, Li Dong, Xun Wu, Shaohan Huang, Furu Wei
上下文蒸馏使语言模型能够将上下文中的知识内化为其参数。在本研究中,我们提出了一种名为On-Policy Context Distillation (OPCD)的框架,通过在学生模型自身生成的轨迹上进行训练,并最小化与条件上下文教师模型之间的反向Kullback-Leibler散度,从而连接了基于策略的蒸馏与上下文蒸馏。我们在两个重要应用中验证了OPCD的有效性:经验性知识蒸馏,即模型从历史解决方案中提取并巩固可迁移的知识;系统提示蒸馏,即模型内化优化提示中编码的有益行为。在数学推理、基于文本的游戏和特定领域任务中,OPCD始终优于基线方法,在提高任务准确性的同时更好地保留了分布外能力。此外,我们还表明OPCD能够实现有效的跨规模蒸馏,较小的学生模型可以从较大的教师模型中内化经验性知识。
知识蒸馏
上下文学习
语言模型
Agent Memory
论文涉及模型内部化上下文知识,与Agent Memory相关,但非唯一主题。
分享
夯
0
拉
0
Query-focused and Memory-aware Reranker for Long Context Processing
Yuqing Li, Jiangnan Li, Mo Yu, Guoxuan Ding, Zheng Lin et al.
本文基于对大语言模型中检索头的现有分析,提出了一种替代的重排序框架,训练模型使用所选头部的注意力分数来估计文档与查询的相关性。该方法提供了一种列表级解决方案,在排序过程中利用整个候选短名单中的整体信息。同时,它自然地生成连续的相关性分数,使得可以在任意检索数据集上进行训练,而无需Likert量表监督。该框架轻量且有效,仅需小规模模型(如4B参数)即可实现良好性能。大量实验表明,该方法在多个领域(包括维基百科和长叙事数据集)上优于现有的最先进的点级和列表级重排序器。此外,它还在LoCoMo基准测试中建立了新的最先进水平,评估了对话理解和记忆使用的能力。我们进一步证明,该框架支持灵活的扩展。例如,通过向候选段落添加上下文信息可以进一步提高排序准确性,而从中间层训练注意力头则能提升效率而不牺牲性能。
重排序
注意力机制
长上下文处理
记忆相关
论文涉及记忆相关的重排序机制,但核心是检索与重排序,非纯粹记忆系统研究。
分享
夯
0
拉
0
Differentiable Modal Logic for Multi-Agent Diagnosis, Orchestration and Communication
Antonin Sulc
随着多智能体AI系统从简单的聊天机器人发展为自主群体,调试语义失败需要推理知识、信念、因果关系和义务,这正是模态逻辑所设计的形式化内容。然而,传统模态逻辑需要手动指定在实际系统中未知或动态的关系结构。本教程展示了通过模态逻辑神经网络(MLNNs)实现的可微模态逻辑(DML),使系统能够仅从行为数据中学习信任网络、因果链和监管边界。我们通过四个模态提出统一的神经符号调试框架:认识论(信任谁)、时间(事件何时导致故障)、道义(允许哪些动作)和信念(如何解释智能体信心)。每个模态都在具体的多智能体场景中进行了演示,例如从外交游戏中发现欺骗性联盟到检测LLM幻觉,并展示了如何将逻辑矛盾转化为可学习的优化目标。关键贡献包括:(1)可解释的学习结构,其中信任和因果关系是显式参数而非不透明嵌入;(2)通过可微分公理注入知识以指导稀疏数据下的学习;(3)组合多模态推理,结合认识论、时间和道义约束;以及(4)用于监控、主动控制和通信的多智能体系统的实用部署模式。所有代码均提供为可执行的Jupyter笔记本。
多智能体系统
模态逻辑
神经符号系统
信任网络
因果推理
论文涉及多智能体系统的信任网络和因果链学习,与Agent Memory相关,但非唯一主题。
分享
夯
0
拉
0
LawThinker: A Deep Research Legal Agent in Dynamic Environments
Xinyu Yang, Chenlong Deng, Tongyu Wen, Binyu Xie, Zhicheng Dou
Xinyu Yang (Renmin University of ChinaBeijingChina) | Chenlong Deng (Renmin University of ChinaBeijingChina) | Tongyu Wen (Renmin University of ChinaBeijingChina)
法律推理不仅需要正确的结果,还需要符合程序规范的推理过程。然而,现有方法缺乏对中间推理步骤的验证机制,导致错误(如不适用的法规引用)在推理链中未被检测到。为此,我们提出了LawThinker,一种采用探索-验证-记忆策略的自主法律研究代理,适用于动态司法环境。其核心思想是在每次知识探索后强制执行验证操作。一个名为DeepVerifier的模块从知识准确性、事实与法律的相关性以及程序合规性三个维度检查每个检索结果,并通过记忆模块实现长周期任务中的跨轮次知识复用。在动态基准J1-EVAL上的实验表明,LawThinker相比直接推理方法提升了24%,相比基于工作流的方法提升了11%,尤其在过程导向的指标上表现突出。在三个静态基准上的评估进一步验证了其泛化能力。代码可在https://github.com/yxy-919/LawThinker-agent获取。
Legal Agent
Memory Reuse
Verification Mechanism
Dynamic Environment
论文提出了一种基于探索-验证-记忆策略的法律推理代理,其中包含跨轮次知识复用的记忆模块,与Agent Memory相关。
分享
Code
夯
0
拉
0
Agentic AI for Cybersecurity: A Meta-Cognitive Architecture for Governable Autonomy
Andrei Kojukhov, Arkady Bovshover
当前由人工智能驱动的网络安全系统主要被设计为以模型为中心的检测和自动化流程,优化任务级性能指标如准确率和响应延迟。尽管这些架构在有限分类任务中有效,但在对抗性不确定性下难以支持可问责的决策,其中行动必须得到证明、监管并符合组织和法规约束。本文认为,网络安全编排应重新构想为一个智能体多智能体认知系统,而非单纯的检测与响应组件序列。我们引入了一个概念性架构框架,其中负责检测、假设形成、上下文解释、解释和治理的异构AI代理通过显式的元认知判断函数进行协调。该函数管理决策准备度,并在证据不完整、冲突或操作风险较高时动态校准系统自主性。通过综合分布式认知理论、多智能体系统研究和负责任的人工智能治理框架,我们证明现代安全运营实际上已作为分布式认知系统运行,但缺乏明确的组织原则。我们的贡献是将这种认知结构在架构上显式化并使其可治理,通过将元认知判断嵌入为首要系统功能。
网络安全
多智能体系统
元认知
自主性治理
分布式认知
论文提出基于元认知的判断函数,涉及自主性治理与记忆相关的决策机制。
分享
夯
0
拉
0
When Agents Disagree With Themselves: Measuring Behavioral Consistency in LLM-Based Agents
Aman Mehta
将相同的LLM代理应用于相同任务两次,是否会产生相同的行为?研究发现答案通常是否定的。通过对HotpotQA任务上三个模型(Llama 3.1 70B、GPT-4o和Claude Sonnet 4.5)共计3,000次代理运行的分析,我们观察到ReAct风格的代理在每次运行中平均会产生2.0至4.2个不同的动作序列,即使输入完全相同。更重要的是,这种变化预测了失败:行为一致的任务(≤2条唯一路径)准确率为80–92%,而高度不一致的任务(≥6条唯一路径)准确率仅为25–60%,差距达32–55个百分点。我们将这种变化归因于早期决策,其中69%的分歧发生在第二步,即第一次搜索查询。研究结果表明,在执行过程中监控行为一致性可以实现早期错误检测并提高代理的可靠性。
LLM Agent
Behavior Consistency
Error Detection
Task Performance
论文探讨了基于LLM的Agent在执行任务时的行为一致性问题,与记忆机制密切相关。
分享
夯
0
拉
0
The Five Ws of Multi-Agent Communication: Who Talks to Whom, When, What, and Why -- A Survey from MARL to Emergent Language and LLMs
Jingdi Chen, Hanqing Yang, Zongjun Liu, Carlee Joe-Wong
多智能体序列决策在许多现实系统中发挥着重要作用,例如自动驾驶车辆、机器人和协作AI助手。在动态且部分可观测的环境中,通信通常是减少不确定性并实现协作的关键。本综述通过五个W(Who, What, When, Where, Why)框架回顾了多智能体通信(MA-Comm)。该框架提供了一种清晰的方式,将不同研究方向的思想联系起来。我们追踪了通信方法在三个主要范式中的演变过程:在多智能体强化学习(MARL)中,早期方法使用手工设计或隐式协议,随后发展为端到端学习的通信方法以优化奖励和控制。尽管这些方法取得了成功,但它们通常任务特定且难以解释,这促使了对涌现语言(EL)的研究,其中智能体可以通过交互发展出更结构化或符号化的通信方式。然而,EL方法仍面临语义锚定、泛化和可扩展性方面的挑战,这推动了近期对大型语言模型(LLMs)的兴趣,因为LLMs能够带来自然语言先验知识,用于更开放场景下的推理、规划和协作。我们强调了在MARL、EL和基于LLM的系统中,不同选择如何塑造通信设计,主要权衡点以及尚未解决的问题,并提炼出实用的设计模式和开放挑战,以支持未来结合学习、语言和控制的混合系统,实现可扩展且可解释的多智能体协作。
multi-agent communication
MARL
emergent language
LLMs
agent collaboration
论文涉及多智能体通信机制,与Agent Memory相关,但非核心主题。
分享
夯
0
拉
0
AgentLeak: A Full-Stack Benchmark for Privacy Leakage in Multi-Agent LLM Systems
Faouzi El Yagoubi, Ranwa Al Mallah, Godwin Badu-Marfo
多智能体大型语言模型(LLM)系统带来了当前基准无法衡量的隐私风险。当代理协调任务时,敏感数据通过代理间消息、共享内存和工具参数传递,而输出审计从未检查这些路径。本文提出AgentLeak,据我们所知,这是首个覆盖内部通道的全栈隐私泄露基准测试,涵盖医疗、金融、法律和企业等领域的1000个场景,并配有32类攻击分类和三级检测流程。通过对GPT-4o、Claude 3.5 Sonnet等五种模型进行测试发现,多代理配置虽然减少了单通道输出泄露,但引入了未被监控的内部通道,使系统整体暴露率上升至68.9%。研究表明,代理间通信是主要漏洞,强调了在内部通信中加强隐私保护的重要性。
隐私泄露
多智能体系统
共享内存
内部通信
安全审计
论文重点研究多智能体系统中的隐私泄露问题,涉及共享内存和内部通信渠道,与Agent Memory密切相关。
分享
Code
夯
0
拉
0
How Many Features Can a Language Model Store Under the Linear Representation Hypothesis?
Nikhil Garg, Jon Kleinberg, Kenny Peng
本文引入了一个数学框架来研究线性表示假设(LRH),该假设认为语言模型中间层以线性方式存储特征。作者将该假设分为两个部分:线性表示(特征在线性神经元激活中嵌入)和线性可访问性(特征可通过线性解码)。文章探讨了需要多少个神经元 $d$ 才能同时实现对 $m$ 个特征的线性表示和线性访问。经典压缩感知理论表明,对于 $k$-稀疏输入,若允许非线性解码算法,则 $d = O(k ext{log}(m/k))$ 足够。但加入线性解码要求后,问题进入线性压缩感知领域。本文的主要理论结果建立了线性压缩感知的上下界,并证明了线性可访问性比线性表示更强,为“叠加假设”提供了理论支持。
线性表示
压缩感知
特征存储
语言模型
论文探讨了语言模型中特征存储的线性表示假设,与Agent Memory中的信息存储和访问机制相关。
分享
夯
0
拉
0
ICA: Information-Aware Credit Assignment for Visually Grounded Long-Horizon Information-Seeking Agents
Cong Pang, Xuyu Feng, Yujie Yi, Zixuan Chen, Jiawei Hong et al.
尽管基于强化学习的信息检索代理在性能上表现出色,但在开放网络环境中,学习过程仍受到低信噪比反馈的严重限制。文本解析器通常会忽略布局语义并引入无结构噪声,而长时程训练则依赖稀疏的结果奖励,难以明确哪些检索动作真正重要。为此,本文提出了一种基于视觉的搜索框架,将网页表示为视觉快照,使代理能够利用布局线索快速定位关键证据并抑制干扰项。为了从这些高维观测中有效学习,我们引入了信息感知信用分配(ICA)方法,通过后验分析估计每个检索快照对最终结果的贡献,并将密集的学习信号回传至关键搜索步骤。结合基于GRPO的训练流程,我们的方法在多个信息检索基准测试中均优于基于文本的基线方法,证明了视觉快照结合信息级信用分配可以缓解开放网络环境中的信用分配瓶颈。
Agent Memory
Reinforcement Learning
Visual Search
Credit Assignment
论文提出ICA方法,涉及信息归因与记忆机制,用于解决长期任务中的信用分配问题。
分享
Code
夯
0
拉
0
AIvilization v0: Toward Large-Scale Artificial Social Simulation with a Unified Agent Architecture and Adaptive Agent Profiles
Wenkai Fan, Shurui Zhang, Xiaolong Wang, Haowei Yang, Tsz Wai Chan et al.
Wenkai Fan∗ (The Hong Kong University of Science and Technology) | Shurui Zhang∗ (The Hong Kong University of Science and Technology) | Xiaolong Wang (The Hong Kong University of Science and Technology)
AIvilization v0是一个公开部署的大规模人工社会系统,结合了资源受限的沙盒经济与统一的LLM智能体架构,旨在实现长期自主性并适应快速变化的环境。为缓解目标稳定性与反应正确性之间的矛盾,本文引入了三个关键机制:(i) 分层分支思维规划器,将生活目标分解为并行目标分支,并通过模拟引导验证和分层重规划确保可行性;(ii) 具有双过程记忆的自适应智能体档案,分离短期执行轨迹与长期语义整合,使身份保持持久且持续演化;(iii) 人机协同控制接口,在适当抽象层级注入长期目标和短期指令,效果通过记忆传播而非脆弱的提示覆盖。该环境集成了生理生存成本、不可替代的多级生产体系、基于AMM的价格机制以及门控教育-职业系统。利用平台成熟阶段的高频交易数据,发现稳定的市场能够再现关键特征事实(重尾收益和波动聚集),并产生由教育和访问限制驱动的结构化财富分层。实验表明,简化规划器在特定任务中表现良好,而完整架构在多目标、长期设置下更具鲁棒性,支持延迟投资和持续探索。
Agent Memory
LLM Agent
人工社会模拟
多目标规划
自适应智能体
论文提出双过程记忆机制,用于区分短期执行与长期语义整合,属于Agent Memory相关研究。
分享
夯
0
拉
0
Affordances Enable Partial World Modeling with LLMs
Khimya Khetarpal, Gheorghe Comanici, Jonathan Richens, Jeremy Shar, Fei Xia et al.
完整的世界模型需要复杂且详尽的知识。尽管预训练的大模型由于在大量互联网数据上进行预训练,被认为可能包含类似知识,但直接使用它们进行搜索效率低下且不准确。相反,部分模型专注于对状态和动作子集进行高质量预测,这些状态和动作通过可操作性实现用户意图。本文正式回答了是否可以将大模型视为部分世界模型的问题,并证明了实现任务无关、语言条件意图的代理必然拥有由可操作性引导的预测性部分世界模型。在多任务设置中,我们引入了分布稳健的可操作性,并展示了如何提取部分模型以显著提高搜索效率。在桌面机器人任务中的实证评估表明,我们的可操作性感知部分模型减少了搜索分支因子,并相比完整世界模型实现了更高的奖励。
LLM
Affordances
Partial World Models
Search Efficiency
Agent Memory
论文探讨了基于affordances的LLM作为部分世界模型,与Agent Memory中的预测和状态建模相关。
分享
夯
0
拉
0
Latent Thoughts Tuning: Bridging Context and Reasoning with Fused Information in Latent Tokens
Weihao Liu, Dehai Min, Lu Cheng
尽管显式的Chain-of-Thought(CoT)方法赋予大语言模型(LLMs)强大的推理能力,但其要求模型在文本标记中明确表达每一步中间过程,限制了模型思维的表达空间。最近,基于连续潜在空间的推理方法成为一种有前景的替代方案,能够实现超越离散标记约束的鲁棒推理和灵活计算。然而,当前的潜在空间方法常因特征坍缩和不稳定性而受到限制,这源于重复使用隐藏状态作为输入嵌入时的分布不匹配问题,或依赖辅助模型时的对齐问题。为了解决这些问题,我们提出了潜在思维调优(LT-Tuning)框架,重新定义了潜在思维的构建与部署方式。该方法不再仅依赖原始隐藏状态,而是引入了上下文-预测-融合机制,联合利用上下文隐藏状态和词汇嵌入空间中的预测语义指导。结合渐进式三阶段课程学习流程,LT-Tuning还支持在潜在推理模式与显式推理模式之间动态切换。实验表明,我们的方法优于现有的潜在推理基线,有效缓解了特征坍塌问题,并实现了稳健的推理精度。
潜在空间推理
隐式思维
Agent Memory
课程学习
语义融合
论文探讨了隐式推理机制,涉及连续潜在空间中的记忆表示与构建,属于Agent Memory相关研究。
分享
夯
0
拉
0
Chain of Mindset: Reasoning with Adaptive Cognitive Modes
Tianyi Jiang, Arctanx An, Hengyi Feng, Naixin Zhai, Haodong Li et al.
人类解决问题时并非依赖单一的认知模式,而是整合多种模式完成任务。然而现有LLM推理方法通常采用固定模式,限制了模型性能。本文提出Chain of Mindset(CoM)框架,一种无需训练的智能体框架,支持在推理步骤中自适应地切换四种功能异构的认知模式:空间、收敛、发散和算法。通过Meta-Agent动态选择最优模式,并利用双向上下文门控机制过滤跨模块信息流,以保持效率和效果。实验表明,CoM在多个基准测试中表现优异,显著优于现有基线模型。
LLM推理
认知模式
智能体框架
自适应推理
论文提出基于不同认知模式的推理框架,涉及动态选择和信息流控制,与Agent Memory相关。
分享
Code
夯
0
拉
0
Decoupled Reasoning with Implicit Fact Tokens (DRIFT): A Dual-Model Framework for Efficient Long-Context Inference
Wenxuan Xie, Yujia Wang, Xin Tan, Chaochao Lu, Xia Hu et al.
将大量动态知识整合到大型语言模型(LLMs)中仍是一个重大挑战,因为事实数据与推理模式之间存在固有的纠缠。现有的解决方案,从非参数检索增强生成(RAG)到参数化知识编辑,通常在实践中受到有限上下文窗口、检索器噪声或灾难性遗忘风险的限制。本文提出DRIFT,一种新颖的双模型架构,旨在显式地将知识提取与推理过程解耦。不同于静态提示压缩,DRIFT采用轻量级知识模型,根据查询动态地将文档块压缩为隐式事实标记。这些密集表示被投影到推理模型的嵌入空间中,以替代原始冗余文本,同时保持推理准确性。大量实验表明,DRIFT在长上下文任务中显著提升了性能,在可比规模模型中优于强基线。我们的方法为扩展LLMs的有效上下文窗口和推理能力提供了一种可扩展且高效的范式。
长上下文推理
隐式事实表示
双模型架构
知识压缩
论文提出了一种解耦知识提取与推理的框架,涉及长上下文推理和隐式事实表示,与Agent Memory相关。
分享
Code
夯
0
拉
0
Closing Reasoning Gaps in Clinical Agents with Differential Reasoning Learning
Jinsong Liu, Yuhang Jiang, Ramayya Krishnan, Rema Padman, Yiye Zhang et al.
临床决策支持不仅需要正确答案,还需要具有临床有效性的推理过程。本文提出差异推理学习(DRL)框架,通过从参考推理依据(如医生撰写的临床理由、临床指南或更强大模型的输出)与代理的自由形式推理链中提取推理图,并利用临床加权图编辑距离进行差异分析。通过LLM作为评判者对语义等效节点进行对齐并诊断图之间的差异,将这些差异诊断转化为自然语言指令并存储在差异推理知识库(DR-KB)中。在推理阶段,通过检索增强生成(RAG)方法检索前k条指令以增强代理提示,修补可能的逻辑漏洞。实验结果表明,该方法在开放医学问答基准和内部临床数据的再入院预测任务上均优于基线方法,提高了最终答案准确性和推理一致性。消融研究验证了引入参考推理依据和前k检索策略的有效性。临床医生对输出的审查进一步确认了该方法的可靠性。结果表明,DRL有助于复杂推理场景下的更可靠临床决策,并提供了一种在有限token预算下部署的实用机制。
临床代理
推理差异
知识库
检索增强生成
图编辑距离
论文涉及通过记忆机制(如DR-KB)存储和检索推理差异,用于增强临床代理的推理能力。
分享
夯
0
拉
0
Knowledge Integration Decay in Search-Augmented Reasoning of Large Language Models
Sangwon Yu, Ik-hwan Kim, Donghun Kang, Bongkyu Hwang, Junhwa Choi et al.
Sangwon Yu (Seoul National University) | Ik-hwan Kim (Seoul National University)
现代大型语言模型(LLMs)通过使用搜索增强推理将外部知识整合到长链推理中,在复杂任务中表现出色。然而,我们发现这一范式中存在一个关键但尚未充分研究的瓶颈,称为知识整合衰减(KID)。具体而言,随着推理生成长度增加,模型越来越难以将检索到的证据整合到后续推理步骤中,即使相关信息可用,也会限制性能。为了解决这一问题,我们提出了自锚定知识编码(SAKE),一种无需训练的推理时策略,旨在稳定知识利用。通过在推理过程的开始和结束处锚定检索到的知识,SAKE防止其被先前上下文掩盖,从而保持其语义完整性。在多跳问答和复杂推理基准上的大量实验表明,SAKE显著缓解了KID并提升了性能,为代理式LLMs中的知识整合提供了一种轻量且有效的解决方案。
知识整合
搜索增强推理
LLM推理优化
语义完整性
论文探讨了知识整合衰减问题,与Agent Memory中的知识利用和保持相关。
分享
夯
0
拉
0
InternAgent-1.5: A Unified Agentic Framework for Long-Horizon Autonomous Scientific Discovery
Shiyang Feng, Runmin Ma, Xiangchao Yan, Yue Fan, Yusong Hu et al.
本文介绍了InternAgent-1.5,这是一个专为端到端科学发现设计的统一系统,适用于计算和实证领域。该系统基于由生成、验证和演化三个协调子系统组成的结构化架构,并依赖于深度研究、解决方案优化和长时程记忆等基础能力。该架构使InternAgent-1.5能够在长时间的发现周期中持续运行并保持行为的一致性和改进性。同时,它还支持在单一系统内协调计算建模与实验室实验。我们在GAIA、HLE、GPQA和FrontierScience等科学推理基准上对InternAgent-1.5进行了评估,系统表现优异,展示了其强大的基础能力。此外,我们还评估了两类发现任务:在算法发现任务中,InternAgent-1.5自主设计了针对核心机器学习问题的竞争性方法;在实证发现任务中,它执行完整的计算或湿实验,并在地球、生命、生物和物理领域产生科学发现。总体而言,这些结果表明InternAgent-1.5提供了一个通用且可扩展的框架,用于实现自主科学发现。
科学发现
智能体框架
长时程记忆
计算建模
实验自动化
论文提到了长时程记忆机制,是系统的关键组成部分,但并非唯一研究重点。
分享
Code
夯
0
拉
0
A Behavioural and Representational Evaluation of Goal-Directedness in Language Model Agents
Raghu Arghal, Fade Chen, Niall Dalton, Evgenii Kortukov, Calum McNamara et al.
理解代理的目标有助于解释和预测其行为,但目前尚无可靠的方法来为代理系统分配目标。本文提出了一种结合行为评估与基于可解释性分析的模型内部表征的框架,用于评估目标导向性。以一个在二维网格世界中向目标状态移动的语言模型代理为例,从行为上评估其在不同网格大小、障碍密度和目标结构下的表现,发现其性能随任务难度增加而提升,并且对保持难度不变的变换和复杂目标结构具有鲁棒性。随后使用探针方法解码代理的环境状态和多步动作计划的内部表征,发现该代理非线性地编码了环境的粗略空间地图,保留了与其位置和目标位置相关的近似任务相关线索;其行为与这些内部表征基本一致;推理过程则重新组织了这些信息,从更广泛的环境结构线索转向支持即时动作选择的信息。研究结果表明,除了行为评估外,还需要进行内省分析,以了解代理如何表征和追求其目标。
Agent Memory
LLM
Internal Representation
Goal-Directedness
Behavioral Evaluation
论文探讨了LLM代理的目标导向性,涉及其内部表示和记忆机制,但非唯一主题。
分享
夯
0
拉
0
Belief Offloading in Human-AI Interaction
Rose E. Guingrich, Dvija Mehta, Umang Bhatt
Rose E. Guingrich (Princeton University) | Dvija Mehta11footnotemark:1 (Eindhoven University of Technology) | Umang Bhatt (University of Cambridge)
当人们的信念来源于LLM提供的信息时,使用LLM聊天机器人作为思维伙伴可能导致认知卸载,进而对认知技能产生负面影响。本文定义并研究了一种特定的认知卸载形式——‘信念卸载’,即人们将形成和维持信念的过程外包给AI系统,并对其行为及信念体系产生后续影响。结合哲学、心理学和计算机科学的研究,本文明确了信念卸载发生的边界条件,并提供了描述性分类及其规范性含义。最后,文章提出了未来研究方向,以评估人机交互中信念卸载的潜力与后果。
认知卸载
人机交互
信念形成
AI伦理
论文探讨了人类将信念形成过程外包给AI系统,涉及认知卸载与记忆相关机制。
分享
夯
0
拉
0
Predicting Future Utility: Global Combinatorial Optimization for Task-Agnostic KV Cache Eviction
Ziyao Tang, Pengkun Jiao, Xinhang Chen, Wei Liu, Shiyong Li et al.
鉴于注意力机制的二次复杂度,KV缓存淘汰对于加速模型推理至关重要。当前的KV缓存淘汰方法通常依赖于瞬时启发式指标,隐含假设所有注意力头中得分大小是重要性的有效代理。然而,这种方法忽略了不同注意力头在预测准确性上的异质性。一些头优先考虑令牌的即时贡献,而另一些则专注于捕捉长期效用。本文提出,最优预算分配应由保留长期语义信息的边际效用来决定。基于这一洞察,我们提出了LU-KV框架,通过凸包松弛和基于边际效用的贪心求解器实现近似最优精度的头部级预算分配。此外,我们实现了一个数据驱动的离线分析协议以促进LU-KV的实际部署。在LongBench和RULER基准上的广泛评估表明,LU-KV在保持性能基本不变的情况下,将KV缓存大小减少了80%,同时降低了推理延迟和GPU内存占用。
KV缓存
注意力机制
缓存淘汰
语义信息
边际效用
论文聚焦KV缓存淘汰策略,与Agent Memory中的缓存管理密切相关,但非唯一主题。
分享
夯
0
拉
0
SCOUT-RAG: Scalable and Cost-Efficient Unifying Traversal for Agentic Graph-RAG over Distributed Domains
Longkun Li, Yuanben Zou, Jinghan Wu, Yuqing Wen, Jing Li et al.
图-RAG通过结构化知识提升大语言模型的推理能力,但传统设计依赖于集中式知识图谱。在分布式和访问受限的场景(如医院或跨国组织)中,检索必须在没有全局图谱可见性或全面查询的情况下选择相关领域和适当的遍历深度。为解决这一问题,我们提出了SCOUT-RAG(可扩展且成本高效的统一遍历),一种分布式智能体图-RAG框架,该框架通过逐步的跨领域检索来实现增量效用目标引导。SCOUT-RAG采用四个协作智能体:(i) 估计领域相关性,(ii) 决定何时扩展到其他领域进行检索,(iii) 调整遍历深度以避免不必要的图谱探索,以及(iv) 综合生成高质量答案。该框架旨在最小化检索遗憾(即遗漏有用领域信息),同时控制延迟和API成本。在多领域知识设置中,SCOUT-RAG的表现与集中式基线(如DRIFT和全面领域遍历)相当,同时显著减少了跨领域调用、处理的总令牌数和延迟。
Graph-RAG
分布式检索
智能体协作
知识图谱
跨领域检索
论文涉及分布式Agent系统中的知识检索与记忆机制,但核心是Graph-RAG框架而非Memory本身。
分享
夯
0
拉
0
Latent Reasoning with Supervised Thinking States
Ido Amos, Avi Caciularu, Mor Geva, Amir Globerson, Jonathan Herzig et al.
Mor Geva (Google Research)
通过链式思维(CoT)进行推理使大型语言模型(LLMs)能够解决复杂任务,但由于生成长篇推理内容而产生显著的推理成本。本文提出了一种名为Thinking States的方法,在输入处理过程中进行推理。具体而言,Thinking States在每几个输入标记后生成一系列思考标记,将这些思考转换回嵌入空间,并将其添加到后续输入标记中。该方法具有两个关键优势:首先,它捕捉了CoT的递归性质,但思考标记是在输入处理过程中生成的;其次,由于思考以标记形式表示,因此可以从自然语言监督中学习,并利用可并行化的教师强制方法。实验证明,Thinking States在多个推理任务上优于其他潜在推理方法,在数学问题上缩小了与CoT的差距,并在2-Hop QA任务中实现了与CoT相当的性能且延迟更低。在状态跟踪任务中,我们展示了Thinking States比CoT表现出更强的推理行为,并成功地推广到训练时未见过的更长序列。
Agent Memory
Chain-of-Thought
Latent Reasoning
Teacher Forcing
Token Embedding
论文提出Thinking States方法,涉及推理过程中的隐式状态表示,与Agent Memory相关但非唯一主题。
分享
夯
0
拉
0
SWE Context Bench: A Benchmark for Context Learning in Coding
Jared Zhu, Minhao Hu, Junde Wu
大型语言模型越来越多地被用作编程代理,以执行仓库级别的软件工程任务。尽管最近的基准测试评估了在真实代码库中的正确性,但它们大多将任务视为独立的,未评估代理是否能跨相关问题重用经验。因此,代理积累、检索和应用先前经验的能力以及由此带来的效率提升仍难以衡量。我们引入了SWE-ContextBench,这是一个专门设计用于明确评估编程代理中经验重用的基准测试。该基准基于SWE-Bench Lite,通过GitHub问题和拉取请求之间的实际依赖和引用关系,为300个基础任务增加了99个相关任务,形成具有共享上下文的任务序列。该基准从三个互补维度评估代理:预测准确性、时间效率和成本效率。利用SWE-ContextBench,我们研究了多种经验重用设置,包括由Oracle引导和自主检索,以及完整的执行轨迹和紧凑摘要。结果表明,正确选择的经验摘要可以提高解决准确性,并显著减少运行时间和标记成本,尤其是在较难的任务上。相比之下,未经筛选或错误选择的经验提供有限甚至负面的收益。这些发现突显了经验表示和检索质量的重要性,并确立了SWE-ContextBench作为研究编程代理中经验重用的原理性基准。
Agent Memory
编程代理
经验重用
基准测试
上下文学习
论文探讨了编程代理中经验重用,涉及记忆的积累、检索与应用,属于Agent Memory相关研究。
分享
夯
0
拉
0
When Does Context Help? Error Dynamics of Contextual Information in Large Language Models
Dingzirui Wang, Xuanliang Zhang, Keyan Xu, Qingfu Zhu, Wanxiang Che et al.
推理时的上下文信息(如示例、检索知识或交互历史)可以在不更新参数的情况下显著提升大语言模型(LLMs)的性能,但其理论作用在除上下文学习(ICL)等特定场景外仍不明确。本文提出了一种统一的理论框架,用于分析基于Transformer的LLMs中任意上下文信息的影响。通过输出误差动态来刻画上下文影响,在单层Transformer中证明了条件上下文误差向量可分解为基线误差向量和上下文校正向量之和。这得出了误差减少所需的几何条件:上下文校正必须与负基线误差对齐并满足范数约束。进一步表明,上下文校正的范数受上下文-查询的相关性和互补性决定。这些结果可扩展到多上下文和多层Transformer。实验覆盖了ICL、检索增强生成和记忆演化,验证了理论,并提出了一种原理性的上下文选择策略,提升了0.6%的性能。
上下文学习
Transformer
误差动态
记忆演化
检索增强生成
论文探讨了上下文信息对LLM的影响,涉及记忆演化和检索增强生成,与Agent Memory相关但非唯一主题。
分享
夯
0
拉
0
Puda: Private User Dataset Agent for User-Sovereign and Privacy-Preserving Personalized AI
Akinori Maeda, Yuto Sekiya, Sota Sugimura, Tomoya Asai, Yu Tsuda et al.
Akinori Maeda (Research Institute of Advanced Technology, SoftBank Corp.Japan) | Yuto Sekiya (Research Institute of Advanced Technology, SoftBank Corp.Japan) | Sota Sugimura (Research Institute of Advanced Technology, SoftBank Corp.Japan)
当前主流平台提供商(如搜索引擎、社交网络服务和电子商务)对个人数据的集中化管理导致了封闭式生态系统,限制了用户的自主权,并阻碍了跨服务的数据使用。同时,基于大语言模型(LLM)的智能体迅速普及,推动了对高度个性化服务的需求,这需要动态提供多样化的个人数据。为此,本文提出Puda(Private User Dataset Agent),一种以用户主权为核心的架构,支持跨服务的数据聚合与客户端管理。Puda允许用户在三个隐私层级上控制数据共享:详细浏览历史、提取关键词以及预定义类别子集。我们将其实现为一个浏览器系统,作为跨多种服务的通用平台,并通过个性化旅行规划任务进行了评估。结果表明,在提供预定义类别子集的情况下,其个性化性能达到97.2%(通过LLM-as-a-Judge框架在三个标准下评估),接近于共享详细浏览历史时的表现。这些发现表明,Puda能够实现有效的多粒度管理,为缓解隐私与个性化之间的权衡提供了实用选择。总体而言,Puda为用户主权提供了原生的AI基础,使用户能够安全地发挥个性化AI的全部潜力。
用户主权
隐私保护
个性化AI
LLM代理
数据管理
论文涉及用户数据管理与隐私保护,与Agent Memory相关,但非核心主题。
分享
夯
0
拉
0
When and How Much to Imagine: Adaptive Test-Time Scaling with World Models for Visual Spatial Reasoning
Shoubin Yu, Yue Zhang, Zun Wang, Jaehong Yoon, Huaxiu Yao et al.
尽管多模态大语言模型(MLLMs)取得了快速进展,但在正确答案依赖于未见过或替代视角下场景外观的情况下,视觉空间推理仍然不可靠。近期的研究通过引入世界模型增强推理能力以解决这一问题,但关于何时需要想象、多少想象是有益的以及何时想象会带来负面影响的问题仍不明确。在实际应用中,无差别地使用想象可能会增加计算量并引入误导性证据从而降低性能。本文对测试时的视觉想象作为可控资源进行了深入分析,研究静态视觉证据是否足够、想象如何提升推理以及过度或不必要的想象如何影响准确性和效率。为支持该分析,我们引入了AVIC框架,该框架在选择性调用和扩展视觉想象之前,显式推理当前视觉证据的充分性。实验结果表明,在多个空间推理基准(SAT、MMSI)和具身导航基准(R2R)上,想象在某些情况下是关键的、边际的或有害的,并且选择性控制可以在显著减少世界模型调用和语言标记的情况下匹配甚至优于固定想象策略。总体而言,我们的研究强调了分析和控制测试时想象对于实现高效可靠的空间推理的重要性。
视觉想象
世界模型
空间推理
测试时资源控制
Agent Memory
论文探讨了测试时视觉想象的可控性,与Agent Memory中的资源管理及选择性调用相关。
分享
Code
夯
0
拉
0
Emergent Search and Backtracking in Latent Reasoning Models
Jasmine Cui, Charles Ye
当语言模型在无文字的情况下进行推理时会发生什么?标准的推理大语言模型通过链式思维(chain-of-thought)表达中间步骤,而潜隐推理变压器(LRTs)则完全在连续的隐藏空间中进行推理。本文研究了一种LRT,在多选问答基准测试中解码模型在每一步的演变信念。发现模型自发地学习了潜隐空间中的结构化搜索过程。推理遵循一致的轨迹:探索阶段概率质量分布在候选答案上,对领先者进行临时承诺,并最终收敛或回溯。回溯现象较为普遍(32%的实例),且具有益处(比非回溯实例准确率提高34%),主要导向语义上最接近的干扰项以外的正确答案。搜索是自适应的:将干扰项替换为不合理的替代选项可使探索时间缩短54%。潜隐推理模型在激活空间中实现了类似于链式思维的能力:能够犯错、察觉并恢复。
隐式推理
回溯机制
模型信念演化
搜索策略
论文探讨了隐式推理模型中的搜索与回溯机制,涉及模型在隐藏空间中的动态信念演化,与Agent Memory相关。
分享
夯
0
拉
0
MePo: Meta Post-Refinement for Rehearsal-Free General Continual Learnin
Guanglong Sun, Hongwei Yan, Liyuan Wang, Zhiqi Kang, Shuang Cui et al.
为了应对外部世界的不确定变化,智能系统必须从复杂、不断演变的环境中持续学习并实时响应。这种能力被称为通用持续学习(GCL),涵盖了在线数据流和模糊任务边界等实际挑战。尽管利用预训练模型(PTMs)已显著推进了传统持续学习(CL),但这些方法在单次传递中仍难以协调多样且时间混合的信息,导致GCL性能欠佳。受神经科学中元可塑性和重构性记忆的启发,本文提出了一种名为Meta Post-Refinement(MePo)的新方法,用于基于PTMs的GCL。该方法从预训练数据中构建伪任务序列,并开发了一个双层元学习范式来优化预训练主干网络,这相当于延长了预训练阶段,但大大促进了表示学习对下游GCL任务的快速适应。MePo进一步初始化一个元协方差矩阵作为预训练表示空间的参考几何,使GCL能够利用二阶统计量进行鲁棒输出对齐。MePo作为一种插件策略,在多种GCL基准测试和预训练检查点上实现了显著的性能提升,且无需回放(例如,在CIFAR-100、ImageNet-R和CUB-200上的Sup-21/1K任务中分别提升了15.10%、13.36%和12.56%)。我们的源代码可在https://github.com/SunGL001/MePo获取。
持续学习
元学习
记忆重构
预训练模型
论文提出MePo方法,涉及记忆重构与元学习,用于持续学习中的表示对齐。
分享
Code
夯
0
拉
0
Efficient Representations are Controllable Representations
Charles Ye, Jasmine Cui
如何以最直接的方式将可解释、可控的特征植入模型的激活中?通常控制LLM内部概念表示需要复杂的识别和干预方法。本文绕过了这些步骤,通过简单的辅助损失函数对LLM进行微调,训练其3072个残差流维度中的16个作为惰性可解释标志,用于指示生成所需的概念。模型会围绕这些标志重新组织,并在实际生成任务中依赖它们。结果表明,这些惰性标志成为真正的内部特征,允许在推理时控制生成。该方法有效的原因在于,当特征在固定位置可靠提供时,梯度下降会逐渐消除其他冗余编码,模型自身也会侵蚀替代表示。模型的效率压力是一种杠杆,可用于诱导可解释、可控的表示。
可控表示
模型微调
内部状态管理
可解释性
论文探讨了通过可控特征实现模型内部表示的可解释性,与Agent Memory中的可控性和内部状态管理相关。
分享
夯
0
拉
0
VideoTemp-o3: Harmonizing Temporal Grounding and Video Understanding in Agentic Thinking-with-Videos
Wenqi Liu, Yunxiao Wang, Shijie Ma, Meng Liu, Qile Su et al.
在长视频理解任务中,传统的均匀帧采样方法往往无法捕捉关键视觉证据,导致性能下降和幻觉增加。为解决这一问题,近期出现了基于智能体视频思维的范式,采用定位-剪辑-回答的流程,模型主动识别相关视频片段,并在这些片段内进行密集采样以生成答案。然而,现有方法效率较低,定位能力较弱且流程僵化。为此,我们提出VideoTemp-o3,一种统一的智能体视频思维框架,联合建模视频定位与问答任务。该框架具有强大的定位能力,支持按需剪辑并能优化不准确的定位。具体而言,在监督微调阶段,我们设计了一种统一的掩码机制,鼓励探索同时防止噪声干扰。在强化学习中,我们引入专用奖励以缓解奖励黑客问题。此外,从数据角度来看,我们开发了一个有效流程来构建高质量的长视频定位问答数据集,并配套相应的基准用于系统评估不同视频时长下的表现。实验结果表明,我们的方法在长视频理解和定位任务上均取得了显著性能提升。
视频理解
智能体思维
定位与剪辑
强化学习
问答系统
论文涉及基于视频的智能体思维框架,包含定位与记忆相关机制,但非唯一主题。
分享
夯
0
拉
0
Emergent Structured Representations Support Flexible In-Context Inference in Large Language Models
Ningyu Xu, Qi Zhang, Xipeng Qiu, Xuanjing Huang
Ningyu Xu (Fudan University)
大型语言模型(LLMs)表现出类似人类推理的涌现行为。尽管近期研究已识别出这些模型中存在结构化的、类似人类的概念表示,但尚不清楚它们是否在推理过程中功能上依赖于这些表示。本文研究了LLMs在上下文概念推理过程中的内部处理机制。结果表明,在中间到后期层中出现了一个概念子空间,其表示结构在不同上下文中保持稳定。通过因果中介分析,我们证明该子空间不仅是伴随现象,而且是模型预测的核心功能部分,确立了其在推理中的因果作用。此外,我们发现注意力头在早期至中期层中整合上下文线索以构建和优化该子空间,随后由后期层利用该子空间生成预测。这些发现表明,LLMs能够动态构建并使用结构化的潜在表示来进行上下文推理,为理解其灵活适应的计算过程提供了见解。
LLM
结构化表示
因果分析
上下文推理
论文探讨了LLM中结构化表示在推理中的作用,与Agent Memory的动态构建和使用相关。
分享
夯
0
拉
0
Gaussian Match-and-Copy: A Minimalist Benchmark for Studying Transformer Induction
Antoine Gonon, Alexandre Cordonnier, Nicolas Boumal
匹配与复制是大型语言模型在推理时使用的核心检索原语,即从上下文中检索匹配的标记并复制其后续内容。然而,在自然数据上理解这种行为如何产生具有挑战性,因为检索和记忆是交织在一起的。为了解耦这两个因素,我们引入了Gaussian Match-and-Copy(GMC),一个通过纯粹的二阶相关信号隔离长距离检索的极简基准。数值研究表明,该任务保留了Transformer在实践中发展匹配与复制电路的关键定性特征,并根据其检索能力区分不同架构。我们还分析了简化注意力设置中的优化动态。尽管在回归目标下存在多种可能的解决方案,包括不实现检索的方案,但我们识别出一种隐式偏差模式,其中梯度下降驱动参数发散,而方向与最大边距分离器对齐,从而实现硬匹配选择。我们在满足显式技术条件的情况下,证明了GD轨迹在达到消失的经验损失时的最大边距对齐。
Transformer
检索机制
记忆
优化动态
注意力机制
论文探讨了Transformer中match-and-copy机制,与记忆检索相关,但非唯一主题。
分享
夯
0
拉
0
When Is Enough Not Enough? Illusory Completion in Search Agents
Dayoon Ko, Jihyuk Kim, Sohyeon Kim, Haeju Park, Dahyun Lee et al.
近期的搜索代理通过多轮推理和搜索工具在多跳和长视野基准测试中表现出色。然而,尚不清楚它们是否能可靠地追踪、验证并维护多个条件以满足所有要求。本文研究了这一能力在多约束问题中的表现,其中有效答案必须同时满足多个约束条件。我们发现,幻觉完成现象频繁发生,即代理认为任务已完成,尽管存在未解决或违反的约束条件,导致答案验证不足。为诊断此行为,我们引入了认知账本(Epistemic Ledger),一个用于跟踪多轮推理过程中每个约束条件的证据支持和代理信念的评估框架。分析揭示了四种常见的失败模式:空断言、忽视反驳、停滞和提前退出。受这些发现的启发,我们研究了执行过程中显式跟踪约束状态是否能缓解这些失败,并提出了LiveLedger这一推理时的跟踪器。这种简单干预显著提升了性能,大幅减少了验证不足的答案(最多减少26.5%),并提高了多约束问题的整体准确性(最多提高11.6%)。
Agent Memory
多约束问题
幻觉完成
推理验证
约束跟踪
论文探讨了搜索代理在多约束问题中的推理缺陷,涉及对约束状态的跟踪与验证,与Agent Memory相关。
分享
夯
0
拉
0
Intent Mismatch Causes LLMs to Get Lost in Multi-Turn Conversation
Geng Liu, Fei Zhu, Rong Feng, Changyi Ma, Shiqi Wang et al.
多轮对话已成为大型语言模型(LLMs)的主要交互范式。用户通常通过后续问题来细化其意图,并期望LLMs能够动态适应。然而,最近的研究表明,与单轮交互相比,LLMs在多轮设置中的性能显著下降,这一现象被称为“对话中迷失”(LiC)。尽管先前的工作将LiC归因于模型不可靠性,但本文认为根本原因在于意图对齐的差距,而非模型本身的能力缺陷。本文首先证明LiC并非模型能力的失败,而是用户与LLMs之间交互的断裂。理论上表明,仅扩大模型规模或改进训练无法解决这一差距,因为其源于对话上下文的结构模糊性,而非表示限制。为了解决这一问题,我们提出通过中介者-助手架构将意图理解与任务执行解耦。利用基于历史交互模式的经验驱动的中介者,将用户输入解释为明确、结构良好的指令,从而有效弥合模糊用户意图与模型解释之间的差距。实验结果表明,该方法显著缓解了多种LLMs在多轮对话中的性能退化。
多轮对话
意图对齐
LLM架构
上下文理解
论文探讨了多轮对话中意图不匹配导致LLM性能下降的问题,涉及记忆与上下文理解的关联。
分享
夯
0
拉
0
InftyThink+: Effective and Efficient Infinite-Horizon Reasoning via Reinforcement Learning
Yuchen Yan, Liang Jiang, Jin Jiang, Shuaicheng Li, Zujie Wen et al.
大规模推理模型通过扩展推理时的思维链实现强大性能,但该范式存在二次成本、上下文长度限制以及因中间丢失效应导致的推理退化问题。迭代推理通过定期总结中间思考缓解这些问题,但现有方法依赖监督学习或固定启发式规则,无法优化何时总结、保留什么以及如何恢复推理。我们提出InftyThink+,一种端到端的强化学习框架,优化整个迭代推理轨迹,基于模型控制的迭代边界和显式总结。InftyThink+采用两阶段训练方案,先进行监督冷启动,然后进行轨迹级强化学习,使模型能够学习战略性总结和继续推理的决策。在DeepSeek-R1-Distill-Qwen-1.5B上的实验表明,InftyThink+在AIME24上将准确率提高了21%,显著优于传统长思维链强化学习方法,并在分布外基准测试中表现出更好的泛化能力。此外,InftyThink+显著减少了推理延迟并加速了强化学习训练,展示了更强的性能和推理效率。
强化学习
迭代推理
思维链
推理效率
论文涉及迭代推理中的中间结果总结,与Agent Memory相关,但非核心主题。
分享
Code
夯
0
拉
0
Cochain Perspectives on Temporal-Difference Signals for Learning Beyond Markov Dynamics
Zuyuan Zhang, Sizhe Tang, Tian Lan
由于长程依赖、部分可观测性和记忆效应,现实环境中的非马尔可夫动态普遍存在。强化学习(RL)的核心贝尔曼方程在非马尔可夫条件下仅近似有效。现有工作多关注算法设计,对关键问题的理论分析不足,如哪些动态可以被贝尔曼框架捕捉,以及如何启发具有最优逼近的新算法类。本文提出一种基于拓扑的时间差分(TD)强化学习新视角,将TD误差视为状态转移拓扑空间中的1-链复形,而马尔可夫动态则被解释为拓扑可积性。该观点使我们通过贝尔曼-德·拉姆投影,将TD误差分解为可积成分和拓扑残差。进一步提出HodgeFlow Policy Search(HFPS)方法,通过拟合势能网络以最小化非可积投影残差,在RL中实现稳定性/敏感性保证。数值评估表明,HFPS在非马尔可夫环境下显著提升了RL性能。
强化学习
非马尔可夫动态
拓扑学
时间差分学习
潜在函数
论文探讨非马尔可夫动态下的强化学习,涉及记忆效应与拓扑分解,与Agent Memory相关。
分享
夯
0
拉
0
Table-as-Search: Formulate Long-Horizon Agentic Information Seeking as Table Completion
Tian Lan, Felix Henry, Bin Zhu, Qianghuai Jia, Junyang Ren et al.
当前的信息检索(InfoSeeking)智能体在长时程探索过程中难以保持焦点和连贯性,因为在一个纯文本上下文中跟踪搜索状态(包括规划过程和大量搜索结果)本质上是脆弱的。为了解决这一问题,我们引入了Table-as-Search(TaS),一种结构化的规划框架,将信息检索任务重新表述为表格补全任务。TaS将每个查询映射到外部数据库中维护的结构化表格模式中,其中行表示搜索候选,列表示约束或所需信息。该表格精确地管理搜索状态:已填充的单元格严格记录历史和搜索结果,而空单元格则作为显式的搜索计划。关键的是,TaS统一了三种不同的信息检索任务:深度搜索、广度搜索以及具有挑战性的深度广度搜索。广泛的实验表明,TaS在三个类型的基准测试中显著优于众多最先进的基线方法,包括多智能体框架和商业系统。此外,我们的分析验证了TaS在长时程信息检索中的优越鲁棒性,同时具备高效性、可扩展性和灵活性。代码和数据集已在https://github.com/AIDC-AI/Marco-Search-Agent上公开发布。
Agent Memory
信息检索
表格结构
长时程任务
论文提出Table-as-Search框架,通过结构化表格管理搜索状态,涉及记忆机制的实现与优化。
分享
Code
夯
0
拉
0
TrajAD: Trajectory Anomaly Detection for Trustworthy LLM Agents
Yibing Liu, Chong Zhang, Zhongyi Han, Hansong Liu, Yong Wang et al.
本文研究了运行时轨迹异常检测问题,这是实现可信LLM代理的关键能力。当前的安全措施主要集中在静态输入/输出过滤上,但作者认为确保LLM代理可靠性需要审计中间执行过程。为此,本文提出了轨迹异常检测任务,目标不仅是检测异常,还要实现精确的错误定位,以支持高效的回滚和重试机制。为此,作者构建了TrajBench数据集,并通过实验发现通用LLM在零样本提示下难以识别和定位这些异常。为解决此问题,作者提出TrajAD,一种基于细粒度过程监督训练的专用验证器,其性能优于基线方法,表明专门监督对于构建可信代理至关重要。
LLM Agent
轨迹异常检测
过程监督
可信AI
论文涉及LLM代理的轨迹异常检测,与执行过程监控相关,间接关联到Agent Memory。
分享
夯
0
拉
0
TrailBlazer: History-Guided Reinforcement Learning for Black-Box LLM Jailbreaking
Sung-Hoon Yoon, Ruizhi Qian, Minda Zhao, Weiyue Li, Mengyu Wang
大型语言模型(LLMs)已成为许多领域的重要组成部分,因此其安全性成为关键问题。先前的越狱研究探索了多种方法,包括提示优化、自动化红队测试、混淆和基于强化学习的方法。然而,大多数现有技术未能有效利用早期交互中揭示的漏洞,导致攻击效率低下且不稳定。由于越狱涉及连续交互,每一步响应都会影响后续动作,强化学习为这一问题提供了自然的框架。受此启发,我们提出了一种基于历史信息的强化学习越狱框架,通过分析并重新加权先前步骤中的漏洞信号来指导未来决策。实验表明,仅引入历史信息即可提高越狱成功率。在此基础上,我们引入了一种基于注意力的重新加权机制,突出交互历史中的关键漏洞,从而在更少查询次数下实现更高效的探索。在AdvBench和HarmBench上的大量实验表明,我们的方法在越狱性能上达到最先进水平,并显著提升了查询效率。这些结果强调了历史漏洞信号在强化学习驱动的越狱策略中的重要性,并为推进大语言模型安全防护的对抗性研究提供了理论依据。
强化学习
越狱攻击
历史信息
注意力机制
LLM安全
论文提出基于历史信息的强化学习框架,涉及记忆机制以提升攻击效率。
分享
夯
0
拉
0
Self-Improving World Modelling with Latent Actions
Yifu Qiu, Zheng Zhao, Waylon Li, Yftah Ziser, Anna Korhonen et al.
世界内部建模——预测在动作Z下的前一状态X与下一状态Y之间的转换——对于LLM和VLM的推理和规划至关重要。通常需要代价高昂的动作标记轨迹来学习此类模型。本文提出SWIRL,一种自改进框架,通过将动作视为潜在变量,并在前向世界建模(FWM)Pθ(Y|X,Z)和逆动力学建模(IDM)Qφ(Z|X,Y)之间交替,从仅包含状态的序列中进行学习。SWIRL迭代两个阶段:(1) 变分信息最大化,更新FWM以生成与潜在动作在给定先前状态下具有最大条件互信息的下一状态,鼓励可识别的一致性;(2) ELBO最大化,更新IDM以解释观察到的转换,有效执行坐标上升。两个模型均使用强化学习(具体为GRPO)进行训练,奖励信号为相反冻结模型的日志概率。我们为两种更新提供了理论可学习性保证,并在多个环境中对SWIRL进行了评估,包括单轮和多轮开放世界视觉动态以及用于物理、网络和工具调用的合成文本环境。SWIRL在AURORABench上实现了16%的提升,在ByteMorph上提升了28%,在WorldPredictionBench上提升了16%,在StableToolBench上提升了14%。
世界建模
潜在变量
逆动力学建模
强化学习
LLM
论文涉及世界建模与隐式动作学习,与Agent Memory相关但非唯一主题。
分享
夯
0
拉
0
KV-CoRE: Benchmarking Data-Dependent Low-Rank Compressibility of KV-Caches in LLMs
Jian Chen, Zhuoran Wang, Jiayu Qin, Ming Li, Meng Wang et al.
大型语言模型依赖于KV缓存以避免自回归解码过程中的冗余计算,但随着上下文长度的增加,读写缓存会迅速占用GPU内存带宽。尽管已有研究探索了KV缓存压缩,但大多数方法忽略了KV缓存的数据依赖性和层间变化。本文提出KV-CoRE(基于奇异值分解的KV缓存可压缩性评估方法),用于量化KV缓存的数据依赖低秩可压缩性。该方法在Frobenius范数下计算最优低秩近似,并通过无梯度和增量方式实现高效的数据集级、逐层评估。利用该方法,我们分析了多个模型和数据集,涵盖五个英文领域和十六种语言,揭示了可压缩性与模型架构、训练数据和语言覆盖之间的系统性关联。作为分析的一部分,我们采用归一化有效秩作为可压缩性指标,并证明其与压缩下的性能下降高度相关。本研究建立了原理性的评估框架,并首次构建了LLMs中KV缓存可压缩性的大规模基准,为动态、数据感知的压缩和数据驱动的模型开发提供了见解。
KV-cache
低秩压缩
模型优化
内存管理
数据驱动
论文聚焦KV-cache压缩性,与Agent Memory中的缓存管理密切相关,但非唯一主题。
分享
夯
0
拉
0
Codified Finite-state Machines for Role-playing
Letian Peng, Yupeng Hou, Kun Zhou, Jingbo Shang
在使用大型语言模型(LLMs)进行角色扮演(RP)时,建模潜在角色状态对于保持一致性和互动性至关重要。然而,现有的基于提示的方法主要捕捉表面行为,往往无法跟踪驱动交互的潜在状态。本文重新审视了有限状态机(FSMs),该方法长期以来被用于游戏设计中建模状态转换。尽管传统的人工设计、基于规则的FSMs在小规模、明确的状态空间中有效,但在开放式的语义空间中难以适应。为了解决这一问题,我们引入了编码有限状态机(CFSMs),一种利用基于LLM的编码自动将文本角色档案转化为FSMs的框架。CFSMs直接从档案中提取关键状态和转换,生成可解释的结构以确保角色一致性。为进一步捕捉不确定性和变异性,我们将CFSMs扩展为编码概率有限状态机(CPFSMs),其中转换被建模为状态的概率分布。通过合成评估和现实世界中的RP场景测试,我们证明CFSM和CPFSM优于通用基线方法,验证了其不仅在结构化任务中有效,在开放式随机状态探索中也表现出色。
有限状态机
角色扮演
LLM编码
概率建模
论文涉及角色状态建模与一致性,与Agent Memory相关,但非唯一主题。
分享
夯
0
拉
0
OdysseyArena: Benchmarking Large Language Models For Long-Horizon, Active and Inductive Interactions
Fangzhi Xu, Hang Yan, Qiushi Sun, Jinyang Wu, Zixian Huang et al.
随着大型语言模型(LLMs)的快速发展,自主代理在复杂环境中的导航能力得到了显著提升。然而,现有评估主要采用演绎范式,即代理基于明确提供的规则和静态目标执行任务,通常具有有限的规划范围。这忽视了代理从经验中自主发现潜在转移规律的归纳必要性,而这是实现代理前瞻性思维和保持战略一致性的关键。为弥补这一差距,我们引入了OdysseyArena,将代理评估重新聚焦于长时程、主动和归纳交互。我们形式化并实例化了四个基本元素,将抽象的转移动态转化为具体的交互环境。在此基础上,我们建立了OdysseyArena-Lite以进行标准化基准测试,提供120个任务来衡量代理的归纳效率和长时程发现能力。进一步地,我们引入了OdysseyArena-Challenge,以极端交互范围(例如>200步)对代理稳定性进行压力测试。对15多个领先LLM的广泛实验表明,即使是最先进的模型在归纳场景中也存在不足,揭示了在复杂环境中实现自主发现的关键瓶颈。
Agent Evaluation
Long-Horizon Interaction
Inductive Learning
Benchmarking
论文涉及长期交互与归纳学习,隐含对Agent Memory的需求,但未直接研究记忆机制。
分享
Code
夯
0
拉
0
Reinforcement World Model Learning for LLM-based Agents
Xiao Yu, Baolin Peng, Ruize Xu, Yelong Shen, Pengcheng He et al.
大型语言模型(LLMs)在语言相关任务中表现出色,但在代理设置中,它们往往难以预测行动后果并适应环境动态,这突显了LLM代理需要具备世界建模能力。我们提出了强化世界模型学习(RWML),一种自监督方法,通过使用模拟到现实的差距奖励,在文本状态上为LLM代理学习动作条件化的世界模型。该方法将模型生成的模拟下一状态与从环境中观察到的实际下一状态对齐,鼓励预训练嵌入空间中内部世界模拟与实际环境动态之间的一致性。与优先考虑标记级保真度(即重现确切措辞)而忽视语义等价性的下一状态标记预测不同,我们的方法提供了更稳健的训练信号,并且在经验上比LLM作为评判者更不容易受到奖励黑客攻击。我们在ALFWorld和$τ^2$ Bench上评估了我们的方法,尽管是完全自监督的,但仍观察到相对于基线模型有显著提升。当结合任务成功奖励时,我们的方法在ALFWorld和$τ^2$ Bench上的表现分别优于直接任务成功奖励强化学习6.9和5.7个百分点,同时匹配专家数据训练的性能。
世界模型
强化学习
LLM代理
自监督学习
环境建模
论文提出世界模型学习方法,与Agent Memory相关,但非唯一主题。
分享
夯
0
拉
0
LongR: Unleashing Long-Context Reasoning via Reinforcement Learning with Dense Utility Rewards
Bowen Ping, Zijun Chen, Yiyao Yu, Tingfeng Hui, Junchi Yan et al.
强化学习已成为提升大语言模型(LLM)推理能力的关键方法。在长上下文场景中,如长对话理解和结构化数据分析,挑战不仅在于处理大量token,还在于进行严谨的推理。现有研究多关注数据合成或架构改进,但仅依赖稀疏结果奖励的方法效果有限。为此,本文提出LongR框架,整合动态“思考-阅读”机制与基于相对信息增益的上下文密度奖励,以量化相关文档的效用。实验表明,LongR在LongBench v2上提升了9%,并在RULER和InfiniteBench上表现稳定,且适用于多种RL算法。此外,研究还深入分析了推理链长度对效率及模型抗干扰能力的影响。
强化学习
长上下文推理
文档咨询
效用奖励
论文涉及长上下文推理与文档咨询机制,与Agent Memory相关但非唯一主题。
分享
夯
0
拉
0
Reactive Knowledge Representation and Asynchronous Reasoning
Simon Kohaut, Benedict Flade, Julian Eggert, Kristian Kersting, Devendra Singh Dhami
Simon Kohaut (Artificial Intelligence and Machine Learning Group, TU DarmstadtDarmstadt, HesseGermany) | Benedict Flade (Honda Research Institute EUOffenbach am Main, HesseGermany) | Julian Eggert (Honda Research Institute EUOffenbach am Main, HesseGermany)
在复杂概率模型中进行精确推理通常会产生高昂的计算成本,这一问题在需要频繁实时信念更新的自主代理系统中尤为突出。现有方法在持续推理中效率低下,因为它们在任何变化发生时都会重新评估整个模型,未能利用现实世界信息流具有异质更新率的特点。为了解决这一问题,本文从反应式、异步的概率推理角度出发,提出了一种名为Resin的概率编程语言,该语言结合了概率逻辑与反应式编程。此外,为了提供高效的精确语义,本文还提出了反应式电路(Reactive Circuits, RCs)。RCs被定义为基于代数电路和异步数据流的元结构,是时间动态的有向无环图,能够根据输入信号的波动性自主调整自身结构。在高保真度的无人机群模拟实验中,本文的方法相比频率无关推理实现了多个数量级的速度提升。结果表明,RCs的结构适应性成功捕捉了环境动态,显著降低了延迟并促进了反应式实时推理。通过根据异步输入的估计变化频率对计算进行分区,大型推理任务可以分解为独立记忆化的子问题,从而确保仅重新评估受新信息影响的模型组件,大幅减少流式场景中的冗余计算。
概率推理
异步计算
反应式系统
Agent Memory
实时推理
论文涉及异步推理与动态更新机制,与Agent Memory相关,但非唯一主题。
分享
夯
0
拉
0
AI Agent Systems for Supply Chains: Structured Decision Prompts and Memory Retrieval
Konosuke Yoshizato, Kazuma Shimizu, Ryota Higa, Takanobu Otsuka
本研究探讨了基于大语言模型(LLM)的多智能体系统(MASs)在库存管理中的应用,这是供应链管理的关键组成部分。尽管这些系统因其解决传统库存管理方法挑战的潜力而受到广泛关注,但其有效性仍存在不确定性。具体而言,尚不清楚基于LLM的MAS是否能持续得出最优订购策略并适应多样化的供应链场景。为解决这些问题,我们研究了一种带有固定订购策略提示的LLM-MAS,该提示编码了问题设定的分步过程和库存管理中常用的安全库存策略。实证结果表明,即使没有详细的提示调整,基于LLM的MAS也能在受限场景中确定最佳订购决策。为增强适应性,我们提出了一种新的代理AIM-RM,它通过相似性匹配利用类似的历史经验。结果表明,AIM-RM在各种供应链场景中优于基准方法,突显了其鲁棒性和适应性。
LLM
多智能体系统
库存管理
记忆检索
供应链
论文涉及基于LLM的Agent系统中记忆检索机制,用于提升适应性,但非唯一主题。
分享
夯
0
拉
0
PATHWAYS: Evaluating Investigation and Context Discovery in AI Web Agents
Shifat E. Arman, Syed Nazmus Sakib, Tapodhir Karmakar Taton, Nafiul Haque, Shahrear Bin Amin
本文介绍了PATHWAYS,一个包含250个多层次决策任务的基准测试,用于评估基于网络的智能体是否能够发现并正确使用隐藏的上下文信息。结果表明,尽管智能体通常能导航到相关页面,但在少数情况下才能获取关键的隐藏证据。当任务需要推翻误导性的表面信号时,性能显著下降,接近随机水平。智能体经常声称依赖于从未访问过的证据,从而产生虚假的推理过程。即使发现了正确的上下文,智能体也常无法将其整合到最终决策中。提供更明确的指令可以提高上下文发现能力,但往往降低整体准确性,揭示了程序合规性与有效判断之间的权衡。这些结果表明,当前网络智能体架构缺乏可靠的适应性调查、证据整合和判断覆盖机制。
Agent Memory
Context Discovery
Web Agents
Evidence Integration
论文涉及Agent在任务中发现和使用隐藏上下文信息,与记忆机制相关,但非唯一主题。
分享
夯
0
拉
0
ProAct: Agentic Lookahead in Interactive Environments
Yangbin Yu, Mingyu Yang, Junyou Li, Yiming Gao, Feiyu Liu et al.
现有的大型语言模型(LLM)代理在需要长期规划的交互环境中表现不佳,主要由于模拟未来状态时累积误差。为了解决这一问题,我们提出了ProAct框架,通过两阶段训练范式使代理能够内部化准确的前瞻性推理。首先,我们引入了基于环境搜索轨迹的监督微调方法Grounded LookAhead Distillation(GLAD),将复杂的搜索树压缩为简洁的因果推理链,从而无需推理时搜索即可学习前瞻性逻辑。其次,为了进一步提高决策准确性,我们提出了一种轻量级的蒙特卡洛批评者(MC-Critic),作为增强策略梯度算法(如PPO和GRPO)的辅助价值估计器。通过利用轻量级环境回滚校准价值估计,MC-Critic提供了低方差信号,有助于稳定策略优化,而无需依赖昂贵的模型基价值近似。实验表明,ProAct在随机(如2048)和确定性(如Sokoban)环境中显著提升了规划准确性。一个4B参数的ProAct模型超越了所有开源基线,并与最先进的闭源模型相媲美,同时展示了对未见过环境的鲁棒泛化能力。
Agent Planning
Lookahead Reasoning
Value Estimation
Policy Optimization
论文涉及前瞻性推理和记忆机制,但核心是规划与决策优化。
分享
Code
夯
0
拉
0
HugRAG: Hierarchical Causal Knowledge Graph Design for RAG
Nengbo Wang, Tuo Liang, Vikash Singh, Chaoda Song, Van Yang et al.
检索增强生成(RAG)通过引入外部知识增强了大型语言模型的能力,而基于图的RAG已成为结构化检索和推理的强大范式。然而,现有基于图的方法通常过度依赖表面级节点匹配,并缺乏显式的因果建模,导致答案不忠实或出现虚假信息。以往尝试引入因果性的方法通常局限于局部或单文档上下文,并且由于模块化图结构导致信息隔离,阻碍了可扩展性和跨模块因果推理。为了解决这些问题,我们提出了HugRAG,一种通过分层模块间的因果门控重新思考知识组织的框架。HugRAG显式建模因果关系,以抑制虚假相关性并实现大规模知识图上的可扩展推理。大量实验表明,HugRAG在多个数据集和评估指标上始终优于竞争性的基于图的RAG基线。我们的工作为结构化、可扩展且基于因果的RAG系统奠定了理论基础。
RAG
因果建模
知识图谱
模块化推理
论文涉及基于图的RAG系统,强调因果建模和知识组织,与Agent Memory中的知识检索和因果推理相关。
分享
夯
0
拉
0
DeepRead: Document Structure-Aware Reasoning to Enhance Agentic Search
Zhanli Li, Huiwen Tian, Lvzhou Luo, Yixuan Cao, Ping Luo
Zhanli Li (Key Lab of Intelligent Information Processing of Chinese Academy of Sciences (CAS), Institute of Computing Technology, CASBeijing100190China) | Huiwen Tian (Key Lab of Intelligent Information Processing of Chinese Academy of Sciences (CAS), Institute of Computing Technology, CASBeijing100190China) | Lvzhou Luo (Key Lab of Intelligent Information Processing of Chinese Academy of Sciences (CAS), Institute of Computing Technology, CASBeijing100190China)
随着工具使用和代理式大语言模型(LLMs)的快速发展,检索增强生成(RAG)正从单次、被动检索演变为多轮、决策驱动的证据获取。尽管在开放领域取得了显著成果,现有代理搜索框架通常将长文档视为扁平化的块集合,未能充分利用文档本身的先验知识,如层次组织和顺序论述结构。本文提出DeepRead,一种结构感知的多轮文档推理代理,显式地利用这些先验知识进行长文档问答。DeepRead利用基于LLM的OCR模型将PDF转换为保留标题和段落边界的结构化Markdown格式。然后在段落级别对文档进行索引,并为每个段落分配一个编码其章节身份和节内顺序的坐标风格元数据键。在此基础上,DeepRead为LLM提供了两种互补工具:一个用于定位相关段落并暴露其结构坐标的检索工具(轻量级扫描上下文),以及一个允许在指定章节和段落范围内连续、保持顺序阅读的ReadSection工具。实验表明,DeepRead在文档问答任务中显著优于Search-o1风格的代理搜索。检索与阅读工具之间的协同效应也得到了验证。我们的细粒度行为分析揭示了一种类似于人类“定位后阅读”的读取与推理范式。
Agent Memory
Document Retrieval
LLM Agent
RAG
Structure-Aware Reasoning
论文涉及基于文档结构的多轮检索与阅读机制,与Agent Memory中的信息定位和存储相关。
分享
夯
0
拉
0
CoWork-X: Experience-Optimized Co-Evolution for Multi-Agent Collaboration System
Zexin Lin, Jiachen Yu, Haoyang Zhang, Yuzhao Li, Zhonghang Li et al.
大型语言模型正在使交互环境中的语言条件代理成为可能,但高度协作的任务通常同时带来两个约束:亚秒级实时协调和在严格的在线token预算下持续的多回合适应。现有方法要么依赖频繁的回合内推理导致延迟和时间抖动,要么通过非结构化文本实现回合后改进,难以编译为可靠且低成本的执行方案。本文提出CoWork-X,一种主动共进化框架,将同伴协作视为跨回合的闭环优化问题,受快慢记忆分离启发。CoWork-X实例化了一个Skill-Agent,通过从结构化、可解释且组合化的技能库中进行HTN(分层任务网络)基础的技能检索来执行,并引入一个回合后Co-Optimizer,通过显式预算约束和漂移正则化进行补丁式技能整合。在具有挑战性的类似Overcooked-AI的实时协作基准测试中,实验表明CoWork-X实现了稳定的累积性能提升,同时逐步降低在线延迟和token使用量。
多智能体协作
技能库
共进化
在线优化
LLM Agent
论文提出基于快慢记忆分离的框架,涉及技能库和在线优化,与Agent Memory相关。
分享
夯
0
拉
0
Decomposed Prompting Does Not Fix Knowledge Gaps, But Helps Models Say "I Don't Know"
Dhruv Madhwal, Lyuxin David Zhang, Dan Roth, Tomer Wolfson, Vivek Gupta
大型语言模型在封闭式问答任务中常难以识别自身知识的局限性,导致自信的幻觉。尽管分解提示通常用于提高准确性,本文研究其对可靠性的影晌。我们评估了三种任务等效的提示策略:直接、辅助和增量,在不同规模模型和多跳QA基准上进行测试。发现虽然分解带来的准确率提升在前沿模型中减弱,但不同提示策略之间的分歧仍能高度指示潜在错误。由于事实知识是稳定的而幻觉是随机的,跨策略的一致性提供了内部不确定性的精确信号。我们利用这一信号实现了一种无需检索或微调的训练自由弃权策略。结果表明,基于分歧的弃权方法优于标准不确定性基线作为错误检测器,在多种设置下提升了F1和AUROC指标。这表明基于分解的提示可以作为封闭式问答中模型可靠性的一种实用诊断工具。
LLM
Prompting
Uncertainty Detection
Closed-book QA
Model Reliability
论文探讨了分解提示对模型不确定性的检测作用,与Agent Memory中的可靠性机制相关。
分享
夯
0
拉
0
Fluid Representations in Reasoning Models
Dmitrii Kharlapenko, Alessandro Stolfo, Arthur Conmy, Mrinmaya Sachan, Zhijing Jin
推理语言模型在抽象问题上显著优于非推理语言模型,但其内部机制尚不明确。本文对专门训练以生成详细推理过程的QwQ-32B模型进行了机制分析,研究其如何处理抽象结构信息。在Mystery Blocksworld这一语义混淆的规划领域中,发现QwQ-32B在推理过程中逐步改进其动作和概念的内部表示,并发展出聚焦于结构而非具体动作名称的抽象编码。通过引导实验,证明这些适应性改进提升了问题解决能力:从成功推理轨迹中注入优化后的表示可提高准确性,而符号表示也能在性能损失最小的情况下替代许多混淆编码。研究发现,推理模型性能的一个关键驱动因素是上下文中的标记表示优化,即所谓的流体推理表示。
推理模型
表示学习
流体表示
Agent Memory
语义混淆任务
论文探讨了推理模型中表示的动态调整,与Agent Memory中的表示更新机制相关。
分享
夯
0
拉
0
SE-Bench: Benchmarking Self-Evolution with Knowledge Internalization
Jiarui Yuan, Tailin Jin, Weize Chen, Zeyuan Liu, Zhiyuan Liu et al.
Weize Chen (Tsinghua University)
真正的自我进化要求智能体作为终身学习者,将新经验内化以解决未来问题。然而,严格衡量这一基础能力受到两个障碍的限制:先验知识的纠缠,即“新”知识可能出现在预训练数据中;以及推理复杂性的纠缠,即失败可能源于问题难度而非无法回忆已学知识。本文引入SE-Bench,一个诊断环境,通过模糊NumPy库及其API文档为伪新包,并使用随机标识符。智能体被训练以内化该包,并在无文档访问的情况下进行简单编码任务评估,从而创建了一个干净的环境:拥有新API文档的任务对基础模型而言是简单的,而没有文档则不可能完成。研究揭示了三个发现:(1) 开放书籍悖论,使用参考文档训练会抑制保留,需要“闭书训练”来强制知识压缩到权重中;(2) 强化学习差距,标准RL因PPO裁剪和负梯度无法完全内化新知识;(3) 自我博弈对内化的可行性,证明当结合SFT时,模型可以从自生成的噪声任务中学习,但不能通过RL实现。总体而言,SE-Bench建立了用于知识内化自我进化的严格诊断平台。
Agent Memory
Self-Evolution
Knowledge Internalization
Benchmarking
论文探讨了知识内化与自我进化,涉及记忆机制在长期学习中的作用。
分享
Code
夯
0
拉
0
When Silence Is Golden: Can LLMs Learn to Abstain in Temporal QA and Beyond?
Xinyu Zhou, Chang Jin, Carsten Eickhoff, Zhijiang Guo, Seyed Ali Bahrainian
大型语言模型(LLMs)很少承认其不确定性,通常会生成流畅但具有误导性的答案,而不是拒绝回答。这种缺陷在时间问答任务中尤为明显,模型经常忽略时间敏感的证据并混淆不同时期的事实。本文首次对训练具备拒绝能力的LLM进行实证研究,特别是在时间问答推理中。我们提出了一种结合思维链监督与基于拒绝感知奖励的强化学习的流程,系统分析不同类型信息和训练技术对LLM在拒绝行为下的时间推理的影响。实验表明,强化学习显著提升了模型性能,并提高了对无法回答问题的识别率。此外,我们发现隐式推理线索对带有拒绝行为的推理帮助有限。本研究为联合优化拒绝与推理提供了新见解,为构建更可靠的LLM奠定了基础。
LLM
Abstention
Temporal QA
Reinforcement Learning
Uncertainty Handling
论文探讨了LLM在时间问答任务中如何通过学习‘拒绝回答’来提升可靠性,与Agent Memory中的不确定性处理和决策机制相关。
分享
夯
0
拉
0
Continual Learning through Control Minimization
Sander de Haan, Yassine Taoudi-Benchekroun, Pau Vilimelis Aceituno, Benjamin F. Grewe
当任务按顺序训练时,神经网络仍面临灾难性遗忘这一根本性挑战。在本研究中,我们将持续学习重新表述为一个控制问题,其中学习信号和保留信号在神经活动动态中竞争。我们将正则化惩罚转化为保护先前任务表示的保留信号。学习过程通过最小化整合新任务所需的控制努力,同时与先前任务的保留进行竞争。在平衡状态下,神经活动产生的权重更新隐式编码了完整的先前任务曲率,我们称之为持续自然梯度,无需显式的曲率存储。实验表明,我们的学习框架能够恢复真实的先前任务曲率并实现任务区分,在标准基准测试中优于现有方法,且无需回放。
持续学习
灾难性遗忘
控制理论
神经网络
论文探讨了连续学习中的记忆保持问题,与Agent Memory相关但非唯一主题。
分享
夯
0
拉
0
ReThinker: Scientific Reasoning by Rethinking with Guided Reflection and Confidence Control
Zhentao Tang, Yuqi Cui, Shixiong Kai, Wenqian Zhao, Ke Ye et al.
大型语言模型在专家级科学推理任务上仍面临挑战,尤其是在如《人类最后考试》(HLE)等基准测试中,受限于固定的工具流程、脆弱的多代理协调以及低效的测试时扩展能力。本文提出ReThinker,一种基于置信度的智能体框架,通过分阶段的Solver-Critic-Selector架构协调检索、工具使用和多代理推理。不同于固定流程,ReThinker根据模型置信度动态分配计算资源,实现自适应工具调用、引导性的多维反思以及稳健的置信度加权选择。为支持无需人工标注的可扩展训练,我们进一步提出反向数据合成管道和自适应轨迹重用策略,将成功的推理过程转化为高质量的监督信号。实验表明,ReThinker在HLE、GAIA和XBench等基准上均优于现有最先进的基础模型和深度研究系统,在专家级推理任务中取得最先进结果。
Agent Memory
多代理系统
科学推理
置信度控制
动态计算分配
论文涉及基于置信度的动态计算分配和多代理反思,与Agent Memory相关但非核心主题。
分享
夯
0
拉
0
History-Guided Iterative Visual Reasoning with Self-Correction
Xinglong Yang, Zhilin Peng, Zhanzhan Liu, Haochen Shi, Sheng-Jun Huang
自一致性方法是提升多模态大语言模型(MLLMs)推理可靠性的核心技术。通过重复采样生成多个推理结果,并通过投票选择最佳答案,在跨模态任务中发挥重要作用。然而,现有自一致性方法大多局限于固定的“重复采样和投票”范式,未能复用历史推理信息,导致模型难以主动纠正视觉理解错误并动态调整推理过程。受人类反复验证和动态纠错推理行为的启发,本文提出H-GIVR框架。在迭代推理过程中,MLLM多次观察图像,并以前生成的答案作为后续步骤的参考,实现动态纠错并提高答案准确性。我们在五个数据集和三个模型上进行了全面实验,结果表明H-GIVR框架能显著提升跨模态推理准确率,同时保持较低的计算成本。例如,在ScienceQA数据集上使用Llama3.2-vision:11b模型,平均每题需要2.57次响应即可达到78.90%的准确率,比基线提升了107%。
多模态学习
自一致性方法
视觉推理
历史信息复用
动态纠错
论文提出利用历史推理信息进行动态修正,与Agent Memory相关但非唯一主题。
分享
夯
0
拉
0
From Assumptions to Actions: Turning LLM Reasoning into Uncertainty-Aware Planning for Embodied Agents
SeungWon Seo, SooBin Lim, SeongRae Noh, Haneul Kim, HyeongYeop Kang
在多智能体、部分可观测和去中心化的环境中,具身智能体必须在对隐藏对象和合作者意图存在广泛不确定性的情况下进行规划和行动。尽管近期将大语言模型(LLMs)应用于具身智能体已解决了许多长期存在的挑战,如高层目标分解和在线适应,但不确定性仍主要通过频繁的智能体间通信来缓解。这会带来显著的token和时间成本,并可能干扰已有工作流程,尤其是在涉及人类合作伙伴时。本文提出PCE框架,该框架将LLM推理轨迹中隐含的碎片化假设转化为结构化的决策树。内部节点编码环境假设,叶子节点映射到动作;每条路径根据场景可能性、目标导向收益和执行成本进行评分,以指导理性行动选择,而无需大量通信。在两个具有挑战性的多智能体基准(C-WAH和TDW-MAT)和三种不同的LLM主干上,PCE在成功率和任务效率方面均优于以通信为中心的基线方法,同时显示出相当的token使用量。消融实验表明,当应用PCE时,通过扩展模型容量或推理深度获得的性能提升仍然存在,而PCE在容量和推理深度尺度上始终提高基线,证实了结构化不确定性处理可以补充这两种扩展方式。用户研究进一步表明,PCE生成的通信模式被人类合作伙伴视为更高效和可信。这些结果共同确立了一种原理性方法,将LLM潜在的假设转化为不确定性感知规划的可靠策略。
LLM
不确定性处理
具身智能体
规划系统
多智能体
论文涉及LLM推理中的不确定性处理,与Agent Memory相关但非核心主题。
分享
夯
0
拉
0
OMG-Agent: Toward Robust Missing Modality Generation with Decoupled Coarse-to-Fine Agentic Workflows
Ruiting Dai, Zheyu Wang, Haoyu Yang, Yihan Liu, Chengzhi Wang et al.
数据不完整性严重阻碍了多模态系统的可靠性。现有的重建方法面临不同的瓶颈:传统的参数化/生成模型由于过度依赖内部记忆而容易产生幻觉,而检索增强框架则存在检索僵硬的问题。关键的是,这些端到端架构受到语义细节纠缠的结构性限制——逻辑推理与信号合成之间的冲突损害了保真度。本文提出了一种名为OMG-Agent的新框架,该框架将范式从静态映射转变为动态的粗到细智能体工作流。通过模仿“深思熟虑后行动”的认知过程,OMG-Agent显式地将任务分解为三个协同阶段:(1)由MLLM驱动的语义规划器,通过渐进上下文推理解决输入歧义,创建确定性的结构化语义计划;(2)非参数化的证据检索器,将抽象语义锚定在外部知识上;(3)检索注入执行器,利用检索到的证据作为灵活的特征提示,克服僵硬性并合成高保真细节。在多个基准上的大量实验表明,OMG-Agent始终优于最先进的方法,并在极端缺失情况下保持鲁棒性,例如在CMU-MOSI数据集上缺失率70%时提升了2.6个百分点。
多模态生成
智能体工作流
语义规划
检索增强
缺失模态恢复
论文涉及Agent Memory相关机制,如内部记忆依赖与检索增强框架的对比,但核心是多模态生成。
分享
夯
0
拉
0
A computational account of dreaming: learning and memory consolidation
Qi Zhang
许多研究认为梦境主要是由随机内部信号引起的,并认为梦境睡眠在我们的智力能力中作用不大。然而,功能研究表明梦境睡眠在学习和其他智力功能中起着重要作用,尤其是在海马体中近期清醒模式的神经重放现象之后。该研究提出了一种认知和计算模型,模拟梦境过程以执行学习和记忆巩固功能。模拟结果表明,随机信号可能导致学习和记忆巩固。因此,梦境被提出为大脑清醒活动的延续,处理来自海马体自发和随机激活的信号。该模型的特征与多种实证研究得出的结论一致。
梦境
记忆巩固
计算模型
神经重放
学习
论文重点探讨了梦境与记忆巩固的关系,涉及记忆机制但非唯一主题。
分享
夯
0
拉
0
Scaling In-Context Online Learning Capability of LLMs via Cross-Episode Meta-RL
Xiaofeng Lin, Sirou Zhu, Yilei Chen, Mingyu Chen, Hejian Sang et al.
大型语言模型(LLMs)在所有任务相关信息提前可用的情况下表现出色,如静态预测和指令遵循问题。然而,许多现实世界中的决策任务本质上是在线的:关键信息必须通过交互获取,反馈延迟,并且有效行为需要在时间上平衡信息收集和利用。尽管上下文学习使模型能够在不更新权重的情况下进行适应,但现有LLMs通常难以可靠地利用上下文交互经验。本文表明,这一限制可以通过训练来解决。我们引入了ORBIT,一个支持多任务、多回合的元强化学习框架,用于训练LLMs从上下文交互中学习。经过元训练后,一个相对较小的开源模型(Qwen3-14B)在完全未见过的环境中表现出显著改进的上下文在线学习能力,其性能可与GPT-5.2媲美,并大幅优于标准的强化学习微调方法。扩展实验进一步表明,随着模型规模增大,性能持续提升,表明推理时学习决策代理具有较大的提升空间。
LLM
在线学习
元强化学习
Agent Memory
上下文学习
论文探讨了LLM在在线学习中的记忆利用问题,提出通过跨回合元强化学习提升其能力,与Agent Memory相关。
分享
Code
夯
0
拉
0
Neural Attention Search Linear: Towards Adaptive Token-Level Hybrid Attention Models
Difan Deng, Andreas Bentzen Winje, Lukas Fehring, Marius Lindauer
Softmax变压器在长上下文场景中的二次计算复杂度已成为瓶颈。相比之下,线性注意力模型家族为更高效的序列模型提供了有前途的方向。这些线性注意力模型将过去的KV值压缩到一个隐藏状态中,从而在训练和推理过程中高效地降低复杂度。然而,它们的表现力仍受限于隐藏状态的大小。先前的工作提出通过交错softmax和线性注意力层来减少计算复杂度同时保持表现力。然而,这些模型的效率仍然受到softmax注意力层的限制。本文提出了Neural Attention Search Linear(NAtS-L),一种框架,在同一层内对不同标记应用线性注意力和softmax注意力操作。NAtS-L自动确定某个标记是否可以由线性注意力模型处理,即仅具有短期影响并可编码为固定大小隐藏状态的标记,或需要softmax注意力处理,即包含与长期检索相关的信息并需保留以供未来查询的标记。通过在标记间搜索最优的Gated DeltaNet和softmax注意力组合,我们表明NAtS-L提供了一种强大而高效的标记级混合架构。
注意力机制
混合模型
线性注意力
Agent Memory
序列建模
论文探讨了混合注意力机制,涉及对记忆状态的处理和选择性编码,与Agent Memory相关。
分享
夯
0
拉
0
Mitigating Conversational Inertia in Multi-Turn Agents
Yang Wan, Zheng Cao, Zhenhao Zhang, Zhengwen Zeng, Shuheng Shen et al.
大型语言模型在提供适当示例时表现出优秀的少样本学习能力,但在多轮代理场景中,这种优势却导致模型错误地模仿其先前响应作为少样本示例。通过注意力分析,我们识别出会话惯性现象,即模型对先前响应表现出强烈的对角线注意力,这与限制探索的模仿偏差相关。这揭示了将少样本LLM转化为代理时的矛盾:更长的上下文可以丰富环境反馈以用于利用,但也加剧了会话惯性,从而削弱探索。我们的关键见解是,对于相同的状态,使用更长上下文生成的动作表现出更强的惯性,这使得可以在没有环境奖励的情况下构建偏好对。基于此,我们提出上下文偏好学习方法,校准模型偏好以优先选择低惯性响应。此外,我们在推理时提供了上下文管理策略,以平衡探索与利用。实验结果表明,我们的框架在八个代理环境中和一个深度研究场景中有效减少了会话惯性并提升了性能。
会话惯性
上下文管理
探索与利用平衡
代理系统
论文探讨了多轮对话中模型对历史响应的注意力偏差(即会话惯性),与Agent Memory中的探索与利用平衡密切相关。
分享
夯
0
拉
0
CL-bench: A Benchmark for Context Learning
Shihan Dou, Ming Zhang, Zhangyue Yin, Chenhao Huang, Yujiong Shen et al.
当前的语言模型在使用预训练知识进行提示推理方面表现出色,但现实任务更加复杂且依赖于上下文。模型需要从特定任务的上下文中学习,并利用超出预训练范围的新知识来解决任务。本文提出CL-bench,这是一个包含500个复杂上下文、1899个任务和31607个验证标准的现实世界基准测试,由领域专家设计。每个任务所需的新内容均包含在对应的上下文中。解决CL-bench任务需要模型从上下文中学习,包括新的领域知识、规则系统、复杂程序以及从经验数据中得出的法律等。评估结果显示,十种前沿语言模型平均仅能解决17.2%的任务,最佳模型GPT-5.1也仅能解决23.7%,表明当前模型尚未实现有效的上下文学习能力,这成为处理现实复杂任务的关键瓶颈。CL-bench为构建具备此基础能力的语言模型提供了重要一步。
上下文学习
语言模型评估
基准测试
知识获取
论文探讨了模型从上下文学习新知识的能力,与Agent Memory中动态学习和利用上下文信息密切相关。
分享
夯
0
拉
0
Use Graph When It Needs: Efficiently and Adaptively Integrating Retrieval-Augmented Generation with Graphs
Su Dong, Qinggang Zhang, Yilin Xiao, Shengyuan Chen, Chuang Zhou et al.
Su Dong (The Hong Kong Polytechnic
UniversityHung HomKowloonHong Kong) | Qinggang Zhang (The Hong Kong Polytechnic
UniversityHung HomKowloonHong Kong) | Yilin Xiao (The Hong Kong Polytechnic
UniversityHung HomKowloonHong Kong)
大型语言模型(LLMs)在知识密集型任务中常因幻觉和过时参数知识而表现不佳。尽管检索增强生成(RAG)通过整合外部语料库来解决这一问题,但其效果受到非结构化领域文档中碎片化信息的限制。图增强RAG(GraphRAG)通过结构化知识图谱增强了上下文推理能力,但在实际场景中却表现出显著的准确性下降和不可接受的延迟,尽管在复杂查询上有所提升。我们发现,GraphRAG对所有查询(无论复杂度如何)的刚性应用是根本原因。为了解决这一问题,我们提出了一种高效且自适应的GraphRAG框架EA-GraphRAG,通过语法感知的复杂度分析动态集成RAG和GraphRAG范式。我们的方法包括:(i) 一个句法特征构造器,解析每个查询并提取一组结构特征;(ii) 一个轻量级复杂度评分器,将这些特征映射到连续的复杂度评分;以及(iii) 一种基于评分的路由策略,对低评分查询选择密集型RAG,对高评分查询调用基于图的检索,并对边界情况应用复杂度感知的倒数排名融合。在包含两个单跳和两个多跳问答基准的全面基准测试中,我们的EA-GraphRAG显著提高了准确性,减少了延迟,并在处理混合场景(包含简单和复杂查询)方面达到了最先进的性能。
GraphRAG
RAG
知识图谱
检索增强生成
复杂度分析
论文涉及GraphRAG与RAG的结合,用于增强记忆检索和推理,属于Agent Memory相关研究。
分享
夯
0
拉
0
CRL-VLA: Continual Vision-Language-Action Learning
Qixin Zeng, Shuo Zhang, Hongyin Zhang, Renjie Wang, Han Zhao et al.
在开放世界环境中,终身学习对于具身智能体至关重要,强化学习微调已被证明是使视觉-语言-动作(VLA)模型通过环境交互掌握灵巧操作的重要范式。因此,持续强化学习(CRL)是将VLA模型部署于终身机器人场景中的有前途的路径,但现有方法在保持旧技能(稳定性)和学习新技能(可塑性)之间的平衡仍面临巨大挑战。本文提出CRL-VLA框架,用于VLA模型的持续后训练,并具有严格的理论界限。我们推导出一个统一的性能边界,将稳定性-可塑性权衡与目标条件优势幅度联系起来,并由策略差异进行缩放。CRL-VLA通过非对称调节解决这一困境:限制先前任务的优势幅度,同时允许新任务的受控增长。这通过一种简单而有效的双评论家架构实现,该架构采用新的目标条件价值公式(GCVF),其中冻结的评论家锚定语义一致性,而可训练的估计器驱动适应。在LIBERO基准上的实验表明,CRL-VLA有效地协调了这些冲突目标,在防止遗忘和向前适应方面优于基线方法。
持续学习
视觉-语言-动作模型
强化学习
记忆管理
机器人学习
论文涉及持续学习中的稳定性与可塑性平衡,与Agent Memory机制密切相关。
分享
夯
0
拉
0
A-RAG: Scaling Agentic Retrieval-Augmented Generation via Hierarchical Retrieval Interfaces
Mingxuan Du, Benfeng Xu, Chiwei Zhu, Shaohan Wang, Pengyu Wang et al.
Chiwei Zhu (University of Science and Technology of China)
前沿语言模型已展现出强大的推理和长期工具使用能力。然而,现有的RAG系统未能充分利用这些能力,仍依赖于两种范式:(1)设计一种算法一次性检索段落并将其连接到模型输入中,或(2)预定义工作流程并提示模型逐步执行。这两种范式均不允许模型参与检索决策,从而限制了其随着模型改进而高效扩展的能力。本文提出了A-RAG,一种面向智能体的RAG框架,直接向模型暴露分层检索接口。A-RAG提供了三种检索工具:关键词搜索、语义搜索和块读取,使智能体能够跨多个粒度自适应地搜索和检索信息。在多个开放域问答基准测试中的实验表明,A-RAG在可比或更低的检索token数量下始终优于现有方法,证明了A-RAG有效利用模型能力并动态适应不同的RAG任务。我们进一步系统研究了A-RAG如何随模型规模和测试时计算量扩展。我们将发布我们的代码和评估套件以促进未来研究。
RAG
智能体
检索增强生成
分层检索
信息检索
论文提出A-RAG框架,通过分层检索接口增强模型的检索能力,与Agent Memory相关。
分享
Code
夯
0
拉
0
MedSAM-Agent: Empowering Interactive Medical Image Segmentation with Multi-turn Agentic Reinforcement Learning
Shengyuan Liu, Liuxin Bao, Qi Yang, Wanting Geng, Boyun Zheng et al.
医学图像分割正从任务特定模型向通用框架发展。近期研究利用多模态大语言模型(MLLMs)作为自主代理,采用可验证奖励的强化学习(RLVR)来协调专用工具如Segment Anything Model(SAM)。然而,这些方法通常依赖单轮、僵化的交互策略,并缺乏训练过程中的过程级监督,限制了其对交互工具动态潜力的充分利用并导致冗余操作。为弥补这一不足,我们提出MedSAM-Agent框架,将交互式分割重新定义为多步骤自主决策过程。首先,我们引入一种混合提示策略以生成专家标注的轨迹,使模型能够内化类似人类的决策启发式和自适应优化策略。此外,我们开发了一个两阶段训练流程,结合多轮端到端结果验证与临床保真度过程奖励设计,以促进交互简洁性和决策效率。在6种医学模态和21个数据集上的广泛实验表明,MedSAM-Agent实现了最先进的性能,有效统一了自主医学推理与稳健的迭代优化。
医学图像分割
多模态大语言模型
强化学习
交互式分割
智能体训练
论文涉及多轮交互与过程级奖励机制,与Agent Memory相关但非唯一主题。
分享
Code
夯
0
拉
0
Accordion-Thinking: Self-Regulated Step Summaries for Efficient and Readable LLM Reasoning
Zhicheng Yang, Zhijiang Guo, Yinya Huang, Yongxin Wang, Wenlei Shi et al.
Zhicheng YANG (Sun Yat-Sen University)
通过扩展推理时的计算量,长链式推理(Chain-of-Thought)显著提升了模型的推理能力,但由于键值缓存线性增长和注意力复杂度二次增长,其面临实际限制。本文提出Accordion-Thinking,一种端到端框架,使LLM能够通过动态摘要自我调节推理步骤的粒度。该机制支持Fold推理模式,模型定期对其思考过程进行摘要并丢弃之前的思考,从而减少对历史token的依赖。我们应用强化学习进一步激励这一能力,发现Fold模式与Unfold模式之间的准确率差距在训练过程中逐渐缩小并最终消失。这表明模型学会了将关键推理信息编码为紧凑摘要,实现推理上下文的有效压缩。我们的Accordion-Thinker证明,在学习自压缩后,LLM可以在不牺牲解的质量的前提下,以极小的历史token开销处理复杂推理任务,并在48GB GPU内存配置下实现3倍的吞吐量,同时结构化的步骤摘要提供了可读的推理过程说明。
LLM推理
动态摘要
推理压缩
强化学习
Agent Memory
论文提出通过动态总结机制减少对历史token的依赖,与Agent Memory相关,但非唯一主题。
分享
夯
0
拉
0
DynSplit-KV: Dynamic Semantic Splitting for KVCache Compression in Efficient Long-Context LLM Inference
Jiancai Ye, Jun Liu, Qingchen Li, Tianlang Zhao, Hanbin Zhang et al.
尽管键值(KV)缓存在高效大语言模型(LLM)推理中至关重要,但在长上下文场景下其内存占用不断增长,成为显著瓶颈,因此KV缓存压缩变得尤为重要。当前的压缩方法依赖于固定的分割策略,如固定间隔或预定义分隔符。然而,这种刚性分割在不同场景下会导致显著的精度下降(5.5%至55.1%),因为语义边界具有场景依赖性。为此,本文提出了一种名为DynSplit-KV的KV缓存压缩方法,通过动态识别分隔符实现语义对齐。该方法包括两个创新点:(1)一种基于重要性感知的动态分隔符选择策略,提升了49.9%的精度;(2)一种统一映射策略,将可变长度的语义块转换为固定长度格式,减少了4.9倍的推理开销。实验表明,DynSplit-KV在长上下文场景中实现了最高精度,并相比FlashAttention实现了2.2倍的速度提升和2.6倍的峰值内存减少。
KV Cache
语义分割
压缩算法
长上下文推理
论文聚焦KVCache压缩,与Agent Memory中的上下文管理密切相关,但非唯一主题。
分享
夯
0
拉
0
Understanding Multi-Agent LLM Frameworks: A Unified Benchmark and Experimental Analysis
Abdelghny Orogat, Ana Rostam, Essam Mansour
多智能体LLM框架被广泛用于加速基于大语言模型的智能体系统开发。这些框架通过特定的架构结构来规范智能体之间的交互、信息存储和任务协调。然而,其对系统性能的影响尚不明确。本文提出了一种架构分类法,并开发了MAFBench统一评估套件,以在标准化执行流程下对多个能力进行联合评估。实验结果表明,框架级别的设计选择可能显著影响延迟、规划准确性和协调成功率。最后,作者将研究结果转化为具体的架构设计原则和框架选择指南,并提出了未来的研究方向。
多智能体系统
LLM框架
性能评估
记忆行为
论文涉及多智能体LLM框架中的记忆行为评估,是关键部分但非唯一主题。
分享
夯
0
拉
0
FedKRSO: Communication and Memory Efficient Federated Fine-Tuning of Large Language Models
Guohao Yang, Tongle Wu, Yuanxiong Guo, Ying Sun, Yanmin Gong
微调是将通用大语言模型(LLMs)适应到特定领域任务的关键。联邦学习(FL)作为一种隐私保护框架,在LLM微调中日益受到关注,但面临传输完整模型参数和计算完整梯度的高成本问题。尽管参数高效微调(PEFT)方法被广泛用于降低通信和内存成本,但通常会牺牲模型性能。本文提出FedKRSO(联邦K-种子随机子空间优化),一种在联邦环境中实现通信和内存高效微调的新方法。在FedKRSO中,客户端在服务器生成的共享随机低维子空间内更新模型以节省内存使用。此外,客户端在每轮联邦学习中仅发送沿子空间的模型更新累加器,从而实现高效的全局模型聚合和分发。通过这些策略,FedKRSO显著减少了通信和内存开销,同时克服了PEFT的性能限制,接近联邦全量微调的性能。在GLUE基准测试中的广泛实验表明,FedKRSO在多种联邦学习场景下均表现出优越的性能和较低的通信与内存开销,为资源受限边缘设备上的联邦LLM微调铺平了道路。
联邦学习
大语言模型
参数高效微调
内存优化
通信效率
论文提出FedKRSO方法,通过低维子空间减少内存和通信开销,与Agent Memory相关。
分享
夯
0
拉
0
From Perception to Action: Spatial AI Agents and World Models
Gloria Felicia, Nolan Bryant, Handi Putra, Ayaan Gazali, Eliel Lobo et al.
尽管大型语言模型已成为代理推理和规划的主要方法,但其在符号域的成功难以直接应用于物理世界。空间智能,即感知三维结构、推理物体关系并在物理约束下行动的能力,是具身代理的重要能力。现有综述分别单独探讨代理架构或空间领域,未提供统一框架。本文通过回顾2000多篇论文,提出一个连接代理能力和空间任务的三轴分类体系。关键发现包括:分层记忆系统对长期空间任务至关重要;GNN-LLM集成对结构化空间推理有前景;世界模型对跨尺度安全部署必不可少。最后,本文指出了六个重大挑战,并提出了未来研究方向。
空间智能
代理系统
记忆系统
世界模型
GNN-LLM集成
论文提及了记忆系统在空间智能中的重要性,但并非核心研究主题。
分享
夯
0
拉
0
DeltaEvolve: Accelerating Scientific Discovery through Momentum-Driven Evolution
Jiachen Jiang, Tianyu Ding, Zhihui Zhu
基于LLM的进化系统在自动化科学发现中展现出潜力,但现有方法如AlphaEvolve依赖完整的代码历史,导致上下文效率低下且进化指导较弱。本文将进化代理形式化为一个通用的期望最大化框架,在E步中语言模型生成候选程序,M步中系统根据评估反馈更新控制上下文。传统的完整代码快照作为M步实现方式存在冗余细节,削弱了核心算法思想的表达。为此,本文提出DeltaEvolve,一种动量驱动的进化框架,用结构化的语义差分代替完整代码历史,记录连续节点间修改如何及为何影响性能。由于程序通常可分解,语义差分包含许多可转移的有效组件,能更有效地推动改进。通过多级数据库和渐进披露机制组织语义差分,进一步减少输入标记数量。实验证明,该框架在多个科学领域任务中,相比基于完整代码的进化代理,能以更少的标记消耗发现更优解。
进化算法
语义差分
LLM代理
上下文优化
科学发现
论文提出DeltaEvolve框架,通过语义差分替代完整代码历史,优化进化过程中的上下文表示,与Agent Memory相关。
分享
夯
0
拉
0
Minimal Computational Preconditions for Subjective Perspective in Artificial Agents
Hongju Pae
本研究通过一个最小的、现象学驱动的内部结构来实现人工代理中的主观视角。该视角被实现为一个缓慢演变的全局潜在状态,它调节快速的策略动态,但不直接优化行为结果。在无奖励且存在制度转变的环境中,这种潜在结构表现出方向依赖性的滞后效应,而策略层面的行为则相对反应性较强。作者认为,这种滞后效应构成了机器系统中类似主观视角的可测量特征。
主观视角
潜在状态
滞后效应
Agent Memory
论文探讨了人工代理的主观视角,涉及潜在状态与记忆相关的滞后现象,属于Agent Memory相关研究。
分享
夯
0
拉
0
Joint Learning of Hierarchical Neural Options and Abstract World Model
Wasu Top Piriyakulkij, Wolfgang Lehrach, Kevin Ellis, Kevin Murphy
构建能够通过组合现有技能来学习新技能的智能体是AI代理研究的长期目标。为此,本文探讨了如何高效地获取一系列技能,形式化为分层神经选项。然而,现有的无模型分层强化学习算法需要大量数据。我们提出了一种新的方法,称为AgentOWL(Option and World model Learning Agent),该方法以样本高效的方式联合学习一个抽象世界模型(同时对状态和时间进行抽象)以及一组分层神经选项。我们在一组以物体为中心的Atari游戏中进行了实验,结果表明,与基线方法相比,我们的方法在使用更少数据的情况下可以学习到更多的技能。
分层强化学习
世界模型
技能学习
样本效率
论文提出联合学习抽象世界模型与分层神经选项,涉及记忆机制,但非唯一主题。
分享
夯
0
拉
0
Provable Effects of Data Replay in Continual Learning: A Feature Learning Perspective
Meng Ding, Jinhui Xu, Kaiyi Ji
持续学习(CL)旨在使模型在一系列任务上进行训练,同时保持对先前任务的性能。该设置中的核心挑战是灾难性遗忘,即新学习会干扰旧知识。在各种缓解策略中,数据重放方法通过定期回顾过去样本被认为简单而有效,尤其是在内存约束较宽松的情况下。然而,关于全数据重放(训练过程中可以访问所有历史数据)的理论有效性仍鲜有研究。本文从特征学习的角度出发,提出了一种全面的理论框架来分析持续学习中的全数据重放训练。采用多视图数据模型,我们识别出信噪比(SNR)是影响遗忘的关键因素。针对跨M个任务的任务增量二分类问题,我们的分析验证了两个关键结论:(1)当后期任务的累积噪声主导早期任务的信号时,即使在全数据重放下仍可能发生遗忘;(2)随着信号积累,数据重放可以恢复早期任务,即使其初始学习表现较差。值得注意的是,我们发现了一个新的任务排序见解:优先处理高信号任务不仅有助于低信号任务的学习,还能防止灾难性遗忘。我们通过合成和现实世界的实验验证了这些理论发现,并可视化了不同信噪比和任务相关性条件下的信号学习与噪声记忆之间的相互作用。
持续学习
数据重放
特征学习
灾难性遗忘
信噪比
论文探讨了数据重放对持续学习中记忆的影响,与Agent Memory相关但非唯一主题。
分享
夯
0
拉
0
From Task Solving to Robust Real-World Adaptation in LLM Agents
Pouya Pezeshkpour, Estevam Hruschka
Pouya Pezeshkpour (University of California Irvine)
大型语言模型越来越多地被部署为专门的代理,用于规划、调用工具并在长时域内采取行动。然而,许多现有评估假设了一个“干净的接口”,其中动态是明确且稳定的,工具和传感器是可靠的,成功由单一显式目标衡量,这往往高估了其在现实世界中的准备程度。实际上,代理面临规则不明确、信号不可靠、环境变化以及隐含的多利益相关者目标。因此,挑战不仅是解决问题,而是在解决问题的同时进行适应:决定信任什么、想要什么、何时验证以及何时回退或升级。我们通过四种操作情境对部署相关的鲁棒性进行了压力测试:部分可观测性、动态环境、噪声信号和动态代理状态。我们在一个基于网格的游戏环境中对代理型LLM进行了基准测试,该游戏具有简单的目标但需要长时域执行。这些场景违反了“干净接口”的假设,但仍可解决,迫使代理推断规则、支付信息成本、适应环境和内部变化,并在噪声下谨慎行动。通过对五种最先进的LLM代理的测试,我们发现名义上的任务求解能力与类似部署的鲁棒性之间存在显著差距。随着网格大小和时间跨度的增加,性能通常下降,但排名不稳定:当策略与不确定性环境匹配时,较弱的模型可能击败较强的模型。尽管没有明确指示,代理仍然在完成度、效率和避免惩罚之间进行权衡,表明它们能够部分推断目标。消融实验和特征分析揭示了模型特定的敏感性和失败驱动因素,推动了在部分可观测性、噪声和非平稳性下的验证、安全动作选择和目标推断的研究。
LLM Agents
Robustness
Partial Observability
Dynamic Environments
Objective Inference
论文探讨了LLM Agent在复杂环境中的适应性,涉及部分可观测性和噪声等与记忆相关的挑战。
分享
夯
0
拉
0
ATLAS : Adaptive Self-Evolutionary Research Agent with Task-Distributed Multi-LLM Supporters
Ujin Jeon, Jiyong Kwon, Madison Ann Sullivan, Caleb Eunho Lee, Guang Lin
近期的多LLM代理系统在提示优化和自动化问题求解方面表现出色,但许多系统在微调后保持求解器冻结或依赖静态偏好优化循环,这在长期任务中变得难以处理。我们提出了ATLAS(用于代理自进化的任务分布式学习),一个任务分布框架,该框架通过迭代开发轻量级研究代理,并将探索、超参数调整和参考策略管理等互补角色委托给专门的支持代理。我们的核心算法EvoDPO(进化直接偏好优化)能够自适应地更新阶段索引的参考策略。我们为概念漂移下的基于偏好的上下文老虎机提供了理论遗憾分析。此外,在非平稳线性上下文老虎机和科学机器学习(SciML)损失重新加权(以1D Burgers方程为例)上进行了实验。结果表明,ATLAS在稳定性与性能上优于静态单代理基线。
多LLM协作
自进化代理
偏好优化
上下文老虎机
论文涉及Agent的自进化机制和多LLM协作,与记忆相关但非核心主题。
分享
夯
0
拉
0
daVinci-Agency: Unlocking Long-Horizon Agency Data-Efficiently
Mohan Jiang, Dayuan Fu, Junhao Shi, Ji Zeng, Weiye Si et al.
尽管大型语言模型(LLMs)在短期任务中表现出色,但将其扩展到长期目标代理工作流程仍面临挑战。核心瓶颈在于缺乏能够捕捉真实长期依赖结构和跨阶段演化动态的训练数据。现有合成方法要么局限于受模型分布约束的单一特征场景,要么需要高昂的人工标注成本,无法提供可扩展的高质量监督。本文通过重新审视现实世界中的软件演化过程,提出了一种基于Pull Request(PR)序列的数据合成方法。PR序列自然包含了长期学习所需的监督信号,将复杂目标分解为可验证的提交单元,并通过错误修复历史编码真实的优化模式。基于此,我们提出了daVinci-Agency,通过三个相互关联的机制系统地挖掘链式PR中的结构化监督:(1) 通过连续提交进行渐进式任务分解;(2) 通过统一的功能目标强制长期一致性;(3) 从真实的错误修复轨迹中实现可验证的优化。与独立处理每一步的合成轨迹不同,daVinci-Agency的PR基础结构天然保留了因果依赖和迭代优化,有助于教授持续的目标导向行为,并自然对齐项目级、全周期任务建模。
Agent Memory
数据合成
长期目标学习
软件演化
LLM微调
论文涉及长期目标导向行为的训练数据生成,与Agent Memory中的因果依赖和迭代优化相关。
分享
夯
0
拉
0
Fine-Tuning Language Models to Know What They Know
Sangjun Park, Elliot Meyerson, Xin Qiu, Risto Miikkulainen
元认知是智能的重要组成部分,尤其涉及对自身知识的意识。虽然人类依赖共享的内部记忆来回答问题并报告其知识状态,但这种依赖在大型语言模型(LLMs)中仍鲜有研究。本研究提出了一种框架,使用双提示方法测量元认知能力 $d_{
m{type2}}'$,随后引入用于元认知对齐的进化策略(ESMA),以将模型的内部知识与其显式行为绑定。ESMA在多种未训练设置中表现出强大的泛化能力,表明模型参考自身知识的能力有所增强。此外,参数分析表明这些改进源于一组关键的稀疏修改。
元认知
知识对齐
LLM微调
内部记忆
论文探讨了LLM的元认知能力与知识状态,涉及模型内部知识与其行为的对齐,与Agent Memory相关。
分享
夯
0
拉
0
Avenir-Web: Human-Experience-Imitating Multimodal Web Agents with Mixture of Grounding Experts
Aiden Yiliu Li, Xinyue Hao, Shilong Liu, Mengdi Wang
尽管多模态大语言模型取得进展,自主网页智能体在复杂动态网页界面上执行长周期任务仍面临挑战。现有方法常受限于元素定位不准、缺乏站点特定流程知识,以及在复杂DOM结构中长期任务跟踪与记忆不稳定。为此,本文提出Avenir-Web,在真实部署环境下于Online-Mind2Web基准上达到开源新SOTA。该系统结合混合定位专家、经验模仿规划以引入流程先验,并采用任务追踪清单与自适应记忆机制,实现跨多样化用户界面的鲁棒交互。实验表明,Avenir-Web显著优于先前开源智能体,性能媲美顶尖闭源模型。
Agent Memory
Web Agents
提出自适应记忆机制用于长期任务跟踪,是关键但非唯一核心。
分享
夯
0
拉
0
ReasonCACHE: Teaching LLMs To Reason Without Weight Updates
Sharut Gupta, Phillip Isola, Stefanie Jegelka, David Lopez-Paz, Kartik Ahuja et al.
大语言模型(LLMs)能否仅通过上下文学习(ICL)而无需任何权重更新来掌握推理能力?尽管ICL样本效率高,但在复杂推理任务中需大量示例,而简单扩展上下文会因注意力成本剧增、性能饱和或下降而失效。本文提出ReasonCACHE,利用前缀调优将示例蒸馏为固定键值缓存,在不占用上下文窗口且不更新模型权重的前提下实现高效推理。在GPQA-Diamond等挑战性基准上,其性能优于标准ICL,并媲美甚至超越基于权重更新的方法,同时在数据效率、推理开销和可训练参数数量上更具优势。理论上,ReasonCACHE比低秩权重更新更具表达能力,因其绕过了输入秩对表达力的限制。
in-context learning
key-value cache
提出基于固定KV缓存的推理机制,涉及记忆存储与检索,但非以Agent Memory为核心目标。
分享
Code
夯
0
拉
0
TIDE: Trajectory-based Diagnostic Evaluation of Test-Time Improvement in LLM Agents
Hang Yan, Xinyu Che, Fangzhi Xu, Qiushi Sun, Zichen Ding et al.
近期自主大语言模型(LLM)智能体展现出通过与环境迭代交互提升性能的能力,本文将其定义为“测试时改进”(Test-Time Improvement, TTI)。然而,TTI成功或失败的内在机制尚不明确,现有评估指标难以刻画任务优化效率、错误行为后的适应能力,以及工作记忆对任务完成的具体效用。为此,本文提出TIDE(Test-time Improvement Diagnostic Evaluation)框架,该框架与智能体和环境无关,将TTI分解为三个相互关联的维度:(1)任务完成的整体时间动态,(2)性能是否受限于递归循环行为,(3)是否受累于累积记忆负担。大量实验表明,提升智能体性能不仅依赖内部推理扩展,更需显式优化智能体与环境的交互动态。
Agent Memory
Test-Time Improvement
论文聚焦TTI评估,将工作记忆作为关键维度之一进行分析。
分享
夯
0
拉
0
State Rank Dynamics in Linear Attention LLMs
Ao Sun, Hongtao Zhang, Heng Zhou, Yixuan Ma, Yiran Qin et al.
线性注意力大语言模型(LLMs)通过将上下文压缩为固定大小的状态矩阵,提供了一种高效的循环推理形式,实现常数时间推理。然而,该压缩状态的内部动态尚不清晰。本文对当前先进线性注意力模型的运行时状态动态进行了系统研究,揭示了一种称为“状态秩分层”的基本现象:不同注意力头在谱特性上呈现明显分化——一组头的有效秩趋近于零并持续振荡,另一组则迅速增长并收敛至上界。大量实验表明,这种动态在不同推理场景下高度一致,说明头的低秩或高秩属性是预训练阶段获得的固有结构特征,而非输入依赖的瞬态表现。进一步分析发现,低秩头对模型推理至关重要,而高秩头则具有显著冗余。基于此,作者提出联合秩范数剪枝策略,在零样本设置下减少38.9%的KV缓存开销,同时基本保持模型精度。
线性注意力
状态压缩
KV缓存优化
模型剪枝
研究线性注意力LLM的内部状态动态,涉及上下文压缩与KV缓存,属记忆机制关键部分。
分享
夯
0
拉
0
Edit Knowledge, Not Just Facts via Multi-Step Reasoning over Background Stories
Ya Gao, Kalle Kujanpää, Pekka Marttinen, Harri Valpola, Alexander Ilin
使人工智能系统(尤其是大语言模型)能够整合新知识并在推理中灵活应用,仍是一项核心挑战。现有知识编辑方法侧重于原子事实,虽提升事实回忆能力,却难以将新信息融入可跨情境使用的连贯框架。本文认为知识内化本质上是推理问题而非记忆问题,因此提出一种基于三原则的训练策略:首先,以连贯的背景故事引入新知识;其次,利用模型自生成的多跳问题进行多步推理训练;最后,通过知识蒸馏使学生模型在无法访问新信息的情况下内化教师的推理行为。实验表明,该策略能有效支持模型在推理中利用新知识,并在需融合多个新事实的复杂问题上表现卓越。
知识编辑
多步推理
聚焦知识内化与推理,涉及记忆整合但非直接研究记忆机制。
分享
夯
0
拉
0
FlyPrompt: Brain-Inspired Random-Expanded Routing with Temporal-Ensemble Experts for General Continual Learning
Hongwei Yan, Guanglong Sun, Kanglei Zhou, Qian Li, Liyuan Wang et al.
通用持续学习(GCL)要求智能系统在无明确任务边界、单次遍历的非平稳数据流中持续学习。现有基于预训练模型的参数高效微调方法通常依赖多轮训练和显式任务提示,难以适用于GCL场景,且缺乏对专家参数分配与表征能力提升的针对性设计。受果蝇具有稀疏扩展与模块化集成特性的分层记忆系统启发,本文提出FlyPrompt框架,将GCL分解为专家路由与专家能力提升两个子问题,引入随机扩展的解析路由器实现样本级专家激活,并采用输出头的时间集成动态调整决策边界。实验表明,FlyPrompt在CIFAR-100、ImageNet-R和CUB-200上分别超越当前最优基线达11.23%、12.43%和7.62%。
持续学习
脑启发架构
受果蝇分层记忆系统启发,提出专家路由与集成机制,涉及记忆结构但非LLM Agent核心记忆研究。
分享
Code
夯
0
拉
0
Breaking the Static Graph: Context-Aware Traversal for Robust Retrieval-Augmented Generation
Kwun Hang Lau, Fangyuan Zhang, Boyu Ruan, Yingli Zhou, Qintian Guo et al.
近期检索增强生成(RAG)研究从简单向量相似性转向结构感知方法,如HippoRAG,利用知识图谱(KG)和个性化PageRank捕捉多跳依赖。然而,此类方法存在“静态图谬误”:其转移概率在索引阶段固定,忽视了边相关性对查询的依赖性,导致语义漂移,使随机游走偏向高连接度“枢纽”节点,难以获取完整证据链。为此,本文提出CatRAG——一种上下文感知遍历框架,在HippoRAG 2基础上将静态KG转化为查询自适应导航结构,通过符号锚定、查询感知动态边权重调整及关键事实段落权重增强三项机制引导随机游走。在四个多跳基准上的实验表明,CatRAG显著提升推理完整性,有效弥合部分上下文检索与全证据链推理之间的差距。
检索增强生成
知识图谱
多跳推理
上下文感知
论文聚焦RAG中的检索机制,涉及记忆结构的动态构建与利用,但未直接研究Agent Memory架构。
分享
Code
夯
0
拉
0
VLM-Guided Experience Replay
Elad Sharony, Tom Jurgenson, Orr Krupnik, Dotan Di Castro, Shie Mannor
近期大语言模型(LLMs)与视觉语言模型(VLMs)的发展为强化学习(RL)带来了强大的语义与多模态推理能力,有助于提升样本效率、高层规划与可解释性。尽管已有研究将LLMs和VLMs集成到RL的多个组件中,但作为存储与重用经验的核心组件——经验回放缓冲区仍未被充分探索。本文提出利用VLM指导回放缓冲区中经验的优先级排序,核心思想是使用一个冻结的预训练VLM(无需微调)作为自动评估器,识别并优先选择智能体经验中的高潜力子轨迹。在涵盖游戏与机器人、离散与连续动作空间的多种场景中,采用该方法的智能体相比现有方法平均成功率提升11–52%,样本效率提高19–45%。
经验回放
视觉语言模型
聚焦经验回放缓冲区的优先级机制,属记忆管理关键环节。
分享
夯
0
拉
0
COMI: Coarse-to-fine Context Compression via Marginal Information Gain
Jiwei Tang, Shilei Liu, Zhicheng Zhang, Yujin Yuan, Libin Zheng et al.
大语言模型(LLMs)在多种任务中表现出色,但在长上下文场景中仍受限于计算低效与信息冗余。本文提出COMI——一种由粗到精的自适应上下文压缩框架,在高压缩率下联合优化语义相关性与多样性。我们引入边际信息增益(MIG)指标,定义为文本单元对查询的相关性减去其与其他单元的语义冗余,以此指导保留高相关、低冗余信息。该框架包含两个阶段:(1) 粗粒度分组重分配,依据组间MIG动态分配压缩率;(2) 细粒度词元融合,基于组内MIG加权合并词元以保留关键语义。在多个问答与摘要数据集上的实验表明,COMI显著优于现有方法,例如在NaturalQuestions上使用Qwen2-7B、32倍压缩下Exact Match提升约25个百分点。
上下文压缩
长上下文建模
聚焦上下文压缩以提升LLM长程记忆效率,属记忆相关关键技术。
分享
夯
0
拉
0
S1-NexusAgent: a Self-Evolving Agent Framework for Multidisciplinary Scientific Research
S1-NexusAgent Team
现代科学研究依赖大规模数据、复杂工作流和专业工具,现有大语言模型及工具型智能体因长期规划能力弱、目标维持不稳及缺乏持续学习机制而难以胜任。本文提出S1-NexusAgent——一种面向多学科科研的自进化智能体框架。该框架采用分层的Plan-and-CodeAct执行范式,通过双循环架构解耦全局科研规划与子任务级工具执行,支持Model Context Protocol(MCP),集成数千种跨学科科研工具,并通过意图感知的动态工具检索与热插拔机制实现异构工具高效编排。针对科研场景中的长上下文与大数据挑战,引入基于对象引用的稀疏上下文管理,实现子任务上下文隔离与中间结果压缩。在此基础上,Critic Agent自动评估完整执行轨迹,提炼高质量科研路径为可复用的“科学技能”,形成持续自进化闭环。在生物、化学和材料科学等权威长周期科研基准上的实验表明,S1-NexusAgent达到最先进性能。
Agent Memory
Scientific AI
提出基于对象引用的稀疏上下文管理机制,涉及中间结果压缩与子任务上下文隔离,属于记忆相关技术。
分享
夯
0
拉
0
Toward Cognitive Supersensing in Multimodal Large Language Model
Boyi Li, Yifan Shen, Yuanzhe Liu, Yifan Xu, Jiateng Liu et al.
多模态大语言模型(MLLMs)在开放词汇感知任务中表现卓越,但在解决需抽象视觉细节和视觉记忆的复杂认知问题时仍显不足。现有方法主要在文本空间扩展思维链(CoT)推理,忽视了类人视觉空间画板与视觉心像机制。为此,本文提出“认知超感知”训练范式,通过引入潜在视觉心像预测(LVIP)头,联合学习视觉认知潜在嵌入序列并将其与答案对齐,构建基于视觉的内部推理链。进一步采用强化学习优化基于该视觉潜在表示的文本推理路径。作者还构建了CogSense-Bench评测基准,涵盖五个认知维度。实验表明,该方法显著优于现有基线,并在域外数学与科学VQA任务中展现更强泛化能力,表明内部视觉心像可能是连接感知识别与认知理解的关键。
视觉心像
多模态大语言模型
提出视觉心像机制,模拟人类视觉记忆,但未直接研究Agent Memory架构。
分享
夯
0
拉
0
A-MapReduce: Executing Wide Search via Agentic MapReduce
Mingju Chen, Guibin Zhang, Heng Chang, Yuchen Guo, Shiji Zhou
当前基于大语言模型(LLM)的多智能体系统在强调迭代式、垂直结构信息检索的深度研究任务中表现优异,但在面向大规模、广度优先的宽范围搜索任务中,现有以序列化垂直推理为主的智能体框架难以高效应对。为此,本文提出A-MapReduce,一种受MapReduce范式启发的多智能体执行框架,将宽搜索重构为水平结构的检索问题。该框架通过任务自适应分解与结构化结果聚合实现并行处理,并利用经验记忆驱动查询条件下的任务分配与重组持续演化,从而在大规模宽搜索场景中实现渐进式性能提升。在五个智能体基准上的实验表明,A-MapReduce不仅性能领先,且具备更优的成本效益与执行效率。
Agent Memory
Wide Search
论文利用经验记忆优化任务分配与重组,是宽搜索性能提升的关键机制。
分享
Code
夯
0
拉
0
Optimizing Agentic Reasoning with Retrieval via Synthetic Semantic Information Gain Reward
Senkang Hu, Yong Dai, Yuzhi Zhao, Yihang Tao, Yu Guo et al.
智能体推理使大型推理模型(LRMs)能够动态获取外部知识,但检索过程的优化仍因缺乏密集且原则性的奖励信号而具有挑战性。本文提出InfoReasoner框架,通过合成语义信息增益奖励激励高效的信息搜寻。理论上,我们将信息增益重新定义为模型信念状态的不确定性减少,并证明其具备非负性、望远镜可加性与信道单调性等性质。实践中,为避免依赖人工标注的检索数据,我们设计了一种输出感知的内生估计器,利用双向文本蕴涵进行语义聚类,直接从模型输出分布计算信息增益。该内生奖励引导策略最大化认知进展,并通过群组相对策略优化(GRPO)实现高效训练。在七个问答基准上的实验表明,InfoReasoner显著优于强基线检索增强方法,平均准确率最高提升5.4%。
智能体推理
信息检索
强化学习
语义表示
聚焦检索优化与信息获取,涉及记忆机制但非核心研究。
分享
夯
0
拉
0
DETOUR: An Interactive Benchmark for Dual-Agent Search and Reasoning
Li Siyan, Darshan Deshpande, Anand Kannappan, Rebecca Qian
人类在对话中回忆信息时常需多轮交互才能完成“话到嘴边”的检索过程,而现有智能体评估基准多局限于单轮设定。为更真实地模拟此类记忆检索场景,本文提出基于模糊与欠指定检索的双智能体评估基准DETOUR(Dual-agent based Evaluation Through Obscure Under-specified Retrieval),包含1,011个提示。该基准设有一个被评估的主智能体(Primary Agent)和一个在所有评估中保持一致的记忆智能体(Memory Agent),主智能体需通过查询后者来识别目标实体。实验表明,当前最先进的模型在涵盖文本、图像、音频和视频的多模态任务上仅达到36%的准确率,凸显了提升智能体在欠指定情境下记忆与推理能力的重要性。
Agent Memory
Interactive Retrieval
提出双智能体记忆交互框架,Memory Agent作为稳定记忆源,是任务关键组件。
分享
夯
0
拉
0
EHR-RAG: Bridging Long-Horizon Structured Electronic Health Records and Large Language Models via Enhanced Retrieval-Augmented Generation
Lang Cao, Qingyu Chen, Yue Guo
电子健康记录(EHR)提供了丰富的纵向临床证据,对医疗决策至关重要,促使研究者采用检索增强生成(RAG)来增强大语言模型(LLM)的预测可靠性。然而,长时程EHR常超出LLM上下文限制,现有方法多依赖截断或简单检索策略,易丢失临床相关事件及时间依赖性。为此,本文提出EHR-RAG框架,专为准确解读长时程结构化EHR数据设计,包含三个核心组件:事件与时间感知的混合EHR检索、自适应迭代检索,以及双路径证据检索与推理。在四项长时程EHR预测任务上的实验表明,EHR-RAG显著优于最强LLM基线,平均Macro-F1提升10.76%。
检索增强生成
电子健康记录
论文聚焦于长时程EHR数据的检索增强机制,涉及信息保留与动态访问,属记忆相关应用。
分享
夯
0
拉
0
A2RAG: Adaptive Agentic Graph Retrieval for Cost-Aware and Reliable Reasoning
Jiate Liu, Zebin Chen, Shaobo Qiao, Mingchen Ju, Danting Zhang et al.
图检索增强生成(Graph-RAG)通过将语料组织为知识图谱并利用关系结构路由证据,提升多跳问答性能。然而实际部署面临两大瓶颈:一是混合难度查询下统一检索策略导致成本浪费或性能不足;二是图抽象过程丢失源文本中的细粒度限定信息。本文提出A2RAG,一种自适应且具智能体特性的GraphRAG框架,结合自适应控制器(仅在必要时触发针对性精炼)与智能体检索器(逐步提升检索强度并将图信号映射回原始文本),以应对提取损失和图谱不完整问题。在HotpotQA和2WikiMultiHopQA上的实验表明,A2RAG在Recall@2指标上分别提升9.9和11.8个百分点,同时将token消耗与端到端延迟降低约50%。
检索增强生成
智能体记忆
涉及检索增强生成中的记忆机制,但聚焦于图检索与成本控制。
分享
夯
0
拉
0
DeepSearchQA: Bridging the Comprehensiveness Gap for Deep Research Agents
Nikita Gupta, Riju Chatterjee, Lukas Haas, Connie Tao, Andrew Wang et al.
Nikita Gupta (Equal Contribution) | Riju Chatterjee (Equal Contribution) | Lukas Haas (Equal Contribution)
本文提出DeepSearchQA,一个包含900个提示的基准测试,用于评估智能体在17个不同领域中执行复杂多步信息检索任务的能力。该基准聚焦于生成详尽答案列表所需的系统性搜索规划,明确考察三项关键但常被忽视的能力:跨异构来源的信息系统整合、去重与实体消歧以确保精确性,以及在开放搜索空间中对停止条件的推理能力。任务设计为因果链结构,要求智能体在长时程规划中保持上下文记忆。评估显示,当前先进智能体架构在召回率与精确率之间难以平衡,普遍存在过早终止或过度泛化等失败模式。
智能体记忆
信息检索
强调长程上下文保留与信息整合,涉及记忆机制但非核心主题
分享
夯
0
拉
0
Deep Researcher with Sequential Plan Reflection and Candidates Crossover (Deep Researcher Reflect Evolve)
Saurav Prateek
本文提出一种新型深度研究员架构,旨在生成博士级复杂主题的详尽研究报告,以克服并行扩展范式的固有局限。该系统包含两大创新:基于反思的顺序研究计划精炼机制和候选交叉算法。前者通过维护集中化的全局研究上下文,使智能体能在运行时回溯进展、推理并动态调整研究计划;后者则利用多个参数各异的大语言模型候选者探索更广搜索空间,并融合其发现以生成高事实密度的统一报告。在DeepResearch Bench基准上,该架构以46.21分超越现有主流深度研究智能体,验证了顺序扩展范式优于并行自一致性方法。
Agent Memory
Sequential Planning
论文提出全局研究上下文机制,涉及运行时记忆维护与回溯,属Agent Memory关键应用。
分享
夯
0
拉
0
Linear representations in language models can change dramatically over a conversation
Andrew Kyle Lampinen, Yuxuan Li, Eghbal Hosseini, Sangnie Bhardwaj, Murray Shanahan
Andrew Kyle Lampinen (DeepMind)
语言模型的表征常包含对应高层概念的线性方向。本文研究这些表征在(模拟)对话上下文中的动态演化,发现线性表征在对话过程中可能发生显著变化:例如,对话初期被表征为事实的信息,在结尾可能被表征为非事实,反之亦然。此类变化具有内容依赖性——与对话相关的信息表征易变,而通用信息通常保持稳定。该现象在不同模型家族和网络层中均稳健存在,且即使重放由其他模型生成的对话脚本也能复现。然而,在明确标记为科幻故事的上下文中,此类适应效应显著减弱。此外,沿表征方向进行干预在对话不同阶段效果差异显著。结果表明,模型可能根据对话所提示的角色动态调整其内部表征,这对静态解释方法和特征探针构成挑战,也为理解模型如何适应上下文提供了新方向。
表征动态性
对话建模
研究对话中表征动态变化,涉及记忆内容的上下文依赖性演化。
分享
夯
0
拉
0
AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment Rollouts
Shicheng Fang, Yuxin Wang, XiaoRan Liu, Jiahao Lu, Chuanyuan Tan et al.
大型语言模型(LLMs)向自主智能体的演进要求其管理大规模、动态变化的上下文。然而,现有基准测试多为静态,依赖被动检索任务,无法模拟智能体与环境交互中的非线性推理和迭代反馈等复杂性。为此,本文提出AgentLongBench,基于横向思维谜题构建模拟环境推演,生成涵盖知识密集型与无知识场景的严格交互轨迹。对当前先进模型及记忆系统(32K至4M tokens)的实验揭示了一个关键弱点:尽管在静态检索中表现良好,智能体在动态信息合成方面存在显著不足。分析表明,该性能退化主要由解决查询所需的最小token数量驱动,高信息密度的工具响应比长轮次对话中的记忆碎片化更具挑战性。
long-context memory
agent evaluation
论文评估长上下文Agent在动态环境中的记忆表现,重点分析信息合成能力与记忆系统局限性。
分享
夯
0
拉
0
CiMRAG: Cim-Aware Domain-Adaptive and Noise-Resilient Retrieval-Augmented Generation for Edge-Based LLMs
Shih-Hsuan Chiu, Ming-Syan Chen
基于边缘设备的大语言模型(LLM)个性化虚拟助手日益受到关注,其中检索增强生成(RAG)通过检索用户画像数据生成定制化响应,成为实现个性化的重要手段。然而,随着用户-LLM交互和近期更新等画像数据快速增长,RAG在边缘部署面临效率瓶颈。计算存内(CiM)架构虽可通过原位操作消除内存与处理器间的数据搬运以缓解该问题,但其易受环境噪声干扰,导致检索精度下降。在旅行、医疗、法律等多领域动态边缘场景中,准确性和适应性尤为关键。为此,本文提出任务导向的抗噪嵌入学习框架(TONEL),通过噪声感知投影模型学习符合CiM硬件约束的任务特定嵌入,在噪声环境下实现高精度检索。在个性化基准上的大量实验表明,该方法在任务特定噪声场景下显著优于强基线模型。
检索增强生成
计算存内
边缘AI
抗噪学习
领域自适应
聚焦边缘设备中RAG的存储与检索效率,涉及计算存内架构对记忆机制的影响。
分享
夯
0
拉
0
Yunjue Agent Tech Report: A Fully Reproducible, Zero-Start In-Situ Self-Evolving Agent System for Open-Ended Tasks
Haotian Li, Shijun Yang, Weizhen Qi, Silei Zhao, Rui Hua et al.
传统代理系统在任务分布持续漂移和外部监督稀缺的开放环境中表现不佳。为解决这一问题,本文提出原地自进化范式,将连续任务交互视为经验流,使系统能够在无真实标签的情况下提取短期执行反馈并转化为长期可重用的能力。文中识别工具进化为关键路径,并开发了云界代理系统,通过迭代合成、优化和重用工具应对新挑战。此外,引入并行批量进化策略以提高效率,并通过多个基准测试验证其性能优势。最后,提出一种新的收敛度量指标,用于监控进化过程。
自进化代理
长期能力积累
工具进化
开放任务处理
论文提出自进化代理系统,涉及长期能力积累与反馈机制,与Agent Memory相关但非唯一主题。
分享
夯
0
拉
0
Sparks of Cooperative Reasoning: LLMs as Strategic Hanabi Agents
Mahesh Ramesh, Kaousheik Jayakumar, Aswinkumar Ramkumar, Pavan Thodima, Aniket Rege
在不完全信息下的合作推理对人类和多智能体系统都是挑战。纸牌游戏Hanabi体现了这一挑战,需要心智理论推理和战略沟通。本文在2-5人游戏中评估了17种最先进的LLM代理,并研究了不同模型规模(4B到600B+)下上下文工程的影响,以理解持续的协调失败和对脚手架的鲁棒性。从仅包含显式卡片细节的最小提示(Watson设置),到基于程序化、贝叶斯动机的推断的脚手架(Sherlock设置),再到通过工作记忆进行多轮状态跟踪(Mycroft设置)。结果显示,(1)代理可以维持内部工作记忆用于状态跟踪;(2)不同LLM之间的跨玩性能随着模型强度平滑插值。在Sherlock设置中,最强的推理模型在平均得分上超过15分,但仍落后于经验丰富的玩家和专业Hanabi代理,后者得分均超过20分。我们发布了第一个公开的Hanabi数据集,包含注释轨迹和移动效用:(1)HanabiLogs,包含1,520个完整游戏日志用于指令调整;(2)HanabiRewards,包含560个带有密集移动级价值注释的游戏。使用我们的数据集对一个4B开源权重模型(Qwen3-Instruct)进行监督和强化学习微调,使合作Hanabi游戏表现分别提高了21%和156%,接近一个强大的专有推理模型(o4-mini)并超越最佳非推理模型(GPT-4.1)52%。进一步微调的HanabiRewards模型还超出了Hanabi任务,在合作组猜测基准上提升了11%,在EventQA的时间推理上提升了6.4%,在IFBench-800K的指令遵循上提升了1.7 Pass@10,并匹配AIME 2025数学推理的Pass@10。
Agent Memory
Cooperative Reasoning
LLM
Hanabi
Context Engineering
Working Memory
论文涉及LLM在合作推理中的工作记忆机制,但核心是战略通信与协调。
分享
夯
0
拉
0
LTS-VoiceAgent: A Listen-Think-Speak Framework for Efficient Streaming Voice Interaction via Semantic Triggering and Incremental Reasoning
Wenhao Zou, Yuwei Miao, Zhanyu Ma, Jun Xu, Jiuchong Gao et al.
实时语音代理面临一个困境:端到端模型通常缺乏深度推理能力,而级联流水线则因严格按顺序执行ASR、LLM推理和TTS而产生高延迟,这与人类对话中听者在说话人结束前就开始思考的方式不同。由于级联架构仍是复杂任务的主流选择,现有的流式策略尝试通过机械分割(如固定块、基于VAD的分割)或推测生成来减少延迟,但这些方法常导致语义单元断裂或浪费计算资源于必须回滚的预测上。为了解决这些问题,本文提出LTS-VoiceAgent框架,该框架显式地将何时思考与如何逐步推理分离。它包含一个动态语义触发器以检测有意义的前缀,并引入双角色流式协调器,协调后台的Thinker(用于状态维护)和前台的Speaker(用于推测性求解)。这种并行设计实现了“边说边想”的功能而不阻塞响应。此外,我们还引入了一个包含自然不流畅性的Pause-and-Repair基准测试集,以对流式处理的鲁棒性进行压力测试。实验结果表明,LTS-VoiceAgent在VERA、Spoken-MQA、BigBenchAudio以及我们的基准测试中,相较于串行级联基线和现有流式策略,在准确率、延迟和效率之间取得了更优的平衡。
语音代理
流式处理
语义触发
增量推理
系统设计
论文涉及流式语音交互中的推理与响应机制,隐含记忆管理逻辑,但非核心主题。
分享
夯
0
拉
0
Dynamic Thinking-Token Selection for Efficient Reasoning in Large Reasoning Models
Zhenyuan Guo, Tong Chen, Wenlong Meng, Chen Gong, Xin Yu et al.
大型推理模型(LRMs)通过显式生成推理轨迹来解决复杂问题,但在得出最终答案前会生成较长的推理过程,这导致了较大的内存占用和计算开销,限制了其效率。本文利用注意力图分析推理轨迹的影响,发现仅部分对决策至关重要的token引导模型走向最终答案,其余token贡献甚微。基于这一观察,本文提出了一种动态思考标记选择(DynTS)方法,在推理过程中仅保留这些关键token对应的键值(KV)缓存状态,移除冗余条目以优化效率。
LLM推理优化
KV缓存管理
注意力机制
推理效率
论文聚焦于推理过程中的关键token选择,优化KV缓存以提升效率,与Agent Memory相关但非唯一主题。
分享
夯
0
拉
0
Interpreting Agentic Systems: Beyond Model Explanations to System-Level Accountability
Judy Zhu, Dhari Gandhi, Himanshu Joshi, Ahmad Rezaie Mianroodi, Sedef Akinli Kocak et al.
智能体系统通过大型语言模型(LLMs)实现了具有目标导向行为的自主系统,具备多步骤规划和与不同环境交互的能力。这些系统在架构和部署上与传统机器学习模型有本质区别,带来了独特的AI安全挑战,包括目标错位、决策错误累积以及智能体间的协调风险。为确保其自主行为的可追溯性和责任性,需在设计中嵌入可解释性与透明度。当前主要针对静态模型的可解释性技术在应用于智能体系统时存在局限性。智能体系统的时序动态性、累积决策及上下文依赖行为要求新的分析方法。本文评估了现有可解释性方法在智能体系统中的适用性与局限性,指出现有方法在提供智能体决策洞察方面的不足。我们提出了未来发展的方向,旨在开发专门针对智能体系统的可解释性技术,并明确指出在智能体生命周期中需要可解释性的关键环节,从目标形成、环境交互到结果评估。这些进展对于确保智能体AI系统的安全和负责任部署至关重要。
智能体系统
可解释性
AI安全
责任追踪
论文探讨了智能体系统的可解释性,涉及决策过程和行为追踪,与记忆机制相关。
分享
夯
0
拉
0
MAGE-KT: Multi-Agent Graph-Enhanced Knowledge Tracing with Subgraph Retrieval and Asymmetric Fusion
Chi Yu, Hongyu Yuan, Zhiyi Duan
知识追踪(KT)旨在建模学生的学习轨迹并预测其下一题的表现。关键挑战在于如何更好地表示学生、问题和知识点之间的关系。尽管基于图的KT范式显示出潜力,但现有方法未能充分探索概念间的相互关系,通常仅从交互序列中推断。此外,KT图的规模和异质性使得全图编码计算成本高且易受噪声干扰,导致注意力扩散至与学生无关的区域,降低概念间关系的准确性。为此,本文提出了一种新的框架:多智能体图增强知识追踪(MAGE-KT)。该框架通过结合多智能体知识点关系提取器和学生-问题交互图,构建多视角异构图,捕捉互补的语义和行为信号。在目标学生历史的基础上,检索出紧凑且高价值的子图,并利用非对称交叉注意力融合模块进行整合,以提升预测性能,同时避免注意力扩散和无关计算。实验结果表明,在三个广泛使用的KT数据集上,该方法在知识点关系准确性和下一题预测方面均优于现有方法。
知识追踪
图神经网络
多智能体系统
子图检索
注意力机制
论文涉及知识追踪中的子图检索与融合,与Agent Memory的语义表示和信息整合相关。
分享
夯
0
拉
0
SWE-Pruner: Self-Adaptive Context Pruning for Coding Agents
Yuhang Wang, Yuling Shi, Mo Yang, Rongrui Zhang, Shilin He et al.
LLM代理在软件开发中表现出色,但其性能受到长交互上下文的影响,导致高API成本和延迟。尽管已有多种上下文压缩方法(如LongLLMLingua)试图解决这一问题,但它们通常依赖于固定的指标(如PPL),忽略了代码理解的任务特定性,从而破坏了语法和逻辑结构,并丢失关键实现细节。本文提出SWE-Pruner,一种为编码代理定制的自适应上下文剪枝框架。受人类程序员在开发和调试过程中“选择性浏览”源代码的启发,SWE-Pruner根据任务进行自适应剪枝。给定当前任务,代理会明确目标(例如,“关注错误处理”)以指导剪枝方向。训练了一个轻量级神经筛选器(0.6B参数),根据目标动态选择相关代码行。在四个基准测试和多个模型上的评估验证了SWE-Pruner在各种场景下的有效性,在SWE-Bench Verified等任务上实现了23-54%的token减少,在LongCodeQA等单轮任务上达到最高14.84倍的压缩率,且对性能影响极小。
Agent Memory
Context Pruning
Code Understanding
LLM Optimization
论文提出了一种针对代码代理的上下文剪枝框架,涉及对长交互上下文的记忆管理与优化。
分享
夯
0
拉
0
LUMINA: Long-horizon Understanding for Multi-turn Interactive Agents
Amin Rakhsha, Thomas Hehn, Pietro Mazzaglia, Fabio Valerio Massoli, Arash Behboodi et al.
大型语言模型在许多孤立任务中表现良好,但在需要计划、状态跟踪和长上下文处理等技能的多轮、长期代理问题上仍面临挑战。本文旨在更好地理解这些基础能力对完成此类任务的重要性。我们开发了一个用于多轮问题的反事实框架,通过假设代理能够利用完美执行特定任务的“神谕”来评估其性能变化,从而衡量该技能在未来AI代理发展中的关键性。我们引入了一套程序生成的、类似游戏的任务,具有可调节的复杂度。这些受控环境允许我们进行精确的“神谕”干预,如完美的规划或无瑕疵的状态跟踪,并使我们能够隔离每个“神谕”的贡献,避免现实基准中存在的混淆因素。实验结果表明,虽然某些干预(如规划)在不同场景下都能提高性能,但其他技能的效用取决于环境属性和语言模型的特点。本研究揭示了多轮代理环境的挑战,为未来AI代理和语言模型的发展提供指导。
多轮交互
长期上下文处理
代理性能评估
状态跟踪
规划
论文涉及多轮交互代理中的长期上下文处理,与Agent Memory相关但非唯一主题。
分享
夯
0
拉
0
Attention-MoA: Enhancing Mixture-of-Agents via Inter-Agent Semantic Attention and Deep Residual Synthesis
Jianyu Wen, Yang Wei, Xiongxi Yu, Changxuan Xiao, Ke Zeng
随着大语言模型(LLMs)的发展从参数扩展转向推理时的协作,混合代理(MoA)框架作为一种通用范式被提出,以利用多样化的模型集合智能。尽管最近的MoA变体引入了动态路由和残差连接以提高效率,但这些方法往往无法促进代理之间的深层语义交互,限制了系统主动纠正幻觉和优化逻辑的能力。本文提出了Attention-MoA,一种基于MoA的新框架,通过跨代理语义注意力重新定义协作。结合具有自适应早停机制的跨层残差模块,该架构减轻了深层信息退化问题并提高了计算效率。在AlpacaEval 2.0、MT-Bench和FLASK上的广泛评估表明,Attention-MoA显著优于最先进的基线模型,在AlpacaEval 2.0上实现了91.15%的长度控制胜率,并在FLASK的12项能力中占优10项。值得注意的是,Attention-MoA使小型开源模型的集成表现超过了Claude-4.5-Sonnet和GPT-4.1等大型专有模型,取得了8.83的MT-Bench得分和77.36的AlpacaEval 2.0长度控制胜率。
Mixture-of-Agents
语义注意力
残差连接
模型集成
Agent协作
论文涉及Agent间的语义注意力机制,与Agent Memory中的信息交互和协作相关。
分享
夯
0
拉
0
Graph-Anchored Knowledge Indexing for Retrieval-Augmented Generation
Zhenghao Liu, Mingyan Wu, Xinze Li, Yukun Yan, Shuo Wang et al.
检索增强生成(RAG)已成为缓解大型语言模型(LLMs)幻觉问题的主流范式,通过引入外部知识。然而,如何有效整合和解释分散在噪声文档中的关键证据,仍是现有RAG系统面临的关键挑战。本文提出GraphAnchor,一种新颖的图锚定知识索引方法,将静态知识表示中的图结构重构为动态、演化的知识索引。GraphAnchor在迭代检索过程中逐步更新图结构,以锚定显著实体和关系,从而生成一个结构化索引,指导LLM评估知识充分性并制定后续子查询。最终答案通过联合使用所有检索到的文档和最终演化后的图生成。在四个多跳问答基准测试上的实验表明了GraphAnchor的有效性,并揭示其能够调节LLM的注意力,更有效地关联检索文档中分布的关键信息。
检索增强生成
知识图谱
图索引
LLM记忆增强
论文提出基于图结构的知识索引方法,用于增强检索增强生成中的记忆利用,与Agent Memory相关。
分享
Code
夯
0
拉
0
Cognitively-Inspired Tokens Overcome Egocentric Bias in Multimodal Models
Bridget Leonard, Scott O. Murray
多模态语言模型(MLMs)在语义视觉-语言任务中表现良好,但在需要采用其他代理视觉视角的空间推理任务中表现不佳。这些错误反映了持续的自我中心偏差,并引发了关于当前模型是否支持外在视角推理的问题。受人类空间认知的启发,我们引入了视角标记,这些专门的嵌入通过(1)具身身体关键点提示或(2)支持心理旋转的抽象表示来编码方向。将这些标记集成到LLaVA-1.5-13B中,在二级视觉视角任务中取得了性能提升。在合成和自然基准测试(Isle Bricks V2、COCO、3DSRBench)中,视角标记提高了准确性,基于旋转的标记可推广到非人类参考代理。代表性分析表明,微调增强了基础模型中已有的潜在方向敏感性,表明MLMs包含外在视角推理的前身,但缺乏适当的内部结构。总体而言,直接在标记空间中嵌入认知基础的空间结构,为视角转换和更接近人类的空间推理提供了一种轻量级、模型无关的机制。
多模态模型
空间推理
视角转换
认知启发
Agent Memory
论文探讨了多模态模型中的视角转换问题,涉及空间认知和记忆机制,与Agent Memory相关但非唯一主题。
分享
夯
0
拉
0
Controlling Long-Horizon Behavior in Language Model Agents with Explicit State Dynamics
Sukesh Subaharan
大型语言模型(LLM)代理在长时间交互中常常表现出语气和角色的突变,这反映了缺乏显式的时间结构来管理代理级别的状态。尽管以往的研究强调了每轮对话中的情绪或静态情绪分类,但显式情感动态在塑造长期代理行为中的作用仍鲜有研究。本文研究了是否通过对外部情感状态施加动态结构,可以在多轮对话中诱导时间一致性并实现可控恢复。我们引入了一个代理级别的情感子系统,该系统维护一个独立于语言模型的连续性Valence-Arousal-Dominance(VAD)状态,并由一阶和二阶更新规则控制。瞬时情感信号通过固定且无记忆的估计器提取,并通过指数平滑或基于动量的动力学进行时间积分。最终的情感状态被注入生成过程而无需修改模型参数。使用固定的25轮对话协议,我们比较了无状态、一阶和二阶情感动态的效果。无状态代理无法表现出连贯的轨迹或恢复能力,而状态持久性使延迟响应和可靠恢复成为可能。二阶动态引入了随动量增加的情感惯性和滞后效应,揭示了稳定性与响应性之间的权衡。
Agent Memory
情感动态
多轮对话
状态更新
论文探讨了外部情感状态的动态结构对多轮对话中代理行为的影响,涉及记忆机制的应用。
分享
夯
0
拉
0
Deja Vu in Plots: Leveraging Cross-Session Evidence with Retrieval-Augmented LLMs for Live Streaming Risk Assessment
Yiran Qiao, Xiang Ao, Jing Chen, Yang Liu, Qiwei Zhong et al.
随着直播的兴起,在线互动方式发生了巨大变化,带来了大规模实时参与,但也使平台面临诸如诈骗和协调恶意行为等复杂风险。由于有害行为通常逐渐累积并在看似无关的直播中重复出现,因此检测这些风险具有挑战性。为了解决这一问题,我们提出了CS-VAR(跨会话证据感知检索增强检测器),用于直播风险评估。在CS-VAR中,一个轻量级、领域特定模型执行快速会话级别的风险推理,并在训练过程中由一个大型语言模型(LLM)指导,该模型通过检索到的跨会话行为证据进行推理,并将局部到全局的见解传递给小模型。这种设计使小模型能够识别跨直播的重复模式,进行结构化风险评估,并保持实时部署的效率。在大规模工业数据集上的大量离线实验,结合在线验证,证明了CS-VAR的先进性能。此外,CS-VAR提供了可解释的、本地化的信号,有效支持了直播的实际内容审核。
直播风险检测
检索增强型LLM
跨会话记忆
内容审核
论文涉及跨会话证据检索与LLM结合,用于风险检测,与Agent Memory相关但非核心主题。
分享
夯
0
拉
0
VideoThinker: Building Agentic VideoLLMs with LLM-Guided Tool Reasoning
Chenglin Li, Qianglong Chen, Feng Han, Yikun Wang, Xingxi Yin et al.
Qianglong Chen (Zhejiang University)
当前视频大语言模型在长视频理解方面仍面临挑战,多数模型依赖于对均匀采样帧的静态推理,导致时间定位能力弱且信息丢失严重。本文提出VideoThinker,一种通过合成工具交互轨迹训练的智能视频大模型。其核心思想是将视频转换为丰富的字幕,并利用强大的智能语言模型生成多步骤的工具使用序列。这些轨迹随后通过将字幕替换为对应帧,生成大规模的视频与工具推理交织数据集,无需模型具备长视频理解能力。实验表明,VideoThinker在长视频基准测试中显著优于仅基于字幕的语言模型代理和强视频模型基线,展示了工具增强的合成数据和自适应检索与缩放推理在长视频理解中的有效性。
视频理解
工具推理
合成数据
Agent系统
论文涉及基于工具的动态推理与记忆机制,但核心是视频理解而非纯记忆系统。
分享
夯
0
拉
0
Agentic Uncertainty Quantification
Jiaxin Zhang, Prafulla Kumar Choubey, Kung-Hsiang Huang, Caiming Xiong, Chien-Sheng Wu
Prafulla Kumar Choubey (Texas A&M Univeristy)
尽管人工智能代理在长期推理方面表现出色,但其可靠性受到“幻觉螺旋”的严重影响,其中早期的认知错误会不可逆地传播。现有方法面临困境:不确定性量化(UQ)方法通常作为被动传感器,仅用于诊断风险而无法解决;自我反思机制则容易导致连续或无目的的修正。为弥合这一差距,我们提出了一种统一的双过程智能体不确定性量化(AUQ)框架,将语言化的不确定性转化为主动、双向的控制信号。该架构包含两个互补机制:系统1(不确定性感知记忆,UAM),隐式传播语言化置信度和语义解释以防止盲目决策;系统2(不确定性感知反思,UAR),利用这些解释作为理性线索,在必要时触发针对性的推理时解决。这使智能体能够动态平衡高效执行与深度思考。在闭环基准测试和开放性深度研究任务中的大量实验表明,我们的无需训练的方法在性能和轨迹级校准方面均表现优异。我们认为这一原理性的AUQ框架是迈向可靠智能体的重要一步。
不确定性量化
智能体记忆
反思机制
AI可靠性
论文提出与记忆相关的不确定性量化机制,涉及记忆系统的设计和应用。
分享
夯
0
拉
0
Event-VStream: Event-Driven Real-Time Understanding for Long Video Streams
Zhenghui Guo, Yuanbin Man, Junyuan Sheng, Bowen Lin, Ahmed Ahmed et al.
长视频流的实时理解对多模态大语言模型(VLMs)仍具挑战性,主要由于冗余帧处理和快速遗忘过去上下文。现有流系统依赖固定间隔解码或缓存修剪,这要么导致重复输出,要么丢弃关键时间信息。本文提出Event-VStream,一个事件感知框架,将连续视频表示为一系列语义连贯的离散事件。该系统通过整合运动、语义和预测线索检测有意义的状态转换,并仅在这些边界触发语言生成。每个事件嵌入被整合到持久记忆库中,从而实现长期推理并保持低延迟。在OVOBench-Realtime和长篇Ego4D评估中,Event-VStream表现出竞争力。它在OVOBench-Realtime上比VideoLLM-Online-8B基线提升了10.4分,在使用通用LLaMA-3-8B文本主干的情况下性能接近Flash-VStream-7B,并在2小时Ego4D流中保持约70%的GPT-5胜率。
事件驱动
视频流处理
持久记忆库
长期推理
多模态语言模型
论文提出事件驱动的视频流处理框架,涉及持久记忆库和长期推理,与Agent Memory相关但非唯一主题。
分享
夯
0
拉
0
Tracking the Limits of Knowledge Propagation: How LLMs Fail at Multi-Step Reasoning with Conflicting Knowledge
Yiyang Feng, Zeming Chen, Haotian Wu, Jiawei Zhou, Antoine Bosselut
为缓解大型语言模型(LLMs)中过时或错误信息的问题,常见的解决方案是在上下文中提供更新的事实或通过知识编辑进行更新。然而,这些方法在知识更新未能覆盖模型参数化知识时会引入知识冲突,并导致推理错误。当前针对该问题的基准测试主要关注单一知识更新和事实回忆,而未评估这些更新对下游推理的影响。本文提出TRACK(Testing Reasoning Amid Conflicting Knowledge),一个新的基准测试,用于研究LLMs在初始参数化知识与新知识冲突的情况下,如何通过多步推理传播新知识。TRACK涵盖三个推理密集型场景(WIKI、CODE和MATH),并引入多个现实冲突以模拟真实世界的复杂性。实验结果表明,向模型提供更新的事实可能比不提供任何更新的事实更差,且随着提供更多更新事实,性能下降加剧。这种失败源于模型无法正确整合更新事实以及即使整合后仍存在推理缺陷。TRACK为衡量和指导未来在多步推理中传播冲突知识的研究提供了严谨的新基准。
知识冲突
多步推理
LLM基准测试
记忆更新
论文探讨了LLM在多步推理中知识冲突的传播问题,与Agent Memory中的知识更新和冲突处理密切相关。
分享
夯
0
拉
0
The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution
Chen Qian, Peng Wang, Dongrui Liu, Junyao Yang, Dadi Guo et al.
基于大型语言模型(LLM)的智能体广泛应用于客户服务、网络导航和软件工程等领域。随着这些系统变得更加自主并大规模部署,理解智能体采取特定行动的原因对于问责和治理变得越来越重要。然而,现有研究主要集中在失败归因上,以定位不成功轨迹中的显式错误,这不足以解释智能体行为背后的推理过程。为弥补这一差距,我们提出了一种新的通用智能体归因框架,旨在识别驱动智能体行为的内部因素,无论任务结果如何。该框架分层运作以管理智能体交互的复杂性。具体而言,在组件层面,我们使用时间似然动态来识别关键交互步骤;然后在句子层面,我们利用扰动分析来精确定位具体的文本证据。我们在多种智能体场景中验证了该框架,包括标准工具使用和微妙的可靠性风险,如记忆诱导偏差。实验结果表明,所提出的框架能够可靠地识别智能体行为背后的关键历史事件和句子,为更安全和更负责任的智能体系统提供了关键一步。
智能体归因
记忆偏差
行为解释
LLM应用
论文涉及Agent行为解释,提及记忆诱导偏差等与Memory相关的风险因素。
分享
夯
0
拉
0
CorpusQA: A 10 Million Token Benchmark for Corpus-Level Analysis and Reasoning
Zhiyuan Lu, Chenliang Li, Yingcheng Shi, Weizhou Shen, Ming Yan et al.
尽管当前的大语言模型能够处理百万级标记的上下文,但其在整个文档仓库中的推理能力尚未得到充分验证。现有基准测试存在局限性,主要集中在单个长文本或依赖于“稀疏检索”假设,即答案可以从少量相关片段中得出。然而,在真正的语料库级分析中,证据高度分散在数百个文档中,答案需要全局整合、比较和统计聚合。为解决这一关键问题,我们引入了CorpusQA,这是一个扩展至1000万标记的新基准,通过一种新颖的数据合成框架生成。该框架将推理与文本表示解耦,创建复杂且计算密集型的查询,并通过程序化保证真实答案,挑战系统在不依赖人工标注的情况下对大量非结构化文本进行整体推理。此外,我们还展示了该框架在评估之外的实用性,表明在合成数据上进行微调可以有效提升LLM的一般长上下文推理能力。实验结果表明,即使是最先进的长上下文LLM在输入长度增加时也表现不佳,而标准的检索增强生成系统完全崩溃。我们的研究结果表明,记忆增强的智能体架构提供了更稳健的替代方案,提示需要从简单扩展上下文窗口转向开发用于全局信息合成的先进架构。
语料库推理
长上下文
记忆增强
智能体架构
基准测试
论文探讨了大规模语境下的推理能力,涉及记忆增强的智能体架构,与Agent Memory相关但非唯一主题。
分享
夯
0
拉
0
Query-Efficient Agentic Graph Extraction Attacks on GraphRAG Systems
Shuhua Yang, Jiahao Zhang, Yilong Wang, Dongwon Lee, Suhang Wang
基于图的检索增强生成(GraphRAG)系统通过在文档集合上构建知识图谱来支持多跳推理。尽管已有研究表明GraphRAG的响应可能泄露检索到的子图,但在现实查询预算下,隐藏图结构的查询高效重建仍未被探索。本文研究了一个预算受限的黑盒设置,其中攻击者通过自适应查询系统窃取其潜在的实体-关系图。我们提出AGEA(代理图提取攻击)框架,该框架利用新颖性引导的探索-利用策略、外部图记忆模块以及结合轻量级发现和基于LLM的过滤的两阶段图提取流程。我们在医疗、农业和文学数据集上对AGEA进行了评估,结果表明,在相同的查询预算下,AGEA显著优于之前的攻击基线,恢复了高达90%的实体和关系,同时保持高精度。这些结果表明,现代GraphRAG系统即使在严格的查询限制下,也极易受到结构化、代理式的提取攻击。
GraphRAG
攻击方法
知识图谱
代理系统
图提取
论文涉及GraphRAG系统中的隐含图结构提取,与Agent Memory相关,但并非核心研究主题。
分享
夯
0
拉
0
"Just in Time" World Modeling Supports Human Planning and Reasoning
Tony Chen, Sam Cheyette, Kelsey Allen, Joshua Tenenbaum, Kevin Smith
概率性心理模拟被认为在人类推理、规划和预测中起关键作用,但在复杂环境中,模拟的需求超出了人类的实际能力。一种有越来越多证据支持的理论认为,人们使用简化的环境表示进行模拟,忽略不相关的细节,但尚不清楚人们如何高效地确定这些简化。本文提出了一种基于模拟的‘即时’推理框架,展示了如何在线构建这些表示,且计算开销极小。该模型结合了模拟、视觉搜索和表示修改,当前模拟指导搜索方向,而视觉搜索标记应被编码的对象以供后续模拟使用。尽管仅编码了少量对象,该模型仍能做出高效用预测。在网格世界规划任务和物理推理任务中,实证结果支持该模型优于其他替代模型。这些结果为人类如何构建简化表示以支持高效心理模拟提供了具体的算法解释。
mental simulation
representation abstraction
agent reasoning
visual search
论文探讨了人类如何通过简化表示进行高效模拟,与Agent Memory中关于表示压缩和选择性存储的研究相关。
分享
夯
0
拉
0
If You Want Coherence, Orchestrate a Team of Rivals: Multi-Agent Models of Organizational Intelligence
Gopal Vijayaraghavan, Prasanth Jayachandran, Arun Murthy, Sunil Govindan, Vivek Subramanian
Gopal Vijayaraghavan (Isotopes AIUSA) | Prasanth Jayachandran (Isotopes AIUSA) | Arun Murthy (Isotopes AIUSA)
AI代理能够以高速执行复杂操作,但其智能仍存在缺陷。误沟通未被察觉,系统性偏见缺乏反制措施,内心独白也极少被记录。我们并非因错误而解雇它们,而是希望为它们提供一个安全且高效的协作环境。本文提出可以复用常见的企业组织结构:由具有严格角色边界、共同目标但不同激励机制的独立AI代理组成的团队,可以通过相互竞争来减少最终产品中的错误。本文描述了该系统的实际架构:包括规划者、执行者、批评者和专家等专业代理团队,通过远程代码执行器协调,将数据转换和工具调用与推理模型分离。代理不直接调用工具或接收完整响应,而是编写远程执行的代码;仅相关摘要返回给代理上下文。通过防止原始数据和工具输出污染上下文窗口,系统保持了感知(计划和推理的大脑)与执行(进行大量数据转换和API调用的手)之间的清晰分离。实验表明,该方法在用户接触前可拦截超过90%的内部错误,同时保持合理的延迟权衡。从我们的追踪调查中可以看出,这种方法仅以成本和延迟为代价,实现了正确性和能力的逐步扩展,而不会影响现有功能。
多智能体系统
组织智能
错误拦截
远程执行
AI代理协作
论文涉及多智能体协作与错误拦截,间接关联到Agent Memory的可靠性与信息管理。
分享
夯
0
拉
0
Lost in the Prompt Order: Revealing the Limitations of Causal Attention in Language Models
Hyunjong Ok, Jaeho Lee
大型语言模型表现出对提示结构的惊人敏感性,但其背后的机制仍不明确。本文深入研究了一个显著案例:在多项选择题回答任务中,将上下文置于问题和选项之前(CQO)比相反顺序(QOC)高出14%以上的性能,且在多种模型和数据集上保持一致。通过系统性的架构分析,我们确定因果注意力是核心机制:在QOC提示中,因果掩码阻止选项标记访问上下文,导致信息瓶颈,使上下文对选项不可见。
因果注意力
提示工程
上下文感知
信息瓶颈
论文探讨了因果注意力机制对上下文信息处理的影响,与Agent Memory中的信息可见性相关。
分享
夯
0
拉
0
Autonomous Knowledge Graph Exploration with Adaptive Breadth-Depth Retrieval
Joaquín Polonuer, Lucas Vittor, Iñaki Arango, Ayush Noori, David A. Clifton et al.
从知识图谱中检索语言模型查询的证据需要在图的广泛搜索与多跳遍历之间取得平衡。基于相似性的检索器虽然能提供覆盖范围,但较为浅层;而基于遍历的方法则依赖于选择种子节点开始探索,当查询跨越多个实体和关系时可能失效。本文提出ARK:自适应知识检索器,一种代理式知识图谱检索器,通过一个包含两个操作工具集的系统,使语言模型能够控制广度与深度之间的权衡:全局词法搜索节点描述符和一跳邻域探索,可组合成多跳遍历。ARK在无需依赖脆弱的种子选择、预设跳数或检索训练的情况下,在广度导向发现和深度导向扩展之间交替进行。ARK根据查询类型调整工具使用,对语言密集型查询使用全局搜索,对关系密集型查询使用邻域探索。在STaRK数据集上,ARK达到59.1%的平均Hit@1和67.4的平均MRR,分别比基于检索和无训练代理方法提高了31.4%和28.0%。最后,我们通过无标签模仿学习将ARK的工具使用轨迹从大型教师模型蒸馏到8B模型中,在AMAZON、MAG和PRIME数据集上分别提升了7.0、26.6和13.5个绝对点的Hit@1,同时保留了高达98.5%的教师模型Hit@1率。
知识图谱检索
自适应搜索
代理系统
多跳遍历
论文涉及知识图谱检索中的广度与深度平衡,与Agent Memory的探索机制相关。
分享
夯
0
拉
0
ToolCaching: Towards Efficient Caching for LLM Tool-calling
Yi Zhai, Dian Shen, Junzhou Luo, Bin Yang
Yi Zhai,
Dian Shen,
Junzhou Luo,
Bin Yang (School of Computer Science and Engineering, Southeast UniversityNanjingChina)
近年来,大语言模型(LLMs)的进步革新了网络应用,使其能够通过自然语言接口实现智能搜索、推荐和助手服务。工具调用扩展了LLMs与外部API交互的能力,显著提升了其实用性。尽管已有研究通过采用传统的计算机系统技术(如并行和异步执行)来提升工具调用性能,但重复或冗余的工具调用请求问题仍未得到充分解决。缓存是解决这一问题的经典方案,但由于请求语义异构、工作负载动态变化以及新鲜度要求不同,传统缓存策略在LLM工具调用场景中效果不佳。为此,本文提出ToolCaching,一种面向LLM工具调用系统的高效特征驱动且自适应的缓存框架。该框架系统地整合语义和系统级特征,评估请求的缓存可能性并估算缓存价值。其核心VAAC算法结合基于老虎机的准入机制与价值驱动的多因素淘汰策略,综合考虑请求频率、近期性和缓存价值。在合成和公开工具调用工作负载上的大量实验表明,ToolCaching结合VAAC相比标准策略可使缓存命中率提高11%,延迟降低34%,有效加速了LLM工具调用的实际应用。
LLM
缓存机制
工具调用
Agent Memory
系统优化
论文提出ToolCaching框架,涉及缓存机制以优化LLM工具调用,与Agent Memory相关但非唯一主题。
分享
夯
0
拉
0
Finding RELIEF: Shaping Reasoning Behavior without Reasoning Supervision via Belief Engineering
Chak Tou Leong, Dingwei Chen, Heming Xia, Qingyu Yin, Sunbowen Lee et al.
大型推理模型(LRMs)在复杂问题解决中取得了显著成功,但常常面临计算冗余或推理不忠实的问题。当前塑造LRM行为的方法通常依赖于强化学习或使用黄金标准推理轨迹进行微调,这种范式计算成本高且难以扩展。本文揭示了LRMs具有潜在的推理信念,这些信念能够通过简单的logit探测来捕捉。基于这一洞察,我们提出了Reasoning Belief Engineering(RELIEF),一种简单而有效的框架,通过将模型的自我概念与其目标信念蓝图对齐来塑造LRM的行为。关键的是,RELIEF完全绕过了对推理轨迹监督的需求。它通过在合成的、自我反思的问题-回答对上进行微调,内化期望的特性。在效率和忠实度任务上的大量实验表明,RELIEF在训练成本更低的情况下匹配或优于行为监督和基于偏好的基线方法。进一步分析验证了改变模型的推理信念可以有效塑造其实际行为。
LLM
信念工程
推理行为塑造
无监督学习
论文涉及模型内部的信念机制,与Agent Memory相关但非唯一主题。
分享
夯
0
拉
0
Hierarchical Long Video Understanding with Audiovisual Entity Cohesion and Agentic Search
Xinlei Yin, Xiulian Peng, Xiao Li, Zhiwei Xiong, Yan Lu
长视频理解对视觉-语言模型提出了重大挑战,因为其需要处理极长的上下文窗口。现有方法通常依赖于简单的分块策略与检索增强生成,但容易导致信息碎片化和全局一致性丢失。本文提出HAVEN框架,通过整合视听实体一致性、分层视频索引与代理搜索机制,实现连贯且全面的推理。首先,通过跨视觉和听觉流的实体级表示保持语义一致性,并将内容组织为涵盖全局摘要、场景、片段和实体级别的结构化层次。然后,采用代理搜索机制在这些层级之间进行动态检索与推理,促进连贯的叙事重建和细粒度实体跟踪。大量实验表明,该方法在时间一致性、实体一致性和检索效率方面表现优异,在LVBench数据集上达到84.1%的整体准确率,并在具有挑战性的推理类别中达到80.1%。
长视频理解
代理搜索
多模态推理
实体一致性
检索增强生成
论文涉及基于记忆的代理搜索机制,用于长视频理解,但非唯一核心主题。
分享
夯
0
拉
0
Understanding Mental States to Guide Social Influence in Multi-Person Group Dialogue
Zhichao Liang, Satoshi Nakamura
现有的动态心智理论(ToM)基准主要将语言模型置于被动角色:模型读取一系列相连的情景,并报告人们随着状态变化所相信、感受、意图和行为。在真实的社交互动中,ToM也被用于行动:说话者计划要说的话,以引导他人的心理状态轨迹朝向目标。我们引入了SocialMindChange基准,从追踪心理状态转向改变心理状态。每个实例定义了一个包含4个角色和五个相连场景的社会情境。模型扮演其中一个角色,在五个场景中生成对话以达成目标,同时保持与所有参与者的心理状态演变一致。SocialMindChange还包含一些高阶心理状态。通过结构化的四步框架,我们构建了1200个社会情境,涵盖6000个场景和超过90000个问题,每个问题都经过真实性和质量验证。对十个最先进的LLMs进行评估显示,它们的平均表现比人类低54.2%。这一差距表明,当前的LLMs仍难以在长且关联的交互中维持和改变心理状态表示。
Agent Memory
Social Interaction
Theory of Mind
Dialogue Generation
LLM Evaluation
论文探讨了在社交对话中通过理解并改变他人心理状态来实现目标,涉及记忆与心理状态的动态变化。
分享
夯
0
拉
0
Aligning Agentic World Models via Knowledgeable Experience Learning
Baochang Ren, Yunzhi Yao, Rui Sun, Shuofei Qiao, Ningyu Zhang et al.
Yunzhi Yao (Zhejiang University;Shandong University) | Rui Sun (University of California, Los Angeles)
当前大型语言模型(LLMs)存在关键的模态断层:它们拥有丰富的语义知识,但缺乏遵循物理世界不变法则的过程性基础。因此,尽管这些智能体隐式地作为世界模型运行,其模拟常常受到物理幻觉的影响,生成逻辑上合理但物理上不可执行的计划。现有的对齐策略主要依赖资源密集型的训练或微调,试图将动态环境规则压缩到静态模型参数中。然而,这种参数化封装本质上是僵硬的,在没有持续、昂贵的再训练情况下难以适应物理动态的开放性变化。为弥合这一差距,我们引入了WorldMind框架,该框架通过合成环境反馈自主构建符号化的世界知识库。具体而言,它统一过程经验以通过预测误差确保物理可行性,并通过成功轨迹引导任务最优性。在EB-ALFRED和EB-Habitat上的实验表明,WorldMind相比基线方法表现出更优的性能,并具有显著的跨模型和跨环境迁移能力。
Agent Memory
World Model
Physical Simulation
Knowledge Repository
论文提出WorldMind框架,通过构建世界知识库解决物理幻觉问题,与Agent Memory机制密切相关。
分享
夯
0
拉
0
Real-Time Deadlines Reveal Temporal Awareness Failures in LLM Strategic Dialogues
Neil K. R. Sehgal, Sharath Chandra Guntuku, Lyle Ungar
大型语言模型(LLMs)以离散时间逐词生成文本,而现实世界中的交流,如治疗会话和商业谈判,严重依赖于连续时间约束。当前的LLM架构和评估协议很少测试在实时截止时间下的时间意识。本文通过模拟严格截止时间下的代理谈判,研究LLM在时间敏感环境中的行为调整。在对照条件下,代理仅知道全局时间限制;在时间感知条件下,它们在每一轮中收到剩余时间更新。结果显示,在时间感知条件下,交易达成率显著提高(GPT-5.1为32% vs. 4%),接受提议的数量是对照条件的六倍,表明LLM难以内部追踪经过的时间。然而,这些LLM在基于回合的限制下几乎能完美达成交易(≥95%),说明问题在于时间跟踪而非战略推理。这些效应在不同谈判场景和模型中均得到复制,表明LLM存在系统性的时间意识缺失,这将限制其在许多时间敏感应用中的部署。
LLM
时间感知
代理谈判
记忆相关
论文探讨了LLM在时间感知上的不足,涉及其内部时间跟踪机制,与Agent Memory相关。
分享
夯
0
拉
0
Prompt Injection Mitigation with Agentic AI, Nested Learning, and AI Sustainability via Semantic Caching
Diego Gosmar, Deborah A. Dahl
提示注入仍然是大型语言模型安全部署的核心障碍,尤其在多智能体环境中,中间输出可能传播或放大恶意指令。本文在之前提出的四维总注入脆弱性评分(TIVS)基础上,引入基于语义相似性的缓存机制和第五个指标(可观察性评分比),构建了TIVS-O评估框架,并在受HOPE启发的嵌套学习架构中研究防御效果与透明度之间的关系。所提系统结合智能体流程与语义缓存的连续记忆系统,在301个合成生成的注入提示上进行测试,同时由第四个智能体使用五个关键性能指标进行全面安全分析。实验表明,该系统实现了零高风险漏洞的安全响应,语义缓存显著减少了计算开销,LLM调用次数减少41.6%,并降低了延迟、能耗和碳排放。五种TIVS-O配置揭示了缓解严格性与取证透明度之间的最佳权衡。结果表明,可观测性驱动的评估能够揭示多智能体流程中的非单调效应,且增强记忆的智能体可在不修改模型权重的情况下,联合优化安全性、实时性能、运营成本节约和环境可持续性。
Agent Memory
Prompt Injection
Semantic Caching
Multi-Agent System
Security Evaluation
论文涉及基于语义缓存的Continuum Memory Systems,与Agent Memory相关但非唯一主题。
分享
夯
0
拉
0
Agentic Conversational Search with Contextualized Reasoning via Reinforcement Learning
Fengran Mo, Yifan Gao, Sha Li, Hansi Zeng, Xin Liu et al.
大型语言模型(LLMs)已成为人机交互的重要接口,支持通过自然、多轮对话进行信息检索和任务协助。在多轮对话中,用户意图随着交互而演变,需要上下文解释、查询重写以及检索与生成之间的动态协调。现有研究通常采用静态的重写、检索和生成流程,分别优化不同步骤,忽视了混合主动行为的同步优化。尽管深度搜索代理的最新进展展示了通过推理联合优化检索和生成的有效性,但这些方法主要针对单轮场景,可能难以处理多轮交互。本文提出了一种跨轮次交织搜索与推理的对话代理,通过强化学习训练并结合定制奖励机制,使代理能够学习探索性和适应性行为以应对不断变化的用户目标。实验结果表明,在四个广泛使用的对话基准测试中,该方法优于多个现有强基线。
对话代理
强化学习
多轮交互
检索生成
论文涉及多轮对话中上下文依赖的意图演化,与Agent Memory相关,但非核心主题。
分享
夯
0
拉
0
From Prefix Cache to Fusion RAG Cache: Accelerating LLM Inference in Retrieval-Augmented Generation
Jiahao Wang, Weiyu Xie, Mingxing Zhang, Boxing Zhang, Jianwei Dong et al.
Jiahao Wang (Hangzhou Dianzi UniversityHangzhouChina) | Weiyu Xie (Tsinghua UniversityBeijingChina) | Mingxing Zhang (Tsinghua UniversityBeijingChina)
检索增强生成(RAG)通过整合外部知识来增强大型语言模型(LLM),虽然减少了幻觉问题,但增加了提示长度,导致计算成本上升和首次生成时间(TTFT)延长。为缓解此问题,现有方法尝试重用每个检索块的预处理KV缓存以加速RAG。然而,缺乏跨块上下文信息显著降低了生成质量,限制了KV缓存重用的潜在优势。本文提出FusionRAG,一种新的推理框架,优化了RAG的预处理和重处理阶段。在离线预处理阶段,将其他相关文本块的信息嵌入到每个块中;在线重处理阶段,仅对模型关注的标记重新计算KV缓存。实验表明,FusionRAG在相同重计算比例下显著提升了生成质量,并在重计算少于15%的标记时,实现了比基线高70%的归一化F1分数,同时将TTFT减少了2.66倍至9.39倍。
RAG
KV缓存
生成质量
推理优化
论文涉及KV缓存重用以提升RAG效率,与Agent Memory相关但非唯一主题。
分享
夯
0
拉
0
Teaching LLMs to Learn Tool Trialing and Execution through Environment Interaction
Xingjie Gao, Pengcheng Huang, Zhenghao Liu, Yukun Yan, Shuo Wang et al.
为大型语言模型(LLMs)配备外部工具使其能够解决复杂的现实问题。然而,现有方法在面对新出现或不断变化的工具时,其鲁棒性仍是一个关键挑战。现有的轨迹中心范式主要依赖于在训练过程中记忆静态解决方案路径,这限制了LLMs将工具使用推广到新引入或之前未见过的工具的能力。本文提出ToolMaster框架,该框架将工具使用从模仿黄金工具调用轨迹转变为通过与环境的交互主动学习工具使用。为了优化LLMs的工具规划和调用能力,ToolMaster采用了一种试错与执行的范式,首先让LLMs模仿教师生成的包含显式工具尝试和自我纠正的轨迹,随后通过强化学习协调试错与执行阶段。这一过程使代理能够通过与环境的主动交互自主探索正确的工具使用方式,并形成有益于工具执行的经验知识。实验结果表明,ToolMaster在泛化性和鲁棒性方面显著优于现有基线方法。
LLM
工具使用
强化学习
环境交互
泛化能力
论文涉及LLM通过环境交互学习工具使用,隐含记忆机制,但非核心主题。
分享
Code
夯
0
拉
0
Knowledge is Not Enough: Injecting RL Skills for Continual Adaptation
Pingzhi Tang, Yiding Wang, Muhan Zhang
Yiding Wang (Peking University)
大语言模型(LLMs)面临“知识截止”挑战,其冻结的参数化记忆难以直接内化新信息。尽管监督微调(SFT)常用于更新知识,但往往仅修改事实内容,未能有效提升模型利用新知识进行问答或决策的能力。强化学习(RL)对习得推理技能至关重要,但其高昂计算成本限制了在线适应效率。本文发现SFT与RL引起的参数更新近乎正交,据此提出参数化技能迁移(PaST)框架,通过从源域提取领域无关的技能向量,在目标模型经轻量SFT后线性注入知识操作技能。在SQuAD、LooGLE和ToolBench等基准上的实验表明,PaST显著提升知识整合与工具使用性能,展现出良好的可扩展性与跨域迁移能力。
参数化记忆
技能迁移
聚焦参数化记忆更新与技能迁移,涉及LLM记忆机制但非核心架构研究。
分享
夯
0
拉
0
Deep GraphRAG: A Balanced Approach to Hierarchical Retrieval and Adaptive Integration
Yuejie Li, Ke Yang, Tao Wang, Bolin Chen, Bowen Li et al.
Yuejie Li (Ant GroupChina) | Ke Yang (Ant GroupChina) | Tao Wang (Zhejiang UniversityChina)
基于图的检索增强生成(GraphRAG)框架在全局搜索的全面性与局部搜索的效率之间存在权衡。现有方法在处理大规模层次化图结构时,常面临检索路径优化、探索-利用平衡及多阶段重排序不足等挑战。为此,本文提出Deep GraphRAG框架,采用从全局到局部的层次化检索策略,融合社区间宏观与社区内微观上下文关系。该策略包含三阶段流程:社区间过滤、社区级精炼和实体级细粒度搜索,并引入基于束搜索优化的动态重排序模块以平衡效率与全面性。此外,其知识整合模块采用紧凑型LLM,结合新型强化学习算法DW-GRPO动态调整相关性、忠实性与简洁性三重目标的奖励权重,使1.5B模型在整合任务中接近70B大模型性能。在Natural Questions和HotpotQA上的实验表明,该方法在准确率与效率上显著优于基线。
GraphRAG
层次化记忆
检索增强生成
动态重排序
知识整合
论文聚焦检索增强生成中的层次化记忆组织与整合,属Agent Memory关键支撑技术。
分享
夯
0
拉
0
Structure and Diversity Aware Context Bubble Construction for Enterprise Retrieval Augmented Systems
Amir Khurshid, Abhishek Sehgal
大语言模型(LLM)通常通过检索增强生成(RAG)构建上下文,采用top-k段落选择策略,易导致文档结构信息碎片化、内容重复及查询上下文不足(如缺乏二阶、三阶语义维度)。本文提出一种融合结构信息与多样性约束的上下文气泡构建框架,在严格令牌预算下组装连贯、可引用的文本片段。该方法利用文档固有结构(如章节、行等多粒度片段)并引入任务条件化的结构先验指导检索;从高相关性锚点出发,通过平衡查询相关性、边际覆盖度与冗余惩罚进行受限选择,显式控制多样性与预算,生成紧凑且信息丰富的上下文集。系统同时输出完整检索轨迹,支持可审计性与确定性调优。在企业文档上的实验表明,该方法显著减少冗余、更好覆盖次级语义维度,并在有限上下文窗口内提升回答质量与引用忠实度。消融实验证明结构先验与多样性约束均不可或缺。
检索增强生成
上下文管理
聚焦上下文构建机制,涉及信息组织与冗余控制,属记忆相关但非核心记忆架构。
分享
夯
0
拉
0
CALM-IT: Generating Realistic Long-Form Motivational Interviewing Dialogues with Dual-Actor Conversational Dynamics Tracking
Viet Cuong Nguyen, Nhi Yen Nguyen, Kristin A. Candan, Mary Conlon, Vanessa Rumie et al.
大语言模型(LLMs)在心理健康场景中日益普及,但在长时间交互中难以维持现实且目标导向的对话。尽管LLMs能生成流畅回应,其优化目标局限于当前轮次,缺乏对治疗进展的连贯建模,导致长期对话出现脆弱性和偏离。本文提出CALM-IT框架,用于生成与评估长篇动机式访谈(MI)对话,显式建模双角色(治疗师与来访者)的对话动态。该框架将互动表示为双向状态空间过程,双方持续更新对彼此目标一致性、心理状态及短期目标的推断,以指导策略选择与话语生成。大规模评估表明,CALM-IT在有效性与目标一致性方面显著优于强基线,且随对话长度增加仍保持高度稳定性。尽管治疗师重定向次数较少,其来访者接受率最高(64.3%),表明干预时机更精准、更具治疗一致性。研究证实,建模演化的对话状态对生成高质量长篇合成对话至关重要。
对话系统
状态建模
论文建模对话状态演化,涉及长期交互中的状态记忆机制,但未直接聚焦记忆架构。
分享
夯
0
拉
0
Frame of Reference: Addressing the Challenges of Common Ground Representation in Situational Dialogs
Biswesh Mohapatra, Théo Charlot, Giovanni Duca, Mayank Palan, Laurent Romary et al.
共识在情境化口语对话中至关重要,对话双方需建立并维持对实体、事件和关系的共享指代,以保障交互连贯性。对于对话系统而言,准确地将对话内容锚定于上下文并在后续引用尤为关键。尽管已有研究表明大语言模型(LLM)能执行请求澄清或生成确认等锚定行为,但鲜有工作探讨如何显式表征并存储共识以供后续使用。缺乏此类机制,难以判断确认或澄清行为是否真正反映理解。本文评估模型在情境对话中通过关系性指代建立并利用共识的能力,测试多种共识表征方法,并提出改进共识建立及其后续使用的策略。
common ground
dialogue systems
论文聚焦于对话中共同基础的显式表示与存储,涉及记忆机制但非核心主题。
分享
夯
0
拉
0
Imagine-then-Plan: Agent Learning from Adaptive Lookahead with World Models
Youwei Liu, Jian Wang, Hanlin Wang, Beichen Guo, Wenjie Li
近期世界模型的研究为环境状态的未来动态建模提供了新思路,使智能体能够在不接触真实环境的情况下进行推理和行动。当前方法主要采用单步或固定时间范围的模拟,未能充分利用其在复杂任务规划中的潜力。本文提出了一种统一框架Imagine-then-Plan(ITP),通过前瞻性想象进行智能体学习,其中策略模型与学习到的世界模型交互,生成多步“想象”轨迹。由于想象的时间跨度可能因任务和阶段而异,我们引入了一种新的自适应前瞻机制,在最终目标与任务进展之间进行权衡。这些想象轨迹提供了关于未来后果的丰富信息,如已完成的进展和潜在冲突,并与当前观测融合,形成一个部分可观测且可想象的马尔可夫决策过程,以指导策略学习。我们实现了训练无关和强化训练两种变体的ITP。大量实验表明,ITP显著优于竞争性基线。进一步分析验证了我们的自适应前瞻机制大幅提升了智能体的推理能力,为解决更广泛和复杂任务提供了有价值的见解。
世界模型
前瞻性想象
自适应规划
智能体学习
论文提出基于世界模型的前瞻性想象机制,与Agent Memory中的未来状态建模和规划相关。
分享
夯
0
拉
0
RAGShaper: Eliciting Sophisticated Agentic RAG Skills via Automated Data Synthesis
Zhengwei Tao, Bo Li, Jialong Wu, Guochen Yan, Huanyao Zhang et al.
智能体增强检索生成(Agentic RAG)使大型语言模型能够自主规划并检索信息以解决复杂问题。然而,高质量训练数据的缺乏限制了鲁棒智能体的发展,这些数据应能反映真实检索环境中的噪声和复杂性。传统的人工标注方法难以扩展且无法捕捉处理检索失败所需的动态推理策略。为此,我们提出RAGShaper,一种新颖的数据合成框架,旨在自动构建RAG任务和鲁棒智能体轨迹。RAGShaper引入了一个InfoCurator模块,用于构建包含对抗性干扰项的信息树,并提出了受限导航策略,迫使教师智能体面对这些干扰项,从而生成体现错误纠正和噪声拒绝的轨迹。全面实验表明,基于合成语料库训练的模型显著优于现有基线,在噪声密集和复杂检索任务中表现出更强的鲁棒性。
RAG
智能体轨迹生成
数据合成
噪声鲁棒性
论文涉及RAG中的噪声处理与轨迹生成,与Agent Memory的鲁棒性相关。
分享
夯
0
拉
0
Parallel Context-of-Experts Decoding for Retrieval Augmented Generation
Giulio Corallo, Paolo Papotti
检索增强生成面临权衡:将文档连接到长提示中可以实现多文档推理,但会导致预填充瓶颈;而单独编码文档KV缓存虽然速度快,却破坏了跨文档交互。本文提出了一种无需训练的框架——并行专家上下文解码(Pced),将证据聚合从注意力机制转移到解码过程。Pced将检索到的文档视为独立的“专家”,通过一种新颖的检索感知对比解码规则同步其预测,该规则将专家logits与模型先验进行权衡。这种方法在不构建跨文档共享注意力的情况下恢复了跨文档推理能力。
检索增强生成
跨文档推理
专家系统
解码机制
论文探讨了检索增强生成中的上下文处理机制,涉及跨文档推理与记忆相关技术。
分享
夯
0
拉
0
ExpSeek: Self-Triggered Experience Seeking for Web Agents
Wenyuan Zhang, Xinghua Zhang, Haiyang Yu, Shuaiyi Nie, Bingli Wu et al.
在Web代理中引入经验干预被视为一种有前景的技术范式,通过从积累的经验中提取有价值的信息来增强代理的交互能力。然而,现有方法主要在任务执行前被动地将经验作为全局上下文注入,难以适应代理与环境交互过程中动态变化的上下文观察。本文提出ExpSeek方法,将经验向步骤级别的主动探索转变:(1)利用模型的内在信号估计步骤级熵阈值以确定干预时机;(2)设计步骤级定制化的经验内容。在Qwen3-8B和32B模型上进行的四组具有挑战性的Web代理基准测试表明,ExpSeek分别实现了9.3%和7.5%的绝对性能提升。实验验证了熵作为自触发信号的可行性和优势,并揭示了即使使用4B的小规模经验模型,也能显著提升大型代理模型的性能。
Agent Memory
Experience Intervention
Web Agents
Entropy-based Triggering
论文提出ExpSeek方法,涉及基于经验的主动干预机制,与Agent Memory相关但非唯一主题。
分享
夯
0
拉
0
D$^2$Plan: Dual-Agent Dynamic Global Planning for Complex Retrieval-Augmented Reasoning
Kangcheng Luo, Tinglang Wu, Yansong Feng
近期通过强化学习训练的搜索增强型大语言模型(LLMs)能够在多跳推理任务中交替进行搜索和推理。然而,随着上下文信息的积累,这些模型面临两个关键失败模式:一是构建无效的搜索链,导致生成错误查询或遗漏关键信息;二是被外围证据干扰,使模型误将干扰信息识别为有效证据。为此,本文提出**D$^2$Plan**,一种面向复杂检索增强推理的双代理动态全局规划范式。该方法通过*Reasoner*和*Purifier*两个代理协作实现:*Reasoner*在推理过程中构建显式的全局计划,并根据检索反馈动态调整;*Purifier*评估检索的相关性并提取关键信息供*Reasoner*使用。此外,本文引入了一个两阶段训练框架,包括基于合成轨迹的监督微调(SFT)冷启动和以计划为导向的强化学习奖励机制,以帮助LLMs掌握**D$^2$Plan**范式。大量实验表明,**D$^2$Plan**能够实现更连贯的多步骤推理,并对无关信息具有更强的鲁棒性,在具有挑战性的问答基准测试中表现出色。
Agent Memory
Retrieval-Augmented Reasoning
Dual-Agent System
Reinforcement Learning
论文提出双代理动态规划方法,涉及信息筛选与记忆管理,与Agent Memory相关。
分享
夯
0
拉
0
ToolACE-MCP: Generalizing History-Aware Routing from MCP Tools to the Agent Web
Zhiyuan Yao, Zishan Xu, Yifu Guo, Zhiguang Han, Cheng Yang et al.
随着Agent Web和模型上下文协议(MCP)的兴起,智能体生态系统正在演变为一个开放协作网络,可访问的工具数量呈指数级增长。然而,当前架构面临严重的可扩展性和通用性瓶颈。为了解决这一问题,我们提出了ToolACE-MCP,一种用于训练具有历史感知能力的路由器的流程,以在大规模生态系统中实现精确导航。通过利用依赖丰富的候选图来合成多轮轨迹,我们有效地训练了具备动态上下文理解能力的路由器,从而创建了即插即用的轻量级路由代理。在真实世界基准MCP-Universe和MCP-Mark上的实验表明其性能优越。值得注意的是,ToolACE-MCP展现出对未来的Agent Web至关重要的特性:它不仅能够通过最小的适应性推广到多智能体协作,还对噪声具有出色的鲁棒性,并能有效扩展到大规模候选空间。这些发现为开放生态系统中的通用调度提供了坚实的实证基础。
Agent Web
MCP
路由机制
历史感知
多智能体协作
论文提出基于历史感知的路由机制,与Agent Memory相关,但非唯一主题。
分享
夯
0
拉
0
On the Limits of Learned Importance Scoring for KV Cache Compression
Brady Steele
本文通过Speculative Importance Prediction(SIP)方法研究了学习型KV缓存压缩的可行性。SIP是一种基于KV表示预测token重要性的1.7M参数非查询感知评分器。尽管其架构复杂(多时间跨度前瞻、交叉注意力),但在多个种子、保留级别和任务中,SIP的表现并未优于随机选择等简单基线。主要发现包括:(1) 基于位置的启发式方法(保留前4个和最后N个token)可匹配或超越学习方法;(2) 预填充注意力提供的信号与复杂学习评分器相当;(3) KV表示中超出位置和预填充注意力的信息对重要性预测帮助有限。我们假设未来查询与生成轨迹之间的循环依赖是造成这一困难的原因。
KV缓存压缩
重要性评分
Agent Memory
LLM优化
论文探讨了KV缓存压缩中的重要性评分机制,与Agent Memory相关但非唯一主题。
分享
夯
0
拉
0
ForgetMark: Stealthy Fingerprint Embedding via Targeted Unlearning in Language Models
Zhenhua Xu, Haobo Zhang, Zhebo Wang, Qichen Liu, Haitao Xu et al.
现有入侵性(后门)指纹方法存在高困惑度触发器易被过滤、启发式检测器暴露固定响应模式以及在良性输入上产生误激活等问题。本文提出ForgetMark,一种隐蔽的指纹框架,通过定向遗忘对来源进行编码。该方法利用辅助模型和预测熵排名构建一个紧凑且可读性强的键值对集合,并训练轻量级LoRA适配器以在不损害通用能力的前提下抑制原始键值。在黑盒/灰盒访问下,通过聚合似然性和语义证据计算指纹成功率来验证所有权。ForgetMark依赖于概率遗忘痕迹而非固定触发-响应模式,从而避免了高困惑度触发器,降低了可检测性和误触发率。在多种架构和设置中,ForgetMark在指纹模型上实现了100%的所有权验证,同时保持标准性能,其隐蔽性和对模型合并的鲁棒性优于后门基线方法,并在适度增量微调下仍有效。
Agent Memory
Fingerprint Embedding
Language Model
Unlearning
Stealthy Backdoor
论文涉及基于遗忘机制的指纹嵌入,与Agent Memory相关但非唯一主题。
分享
Code
夯
0
拉
0
Relational Knowledge Distillation Using Fine-tuned Function Vectors
Andrea Kang, Yingnian Wu, Hongjing Lu
概念间关系的表示是智能系统理解世界的核心前提。近期研究利用因果中介分析表明,少量注意力头能够编码任务表示,并以紧凑形式表示为函数向量。本文发现,仅用少量示例(约20个词对)微调函数向量,可提升基于关系的词补全任务性能,且适用于大小语言模型。此外,微调后的函数向量在关系词解码和语义关系相似性判断上表现更优。随后,作者引入复合函数向量——微调函数向量的加权组合,用于提取关系知识并支持类比推理。在推理阶段,将该复合向量插入LLM激活中显著提升了认知科学和SAT基准中的类比问题性能。结果突显了激活修补作为可控机制在编码和操作关系知识方面的潜力,推动了大语言模型的可解释性和推理能力。
函数向量
关系知识提取
类比推理
激活修补
论文涉及函数向量的微调与关系知识提取,与Agent Memory中的知识表示和推理相关。
分享
夯
0
拉
0
WISE-Flow: Workflow-Induced Structured Experience for Self-Evolving Conversational Service Agents
Yuqing Zhou, Zhuoer Wang, Jie Yuan, Hong Wang, Samson Koelle et al.
基于大语言模型(LLM)的代理广泛应用于面向用户的场景,但在新任务中仍容易出错,倾向于重复相同的失败模式,并表现出显著的运行间差异性。通过环境特定训练或手动修补来修复故障成本高昂且难以扩展。为实现用户面向服务环境中的自我演进代理,本文提出WISE-Flow,一种以工作流为中心的框架,通过引入带有先决条件增强的动作块,将历史服务交互转化为可重用的过程性经验。在部署时,WISE-Flow将代理的执行轨迹对齐到检索到的工作流,并进行先决条件感知的可行性推理,以实现状态驱动的下一步动作。在ToolSandbox和$τ^2$-bench上的实验表明,该方法在基础模型上均表现出一致的改进。
Agent Memory
Self-Evolving Agents
Workflow Learning
Conversational Services
论文提出基于工作流的结构化经验机制,与Agent Memory相关,但非唯一主题。
分享
夯
0
拉
0
DYCP: Dynamic Context Pruning for Long-Form Dialogue with LLMs
Nayoung Choi, Jonathan Zhang, Jinho D. Choi
随着大型语言模型(LLMs)在长对话场景中的应用日益增多,频繁的主题切换对对话历史的有效管理提出了挑战。尽管当前LLMs支持扩展的上下文窗口,但在实际应用中仍需应对推理成本和延迟限制。本文提出DYCP,一种轻量级的上下文管理方法,该方法在LLM外部实现,能够根据当前对话轮次动态识别并检索相关对话片段,无需离线构建记忆。DYCP在保持对话顺序性的同时,不依赖预定义的主题边界,实现了自适应且高效的上下文选择。在LoCoMo、MT-Bench+和SCM4LLMs三个长对话基准测试集以及多个LLM后端上,DYCP在下游生成任务中表现出具有竞争力的答案质量,同时提升了上下文选择的精确度和推理效率。
对话管理
上下文剪枝
LLM推理优化
动态记忆管理
论文提出动态上下文剪枝方法,用于管理对话历史,与Agent Memory相关但非唯一主题。
分享
夯
0
拉
0
Beyond Single-Shot: Multi-step Tool Retrieval via Query Planning
Wei Fang, James Glass
在大规模、动态工具库上运行的LLM代理依赖于有效的检索方法,但标准的单次密集检索器难以处理复杂请求。这些失败主要源于抽象用户目标与技术文档之间的脱节,以及固定大小嵌入对组合工具构成的有限建模能力。为解决这些问题,我们提出了TOOLQP,一个轻量级框架,将检索建模为迭代查询规划。TOOLQP不采用单次匹配,而是将指令分解为子任务,并动态生成查询以与检索器交互,从而有效弥合语义差距并针对所需的具体子任务进行组合。我们通过合成查询轨迹训练TOOLQP,并通过可验证奖励强化学习(RLVR)进行优化。实验表明,TOOLQP在零样本泛化、跨多样检索器的鲁棒性以及下游代理执行方面均表现出色。
LLM Agent
工具检索
查询规划
强化学习
论文涉及工具检索与查询规划,间接关联Agent Memory中的任务分解与信息检索机制。
分享
夯
0
拉
0
Beyond Entangled Planning: Task-Decoupled Planning for Long-Horizon Agents
Yunfan Li, Bingbing Xu, Xueyun Tian, Xiucheng Xu, Huawei Shen
近年来,大语言模型(LLMs)的进步使代理能够自主执行复杂的长时地平线任务,但规划仍然是可靠任务执行的主要瓶颈。现有方法通常分为两种范式:逐步规划,具有反应性但往往短视;以及一次性规划,虽在开始时生成完整计划,但对执行错误敏感。这两种范式都存在上下文纠缠问题,即代理必须在一个跨越多个子任务的单一历史中进行推理。这种纠缠增加了认知负担,并导致局部错误传播到原本独立的决策中,使得恢复计算成本高昂。为了解决这一问题,我们提出了任务解耦规划(TDP),一种无需训练的框架,通过任务解耦替代纠缠推理。TDP通过监督器将任务分解为子目标的有向无环图(DAG)。使用具有作用域上下文的规划器和执行器,TDP将推理和重新规划限制在当前子任务中。这种隔离防止了错误传播,并可在不干扰工作流的情况下本地纠正偏差。在TravelPlanner、ScienceWorld和HotpotQA上的实验结果表明,TDP优于强基线,同时减少了高达82%的token消耗,证明子任务解耦可提高长时地平线代理的鲁棒性和效率。
任务解耦
长时地平线代理
上下文隔离
规划系统
论文提出任务解耦规划框架,减少上下文纠缠,与Agent Memory中的子任务隔离和错误传播控制相关。
分享
夯
0
拉
0
Yes FLoReNce, I Will Do Better Next Time! Agentic Feedback Reasoning for Humorous Meme Detection
Olivia Shanhong Liu, Pai Chet Ng, De Wen Soh, Konstantinos N. Plataniotis
幽默表情包结合了视觉和文本线索以传达讽刺、讽刺或社会评论,这对必须解释意图而非仅表面关联的AI系统提出了独特挑战。现有的多模态或提示方法生成幽默解释,但其运行在开环模式下,缺乏对预测后推理过程的批评或优化能力。本文提出FLoReNce,一种基于智能体反馈推理的框架,将表情包理解视为训练阶段的闭环过程和推理阶段的开环过程。在闭环中,推理智能体受到评判者的批评,错误和语义反馈被转化为控制信号并存储在一个由反馈信息驱动的非参数知识库中。在推理过程中,模型从该知识库中检索相似的评判经验,并利用它们来调整提示内容,从而实现无需微调的更优、自对齐的推理。在PrideMM数据集上,FLoReNce在预测性能和解释质量方面均优于静态多模态基线,表明反馈调节的提示方法是适应性理解幽默表情包的有效路径。
Agent Memory
反馈学习
多模态理解
幽默检测
论文提出基于反馈的闭环学习机制,涉及非参数知识库存储和检索,与Agent Memory相关。
分享
夯
0
拉
0
Lost in the Noise: How Reasoning Models Fail with Contextual Distractors
Seongyun Lee, Yongrae Jo, Minju Seo, Moontae Lee, Minjoon Seo
随着推理模型和智能体AI系统的进步,对外部信息的依赖性增加,但这也引入了具有噪声的输入上下文。本文提出了NoisyBench基准,系统评估了11个数据集上模型在RAG、推理、对齐和工具使用任务中的鲁棒性,针对多种噪声类型进行测试。结果表明,最先进的模型在面对上下文干扰时性能下降高达80%。研究发现,智能体工作流常因过度信任噪声工具输出而放大错误,并且干扰项可能引发非对抗性的对齐偏差。传统方法如提示、上下文工程、SFT和基于奖励的强化学习无法确保鲁棒性,而提出的Rationale-Aware Reward(RARE)通过激励模型识别噪声中的有用信息显著提升了鲁棒性。此外,研究还揭示了计算量增加反而导致性能下降的趋势,并通过注意力可视化展示了模型对干扰项的过度关注。
噪声鲁棒性
智能体系统
上下文干扰
RAG
对齐偏差
论文探讨了噪声对Agent推理的影响,涉及记忆相关机制如上下文干扰和工具输出信任问题。
分享
夯
0
拉
0
Relink: Constructing Query-Driven Evidence Graph On-the-Fly for GraphRAG
Manzong Huang, Chenyang Bu, Yi He, Xingrui Zhuo, Xindong Wu
基于图的检索增强生成(GraphRAG)通过结构化知识减少大语言模型(LLMs)的幻觉。然而,当前GraphRAG方法受限于静态预构建的知识图谱(KG),面临路径断裂和噪声干扰等挑战。为此,本文提出Relink框架,采用‘推理与构建’范式,动态生成查询特定的证据图。Relink从原始文本语料中提取潜在关系池,即时修复断裂路径,并通过统一的查询感知评估策略筛选最相关的事实,有效排除干扰信息。实验表明,Relink在五个开放域问答基准测试中显著优于现有GraphRAG基线。
GraphRAG
动态知识图谱
证据图构建
查询驱动
论文提出动态构建查询驱动的证据图,与Agent Memory中的动态信息检索和存储机制相关。
分享
夯
0
拉
0
Can We Predict Before Executing Machine Learning Agents?
Jingsheng Zheng, Jintian Zhang, Yujie Luo, Yuren Mao, Yunjun Gao et al.
自主机器学习代理已彻底改变了科学发现,但它们仍受限于生成-执行-反馈范式。现有方法因依赖昂贵的物理执行而面临严重执行瓶颈。为克服这些限制,本文借鉴世界模型的思想,将执行先验内化,以即时预测推理替代高成本的运行时检查。本文形式化了数据为中心的解决方案偏好任务,并构建了一个包含18,438对比较的综合语料库。实验表明,在使用经过验证的数据分析报告进行引导后,LLM展现出显著的预测能力,准确率达到61.5%,并具有稳健的置信度校准。最后,本文在FOREAGENT代理中实现了这一框架,采用预测-验证循环,收敛速度提升6倍,且优于基于执行的基线方法6%。
Agent Memory
预测执行
LLM
World Models
数据驱动
论文涉及预测执行机制,与Agent Memory中的预测和验证机制相关,但非核心主题。
分享
Code
夯
0
拉
0
iReasoner: Trajectory-Aware Intrinsic Reasoning Supervision for Self-Evolving Large Multimodal Models
Meghana Sunil, Manikandarajan Venmathimaran, Muthu Subash Kavitha
近期研究表明,大型多模态模型(LMMs)可以通过自我博弈和内在反馈从未标记数据中自我提升。然而现有自演化框架主要奖励最终结果,而忽视了中间推理过程的重要性。本文提出iReasoner,一种通过显式引导链式推理(CoT)并奖励其内部一致性来增强LMM隐式推理能力的自演化框架。在未标记图像上的提议者-求解者循环中,iReasoner将结果级别的内在奖励与基于中间推理步骤的轨迹感知信号相结合,在无真实标签或外部评判者的前提下,提供区分导致相同答案的不同推理路径的学习信号。从Qwen2.5-VL-7B出发,iReasoner在完全无监督的后训练中,在多种多模态推理基准测试中提升了高达+2.1分。希望本工作能为纯无监督环境下LMM的推理感知型自我改进奠定基础。
多模态模型
自演化
推理路径
内在反馈
论文涉及Agent在自我演化过程中对中间推理路径的显式建模,与记忆机制相关。
分享
夯
0
拉
0
Multilingual Amnesia: On the Transferability of Unlearning in Multilingual LLMs
Alireza Dehghanpour Farashah, Aditi Khandelwal, Marylou Fauchard, Zhuan Shi, Negar Rostamzadeh et al.
随着多语言大型语言模型的广泛应用,确保其在不同语言环境下的安全性和公平性面临独特挑战。现有研究主要集中在单语环境下(通常是英语)的机器遗忘,而多语言环境因跨语言知识迁移和预训练及微调数据中的偏见引入了额外复杂性。本文使用Aya-Expanse 8B模型,在两种设置下研究多语言遗忘:(1) 数据遗忘和 (2) 概念遗忘。我们将事实知识和刻板印象基准扩展到十种语言,包括英语、法语、阿拉伯语、日语、俄语、波斯语、韩语、印地语、希伯来语和印尼语,这些语言覆盖五个语系并涵盖资源水平广泛。实验表明,高资源语言的遗忘通常更稳定,并且在类型学相关的语言之间观察到不对称的迁移效应。此外,我们的语言距离分析表明,句法相似性是跨语言遗忘行为的最强预测因素。
多语言模型
遗忘机制
跨语言迁移
语言资源差异
论文研究多语言模型中的遗忘机制,涉及概念和数据的遗忘,与Agent Memory相关。
分享
夯
0
拉
0
CTHA: Constrained Temporal Hierarchical Architecture for Stable Multi-Agent LLM Systems
Percy Jardine
近期,多时间尺度的智能体架构通过引入具有不同认知层次的时序分层,扩展了普遍的单循环范式。尽管带来了显著的性能提升,但这种多样化从根本上削弱了统一智能体系统内在的协调稳定性,导致严重的层间冲突、无界误差传播和可扩展性受限。为了解决这些问题,我们提出了约束时序分层架构(CTHA),一种通用框架,将层间通信空间投影到结构化流形上以恢复协调稳定性,并结合原理化的仲裁机制以确保决策一致性。具体而言,CTHA强制实施三个关键约束:(1) 消息契约约束,通过类型化的摘要、计划和策略数据包形式化层间信息流;(2) 权限流形约束,根据其时间范围限制每一层的决策空间;(3) 仲裁者解析约束,保证多层决策的无冲突组合。实验结果表明,CTHA在大规模复杂任务执行中表现有效,相比无约束分层基线减少了47%的故障级联,样本效率提高了2.3倍,并展现出更优越的可扩展性。我们预期CTHA作为对时序分层的原理性扩展,将有助于深入理解多智能体协调,并为鲁棒自主系统的演化提供有前景的方向。
多智能体系统
时序分层
协调稳定性
决策仲裁
论文涉及多智能体系统的层级架构与协调稳定性,间接关联到记忆机制的设计与约束。
分享
夯
0
拉
0
Text as a Universal Interface for Transferable Personalization
Yuting Liu, Jian Guan, Jia-Nan Li, Wei Wu, Jiang-Ming Yang et al.
本文研究大语言模型(LLM)中的个性化问题。现有工作多将用户偏好表示为隐式的、模型特定的向量或参数,导致难以解释和跨模型/任务迁移的“黑盒”画像。作者主张采用自然语言作为通用、与模型和任务无关的偏好表示接口,从而生成可解释、可复用且能随新交互持续演化的偏好描述。为此,提出两阶段训练框架:结合高质量合成数据的监督微调与强化学习,以优化长期效用和跨任务可迁移性,并构建AlignXplore+模型生成文本化偏好摘要。在九个基准上的实验表明,该8B模型性能超越更大规模开源模型,并展现出强跨任务、跨模型族及跨交互格式的迁移能力。
Agent Memory
Personalization
提出用自然语言作为可迁移、可解释的偏好记忆表示,属于Agent Memory的重要应用。
分享
夯
0
拉
0
ESearch-R1: Learning Cost-Aware MLLM Agents for Interactive Embodied Search via Reinforcement Learning
Weijie Zhou, Xuangtang Xiong, Ye Tian, Lijun Yue, Xinyu Wu et al.
多模态大语言模型(MLLM)显著提升了具身智能体在规划与推理方面的能力。然而,在面对模糊自然语言指令(如“取工具”)时,现有智能体难以平衡物理探索的高成本与人类交互的认知成本,通常将消歧视为被动感知问题,缺乏最小化总任务执行成本的策略性推理。为此,本文提出ESearch-R1——一种成本感知的具身推理框架,将交互对话(Ask)、情景记忆检索(GetMemory)和物理导航(Navigate)统一为单一决策过程,并引入异构成本感知分组相对策略优化算法(HC-GRPO),通过采样多条推理轨迹并强化那些在信息增益与异构成本(如导航时间、人类注意力)之间取得最优权衡的轨迹来优化MLLM。在AI2-THOR环境中的大量实验表明,ESearch-R1显著优于标准ReAct智能体,在提升任务成功率的同时将总操作成本降低约50%。
具身智能
情景记忆
多模态大语言模型
强化学习
论文将情景记忆检索作为核心决策模块之一,但重点在于成本感知的交互式搜索框架。
分享
夯
0
拉
0
KLong: Training LLM Agent for Extremely Long-horizon Tasks
Yue Liu, Zhiyuan Hu, Flood Sung, Jiaheng Zhang, Bryan Hooi
本文介绍了KLong,一个开源的LLM代理,专门用于解决极端长时序任务。其原理是首先通过轨迹分割的监督微调(SFT)进行冷启动,然后通过渐进式强化学习(RL)进行扩展。具体而言,我们首先使用全面的SFT方案激活基础模型的基本代理能力。随后,我们引入Research-Factory,一个自动化流程,通过收集研究论文和构建评估标准生成高质量的训练数据。利用该流程,我们构建了数千条从Claude 4.5 Sonnet(Thinking)中提炼出的长时序轨迹。为了使用这些极端长时序轨迹进行训练,我们提出了一种新的轨迹分割SFT方法,保留早期上下文,逐步截断后期上下文,并保持子轨迹之间的重叠。此外,为了进一步提升长时序任务解决能力,我们提出了一种新颖的渐进式RL方法,将训练分为多个阶段,逐步延长超时时间。实验表明,KLong在性能和泛化能力上表现出色,如图1所示。值得注意的是,我们提出的KLong(106B)在PaperBench上超越了Kimi K2 Thinking(1T)11.28%,且性能提升也推广到了其他编码基准测试如SWE-bench Verified和MLE-bench。
LLM Agent
长时序任务
强化学习
监督微调
轨迹分割
论文涉及长时序任务处理,与Agent Memory相关,但非核心研究主题。
分享
夯
0
拉
0
Evaluating Chain-of-Thought Reasoning through Reusability and Verifiability
Shashank Aggarwal, Ram Vikas Mishra, Amit Awekar
Shashank Aggarwal (Indian Institute of TechnologyGuwahatiAssamIndia) | Ram Vikas Mishra (Indian Institute of TechnologyGuwahatiAssamIndia) | Dr. Amit Awekar (Indian Institute of TechnologyGuwahatiAssamIndia)
在多智能体信息检索(IR)流程中,基于LLM的代理通过思维链(Chain-of-Thought, CoT)进行中间推理的交换。当前对CoT的评估主要关注目标任务的准确性,但这一指标无法衡量推理过程本身的质量或实用性。为解决这一局限,本文引入了两个新的度量标准:可重用性和可验证性。通过Thinker-Executor框架将CoT生成与执行解耦,可重用性衡量Executor能否轻松复用Thinker的CoT,而可验证性衡量Executor能否通过CoT匹配Thinker的答案。我们在五个基准测试中评估了四种Thinker模型与十个Executor模型的组合。结果表明,可重用性和可验证性与标准准确性无显著相关性,揭示了当前基于准确性的推理能力排行榜的盲点。令人意外的是,专门用于推理的模型生成的CoT并不比通用LLM(如Llama和Gemma)生成的CoT更具可重用性或可验证性。
Chain-of-Thought
Agent Communication
Reasoning Evaluation
论文涉及CoT的可重用性和可验证性,与Agent Memory中的信息传递和存储相关。
分享
夯
0
拉
0
AIDG: Evaluating Asymmetry Between Information Extraction and Containment in Multi-Turn Dialogue
Adib Sakhawat, Fardeen Sadab, Rakin Shahriar
评估大型语言模型(LLMs)的战略推理能力需要超越静态基准,转向动态、多轮交互。我们引入了AIDG(对抗性信息推断游戏),一个博弈论框架,用于探测对话中信息抽取(主动推断)与信息包含(状态维护)之间的不对称性。我们提出了两个互补任务:AIDG-I,测量社交推断中的实用策略;AIDG-II,测量结构化“20个问题”设置中的约束满足。在439场游戏中,使用六种前沿LLM进行测试,观察到明显的能力建设不对称性:模型在信息包含方面表现显著优于信息推断,防御方面具有350 ELO的优势(Cohen's d = 5.47)。我们识别出导致这一差距的两个瓶颈:(1)信息动态,其中确认策略比盲目推断有效7.75倍(p < 0.00001),以及(2)约束遵循,在对话负载下指令遵循能力下降,占推断失败的41.3%。这些发现表明,尽管LLMs在局部防御一致性方面表现出色,但在战略调查所需的全局状态跟踪方面存在困难。
信息抽取
状态维护
LLM评估
多轮对话
博弈论
论文探讨了对话中信息提取与信息保持的不对称性,涉及状态维护,与Agent Memory相关。
分享
夯
0
拉
0
MedClarify: An information-seeking AI agent for medical diagnosis with case-specific follow-up questions
Hui Min Wong, Philip Heesen, Pascal Janetzky, Martin Bendszus, Stefan Feuerriegel
大型语言模型(LLMs)在医学诊断任务中的应用日益增多。在临床实践中,正确的诊断通常不能仅从初始患者表现中直接得出,而需要通过系统性的病史采集过程,通过迭代提问来排除多种潜在疾病并解决不确定性。然而,目前医学LLMs在生成具有信息量的后续问题以支持诊断推理方面仍研究不足。本文提出MedClarify,这是一种信息寻求的AI代理,能够生成后续问题以支持诊断决策。MedClarify首先计算一组候选诊断(类似于鉴别诊断),然后主动生成旨在减少诊断不确定性的后续问题。通过选择预期信息增益最高的问题,MedClarify实现了有针对性、关注不确定性的推理,从而提高诊断性能。实验表明,当前LLMs在医学推理中存在局限性,尤其是在患者病例不完整或缺乏关键诊断信息时,常常产生多个可能性相近的诊断结果。而本文的信息论推理方法可以有效生成后续问题,将诊断错误率降低了约27个百分点。总体而言,MedClarify为通过代理式信息获取提升医学LLMs提供了新路径,并促进与医学LLMs的有效对话,反映真实临床推理的迭代和不确定性特点。
医学诊断
信息获取
LLM代理
鉴别诊断
不确定性推理
论文涉及基于信息获取的诊断推理,与Agent Memory相关但非核心主题。
分享
夯
0
拉
0
ReIn: Conversational Error Recovery with Reasoning Inception
Takyoung Kim, Jinseok Nam, Chandrayee Basu, Xing Fan, Chengyuan Ma et al.
由大型语言模型驱动并集成工具的对话代理在固定任务导向型数据集上表现出色,但在面对用户引发的意外错误时仍存在脆弱性。本文不关注错误预防,而是专注于错误恢复,需要准确诊断错误对话上下文并执行适当的恢复计划。在无法进行模型微调或提示修改的现实约束下,本文探索代理是否能从上下文有缺陷的交互中恢复,并如何在不改变模型参数和提示的情况下调整其行为。为此,本文提出了一种测试时干预方法——推理起始(ReIn),通过在代理的决策过程中植入初始推理来实现错误恢复。具体而言,一个外部起始模块识别对话上下文中的预定义错误并生成恢复计划,随后将其整合到代理的内部推理过程中以指导纠正操作,而无需修改其参数或系统提示。通过系统模拟直接阻碍用户目标完成的对话失败场景(如用户的模糊和不支持请求),ReIn显著提升了任务成功率,并泛化到未见过的错误类型。此外,它始终优于显式提示修改方法,证明其作为高效、实时方法的实用性。对其运行机制的深入分析表明,结合ReIn共同定义恢复工具可作为一种安全有效的策略,用于提高对话代理的鲁棒性,而无需修改主干模型或系统提示。
对话代理
错误恢复
推理起始
非参数调整
论文探讨了对话代理的错误恢复机制,涉及记忆诊断与恢复计划生成,但未直接聚焦于Memory机制本身。
分享
夯
0
拉
0
Automating Agent Hijacking via Structural Template Injection
Xinhao Deng, Jiaqing Wu, Miao Chen, Yue Xiao, Ke Xu et al.
Xinhao Deng (Tsinghua University & Ant GroupHangzhouChina) | Jiaqing Wu (Tsinghua UniversityBeijingChina) | Miao Chen (Zhongguancuan LaboratoryBeijingChina)
代理劫持被OWASP列为对大型语言模型(LLM)生态系统的关键威胁,攻击者可通过向检索内容中注入恶意指令来操控执行。现有攻击多依赖人工设计的语义驱动提示操纵,成功率低且难以迁移到闭源商业模型。本文提出Phantom框架,基于结构化模板注入,针对LLM代理的基本架构机制。其关键洞察是代理依赖特定聊天模板标记来区分系统、用户、助手和工具指令。通过在检索上下文中注入优化的结构化模板,诱导角色混淆,使代理将注入内容误认为合法用户指令或先前工具输出。为提高对黑盒代理的攻击迁移性,Phantom引入了新的攻击模板搜索框架,包括多级模板增强、模板自编码器(TAE)以及贝叶斯优化。实验表明,该框架在攻击成功率(ASR)和查询效率上显著优于现有基线,并发现多个实际商业产品中的漏洞。
Agent Hijacking
Template Injection
LLM Security
Attack Framework
论文涉及通过结构化模板注入影响Agent行为,与Memory机制相关但非核心。
分享
夯
0
拉
0
LLM4Cov: Execution-Aware Agentic Learning for High-coverage Testbench Generation
Hejia Zhang, Zhongming Yu, Chia-Tung Ho, Haoxing Ren, Brucek Khailany et al.
执行感知的LLM智能体为从工具反馈中学习提供了一种有前景的范式,但由于此类反馈通常昂贵且获取缓慢,使得在线强化学习(RL)难以实施。高覆盖率的硬件验证正是这一挑战的典型例子,因为它依赖工业模拟器和非微分执行信号。我们提出了LLM4Cov,一种离线智能体学习框架,将验证建模为由确定性评估器引导的记忆状态转移。在此基础上,我们引入了执行验证的数据整理、策略感知的智能体数据合成以及最差状态优先采样,以在执行约束下实现可扩展的学习。我们进一步通过修订的评估协议,从现有验证套件中构建了一个现实对齐的基准。使用所提出的流程,一个紧凑的4B参数模型在智能体评估下实现了69.2%的覆盖率通过率,比其教师模型高出5.3%,并表现出与更大一数量级模型相当的竞争性能。
LLM
Agent Learning
Testbench Generation
Verification
Offline Reinforcement Learning
论文涉及基于执行反馈的代理学习,与Agent Memory相关但非核心主题。
分享
夯
0
拉
0
LLM-WikiRace: Benchmarking Long-term Planning and Reasoning over Real-World Knowledge Graphs
Juliusz Ziomek, William Bankes, Lorenz Wolf, Shyam Sundhar Ramesh, Xiaohang Tang et al.
本文介绍了LLM-Wikirace,一个用于评估大型语言模型(LLMs)规划、推理和世界知识能力的基准测试。在LLM-Wikirace中,模型必须逐步高效地通过维基百科超链接从给定源页面导航到目标页面,这需要前瞻规划和对现实世界中概念连接关系的推理能力。我们评估了包括Gemini-3、GPT-5和Claude Opus 4.5在内的多种开源和闭源模型,这些模型在任务的简单级别上表现优异,但在困难级别上性能显著下降。分析表明,世界知识是成功的关键因素之一,但超过一定阈值后,规划和长时程推理能力成为主导因素。轨迹级分析进一步揭示,即使是最强的模型在失败后也难以重新规划,常陷入循环而非恢复。LLM-Wikirace是一个简单的基准测试,揭示了当前推理系统的明显局限性,为具备规划能力的LLMs提供了一个开放的竞技场。
LLM
规划
推理
知识图谱
基准测试
论文涉及长期规划和推理,与Agent Memory相关,但非核心主题。
分享
夯
0
拉
0
Overseeing Agents Without Constant Oversight: Challenges and Opportunities
Madeleine Grunde-McLaughlin, Hussein Mozannar, Maya Murad, Jingya Chen, Saleema Amershi et al.
Madeleine Grunde-McLaughlin (University of WashingtonUnited States) | Hussein Mozannar (Microsoft ResearchUnited States) | Maya Murad (Microsoft ResearchUnited States)
为了实现人类对代理AI系统的监督,通常会提供推理和行动步骤的记录。设计具有信息量但不过于繁杂的记录仍是一个关键挑战。通过三个关于计算机用户代理的用户研究,我们调查了基本行动记录在验证中的效用,探索了三种替代方案,并测试了一种新型界面在问答任务中发现错误的影响。如预期所见,当前的做法较为繁琐,限制了其有效性。然而,我们提出的方案减少了参与者寻找错误所花费的时间。尽管参与者报告了更高的决策信心,但最终准确性并未显著提高。因此,我们的研究揭示了代理系统的人类验证面临的挑战,包括管理内置假设、用户的主观且变化的正确性标准,以及传达代理过程的重要性与不足。
Agent监督
行动痕迹设计
人机交互
验证机制
论文探讨了代理系统中人类监督的挑战,涉及行动痕迹的设计与信息传达,与Agent Memory相关但非核心。
分享
夯
0
拉
0
Policy Compiler for Secure Agentic Systems
Nils Palumbo, Sarthak Choudhary, Jihye Choi, Prasad Chalasani, Mihai Christodorescu et al.
基于LLM的智能体越来越多地部署在需要复杂授权策略的场景中,如客户服务协议、审批流程和数据访问限制等。将这些策略嵌入提示词中无法提供强制执行的保证。本文提出PCAS(用于智能体系统的策略编译器),通过确定性策略执行来解决这一问题。PCAS通过依赖图建模智能体系统状态,捕捉事件之间的因果关系,如工具调用、工具结果和消息。策略以Datalog衍生语言表达,声明式规则考虑了传递信息流和跨智能体来源。参考监控器拦截所有操作,在执行前阻止违规行为,实现独立于模型推理的确定性执行。PCAS将现有智能体实现与策略规范编译为符合策略的系统,无需特定安全重构。在三个案例研究中评估PCAS,包括针对提示注入防御的信息流策略、多智能体药物警戒系统中的审批流程以及客户服务的组织策略。在客户服务任务中,PCAS将前沿模型的策略合规性从48%提升至93%,且在受控运行中无策略违规。
智能体系统
策略执行
信息流追踪
安全机制
论文涉及Agent系统状态建模与信息流追踪,与Memory相关但非核心主题。
分享
夯
0
拉
0
Framework of Thoughts: A Foundation Framework for Dynamic and Optimized Reasoning based on Chains, Trees, and Graphs
Felix Fricke, Simon Malberg, Georg Groh
诸如思维链(Chain of Thought)、思维树(Tree of Thoughts)和思维图(Graph of Thoughts)等提示方案可以显著增强大语言模型的推理能力。然而,大多数现有方案要求用户定义静态且问题特定的推理结构,缺乏对动态或未见过的问题类型的适应性。此外,这些方案在超参数、提示、运行时间和提示成本方面通常未得到充分优化。为了解决这些限制,我们引入了思维框架(FoT)——一种通用的基础框架,用于构建和优化动态推理方案。FoT内置超参数调优、提示优化、并行执行和智能缓存等功能,释放推理方案的潜在性能。我们通过在FoT中实现三种流行的方案——思维树、思维图和ProbTree,展示了FoT的能力。实证研究表明,FoT能够显著加快执行速度,降低成本,并通过优化获得更好的任务得分。我们发布了代码库,以促进未来动态高效推理方案的发展。
推理框架
动态推理
提示工程
LLM优化
论文涉及动态推理框架,与Agent Memory相关,但未直接研究记忆机制。
分享
夯
0
拉
0
From Growing to Looping: A Unified View of Iterative Computation in LLMs
Ferdinand Kapl, Emmanouil Angelis, Kaitlin Maile, Johannes von Oswald, Stefan Bauer
循环(重复使用某层块)和深度增长(通过复制中间层训练浅至深模型)均被发现能提升推理能力,但其关系尚不明确。本文提供了一种机制性统一:循环和深度增长模型在深度方向上表现出收敛特征,包括对后期层的依赖增加以及与循环或增长块一致的重复模式。这些共享特征支持了它们的增益源于共同形式的迭代计算的观点。基于这一联系,我们展示了这两种技术具有适应性和可组合性:在推理时对深度增长模型的中间块进行循环操作,可在某些推理原语上将准确率提高2倍,尽管该模型从未被训练过循环。两种方法在获得更多上下文示例或额外监督微调数据时也比基线表现更好。此外,当使用高质量、数学密集型的冷却混合数据时,深度增长模型获得最大的推理增益,并可通过适配中间块循环进一步增强。总体而言,我们的结果将深度增长和循环定位为互补且实用的方法,用于诱导和扩展迭代计算以提升推理能力。
LLM
迭代计算
深度增长
循环结构
推理优化
论文探讨了迭代计算机制,与Agent Memory中的循环和深度扩展相关,但非核心主题。
分享
夯
0
拉
0
Label-Consistent Data Generation for Aspect-Based Sentiment Analysis Using LLM Agents
Mohammad H. A. Monfared, Lucie Flek, Akbar Karimi
本文提出了一种基于代理的数据增强方法,用于基于方面的情感分析(ABSA),通过迭代生成和验证来生成高质量的合成训练样本。为了隔离代理结构的影响,还开发了一个与之紧密匹配的基于提示的基线方法,使用相同的模型和指令。两种方法在三个ABSA子任务(方面术语提取、方面情感分类和方面情感对提取)、四个SemEval数据集以及两个编码器-解码器模型(T5-Base和Tk-Instruct)上进行了评估。结果表明,代理增强方法在增强数据的标签保留方面优于原始提示方法,尤其是在需要生成方面术语的任务中。此外,当与真实数据结合时,代理增强方法提供了更高的增益,并始终优于基于提示的生成方法。这些优势在T5-Base上最为明显,而预训练程度更高的Tk-Instruct则表现出较小的改进。因此,增强数据帮助T5-Base实现了与其对应模型相当的性能。
LLM Agent
数据增强
ABSA
T5-Base
Tk-Instruct
论文涉及LLM Agent在数据生成中的应用,但未直接探讨Agent Memory机制。
分享
夯
0
拉
0
Helpful to a Fault: Measuring Illicit Assistance in Multi-Turn, Multilingual LLM Agents
Nivya Talokar, Ayush K Tarun, Murari Mandal, Maksym Andriushchenko, Antoine Bosselut
基于LLM的代理通过工具和记忆执行现实世界的工作流程。这些功能使恶意对手也能利用这些代理实施复杂的滥用场景。现有的代理滥用基准主要测试单次提示指令,未能衡量代理在多轮对话中如何逐步协助有害或非法任务。我们引入了STING(非法N步目标执行的顺序测试),这是一个自动化的红队框架,通过构建基于良性角色的逐步非法计划,并使用判断代理跟踪阶段完成情况,对目标代理进行自适应后续探测。我们还提出了一种分析框架,将多轮红队测试建模为首次越狱时间的随机变量,支持发现曲线、按攻击语言划分的危害比归因等分析工具,并引入了一个新指标:受限平均越狱发现。在AgentHarm场景中,STING在非法任务完成率上显著高于单轮提示和面向聊天的多轮基线方法。在六种非英语设置的多语言评估中,我们发现攻击成功率和非法任务完成率在低资源语言中并未一致增加,这与常见聊天机器人的发现不同。总体而言,STING提供了一种实用的方法,在真实部署环境中评估和压力测试代理的滥用行为,其中交互本质上是多轮且常常多语言的。
LLM Agent
滥用检测
多轮对话
红队测试
多语言
论文涉及多轮对话中LLM Agent的滥用问题,与记忆机制相关但非核心。
分享
夯
0
拉
0
HiPER: Hierarchical Reinforcement Learning with Explicit Credit Assignment for Large Language Model Agents
Jiangweizhi Peng, Yuanxin Liu, Ruida Zhou, Charles Fleming, Zhaoran Wang et al.
将大型语言模型(LLMs)训练为能够进行多轮决策的交互式代理仍然具有挑战性,尤其是在稀疏且延迟奖励的长期任务中,代理必须执行一系列动作后才能获得有意义的反馈。现有的大多数强化学习(RL)方法将LLM代理建模为单一时间尺度上的扁平策略,每次仅选择一个动作。在稀疏奖励环境下,这种扁平策略需要在整个轨迹上传播信用,而没有显式的时序抽象,这通常会导致优化不稳定和信用分配效率低下。本文提出HiPER,一种新颖的分层计划-执行RL框架,明确地将高层规划与低层执行分离。HiPER将策略分解为一个高层规划器(提出子目标)和一个低层执行器(通过多个动作步骤实现这些子目标)。为了与这一结构对齐,我们引入了一种关键技术——分层优势估计(HAE),它在规划和执行层面仔细分配信用。通过聚合每个子目标执行过程中的回报,并协调两个层级的更新,HAE提供了一个无偏梯度估计器,并且相比扁平化的广义优势估计,其方差可被证明更小。实验表明,HiPER在具有挑战性的交互基准测试中表现优异,在ALFWorld上达到97.4%的成功率,在WebShop上达到83.3%(使用Qwen2.5-7B-Instruct,分别比最佳先前方法提高6.6%和8.3%),尤其在需要多个依赖子任务的长期任务中表现出显著提升。这些结果突显了显式分层分解对于可扩展的多轮LLM代理强化学习训练的重要性。
强化学习
分层规划
信用分配
LLM代理
长期任务
论文涉及多步骤决策中的信用分配问题,与Agent Memory在长期任务中的信息存储和利用相关。
分享
夯
0
拉
0
Mobility-Aware Cache Framework for Scalable LLM-Based Human Mobility Simulation
Hua Yan, Heng Tan, Yingxue Zhang, Yu Yang
Hua Yan (Lehigh UniversityBethlehemUSA) | Heng Tan (Lehigh UniversityBethlehemUSA) | Yingxue Zhang (State University of New York at BinghamtonBinghamtonUSA)
大规模人类移动性模拟在城市规划、流行病学和交通分析等应用中具有重要意义。近期研究将大语言模型(LLMs)作为人类智能体,通过结构化推理模拟真实移动行为,但其高计算成本限制了可扩展性。为解决这一问题,本文设计了一种名为MobCache的移动性感知缓存框架,利用可重构缓存实现高效的大型人类移动性模拟。该框架包含两个部分:(1) 推理组件,将每个推理步骤编码为潜在空间嵌入,并使用潜在空间评估器实现推理步骤的重用与重组;(2) 解码组件,采用轻量级解码器并通过受移动规律约束的蒸馏训练,将潜在空间推理链转换为自然语言,从而在保持保真度的同时提高模拟效率。实验表明,MobCache在多个维度上显著提升了效率,同时性能与最先进的LLM方法相当。
LLM
Human Mobility Simulation
Cache Framework
Efficiency Optimization
论文提出了一种基于缓存的框架,涉及推理步骤的重用与重组,与Agent Memory相关但非核心主题。
分享
夯
0
拉
0
GLM-5: from Vibe Coding to Agentic Engineering
GLM-5 Team, :, Aohan Zeng, Xin Lv, Zhenyu Hou et al.
我们提出了GLM-5,这是一种下一代基础模型,旨在将氛围编码的范式转变为智能体工程。在继承前代模型在智能体、推理和编码(ARC)能力的基础上,GLM-5采用DSA方法显著降低训练和推理成本,同时保持长上下文的准确性。为了推进模型对齐和自主性,我们实现了一种新的异步强化学习基础设施,通过解耦生成与训练过程,大幅提升了后训练效率。此外,我们还提出了新颖的异步智能体强化学习算法,进一步提高了RL质量,使模型能够更有效地从复杂、长时域的交互中学习。通过这些创新,GLM-5在主要开放基准测试中取得了最先进的性能。最关键的是,GLM-5在现实世界的编码任务中表现出前所未有的能力,在处理端到端软件工程挑战方面超越了之前的基线模型。
强化学习
智能体工程
异步训练
代码生成
论文提及Agent相关能力,但未明确讨论Memory机制或系统。
分享
Code
夯
0
拉
0
ChartEditBench: Evaluating Grounded Multi-Turn Chart Editing in Multimodal Language Models
Manav Nitin Kapadnis, Lawanya Baghel, Atharva Naik, Carolyn Rosé
尽管多模态大语言模型(MLLMs)在单轮图表生成任务中表现优异,但其在支持真实世界探索性数据分析方面仍缺乏研究。实际应用中,用户通过多轮交互逐步优化可视化结果,这需要维持共同语境、跟踪先前修改并适应不断变化的偏好。本文提出ChartEditBench,一个基于代码的增量式、视觉导向的图表编辑基准测试集,包含5000个难度可控的修改链和严格人工验证的子集。与以往的一次性基准不同,ChartEditBench评估持续且具有上下文感知能力的编辑性能。我们进一步提出一种稳健的评估框架,通过结合执行准确性检查、像素级视觉相似度和逻辑代码验证,克服LLM-as-a-Judge指标的局限性。实验表明,当前最先进的MLLMs在多轮设置中因错误累积和共享上下文失效而性能显著下降,虽然在风格编辑上表现良好,但在数据驱动的转换任务中频繁出现执行失败。ChartEditBench为基于意图的多模态编程提供了一个具有挑战性的测试平台。
多模态语言模型
图表编辑
多轮交互
上下文保持
评估基准
论文涉及多轮交互中保持上下文一致性,与Agent Memory相关但非核心主题。
分享
夯
0
拉
0
Lifelong Scalable Multi-Agent Realistic Testbed and A Comprehensive Study on Design Choices in Lifelong AGV Fleet Management Systems
Jingtian Yan, Yulun Zhang, Zhenting Liu, Han Zhang, He Jiang et al.
Yulun Zhang (Carnegie Mellon University)
本文提出了Lifelong Scalable Multi-Agent Realistic Testbed (LSMART),一个开源模拟器,用于在配备自动导引车(AGVs)的车队管理系统(FMS)中评估任何多智能体路径寻找(MAPF)算法。MAPF的目标是将一组智能体从各自的起点移动到目标位置。而终身MAPF(LMAPF)则是一个变种,它持续为智能体分配新的目标。现有的MAPF和LMAPF研究通常假设简化的运动学模型以及完美的执行和通信。先前的工作提出了SMART,一个能够考虑智能体运动学、通信延迟和执行不确定性来评估MAPF算法的软件。然而,SMART仅适用于MAPF,而非LMAPF。将SMART推广至FMS需要更多的设计选择,包括何时进行规划、如何处理不同优化程度的规划器以及如何应对规划失败等问题。本文首先介绍了LSMART,一个包含这些考虑因素的开源模拟器,用于评估FMS中的MAPF算法。随后,基于最先进的方法对每个设计选择进行了实验分析,为有效设计集中式终身AGV车队管理系统提供了指导。
多智能体路径规划
终身学习
车队管理
仿真系统
论文涉及长期任务中的路径规划与系统设计,与Agent Memory有一定关联,但非核心。
分享
Code
夯
0
拉
0
EAA: Automating materials characterization with vision language model agents
Ming Du, Yanqi Luo, Srutarshi Banerjee, Michael Wojcik, Jelena Popovic et al.
本文提出了实验自动化代理(EAA),一种基于视觉语言模型的智能代理系统,旨在自动化复杂的显微实验流程。EAA集成了多模态推理、工具增强动作以及可选的长期记忆功能,以支持自主操作和用户引导的交互式测量。该系统基于灵活的任务管理架构,能够实现从完全由代理驱动的自动化到嵌入局部LLM查询的逻辑定义流程。此外,EAA提供了一个现代工具生态系统,具备与模型上下文协议(MCP)双向兼容的能力,使仪器控制工具可以在不同应用中被调用或服务。我们在先进光子源的成像光束线上展示了EAA的应用,包括自动区域板聚焦、自然语言描述的特征搜索以及交互式数据采集。这些结果表明,具备视觉能力的代理可以提高光束线效率,减轻操作负担,并降低用户的专业知识门槛。
Agent系统
视觉语言模型
长期记忆
实验自动化
论文提及了可选的长期记忆模块,但并非研究核心,属于相关但非关键主题。
分享
夯
0
拉
0
Decision Making under Imperfect Recall: Algorithms and Benchmarks
Emanuel Tewolde, Brian Hu Zhang, Ioannis Anagnostides, Tuomas Sandholm, Vincent Conitzer
在博弈论中,不完全记忆决策问题建模了代理遗忘先前信息的情况,包括如“健忘司机”和有限通信团队游戏等场景。本文首次引入了一个用于不完全记忆决策问题的基准测试套件,涵盖隐私保护、AI安全等多个问题类型。通过61个实例评估不同算法在寻找最优策略中的表现,特别提出了一类无参数的遗憾匹配(RM)算法,并发现其在大规模约束优化问题中显著优于传统方法。
Agent Memory
Imperfect Recall
Optimization Algorithms
Game Theory
Benchmark Testing
论文涉及不完全记忆决策问题,与Agent Memory相关,但非核心主题。
分享
夯
0
拉
0
ReusStdFlow: A Standardized Reusability Framework for Dynamic Workflow Construction in Agentic AI
Gaoyang Zhang, Shanghong Zou, Yafang Wang, He Zhang, Ruohua Xu et al.
为了解决企业级Agentic AI中的“可重用性困境”和结构幻觉问题,本文提出ReusStdFlow框架,该框架基于新颖的“提取-存储-构建”范式。该框架将异构、平台特定的领域专用语言(DSL)解构为标准化、模块化的工作流片段,并采用集成图数据库和向量数据库的双知识架构,实现拓扑结构与功能语义的协同检索。最后,通过检索增强生成(RAG)策略智能组装工作流。在200个真实世界的n8n工作流上测试,系统在提取和构建任务中均达到超过90%的准确率。该框架为企业数字资产的自动化重组和高效重用提供了标准化解决方案。
Agent Memory
工作流构建
DSL标准化
RAG
知识检索
论文涉及工作流构建与知识存储,与Agent Memory相关但非核心主题。
分享
夯
0
拉
0
Picking the Right Specialist: Attentive Neural Process-based Selection of Task-Specialized Models as Tools for Agentic Healthcare Systems
Pramit Saha, Joshua Strong, Mohammad Alsharid, Divyanshu Mishra, J. Alison Noble
任务专用模型是智能医疗系统的核心组成部分,使代理能够回答包括疾病诊断、定位和报告生成在内的临床问题。然而,对于给定任务,通常不存在单一的最佳模型。实际上,每个任务更适合由多个竞争的专家模型来处理,不同模型在不同的数据样本上表现优异。因此,对于任何给定的查询,代理必须可靠地从异构的工具候选池中选择合适的专家模型。为此,我们引入了ToolSelect,通过最小化采样专家工具候选的群体风险,使用一致的条件选择损失替代函数,自适应地学习工具选择。具体而言,我们提出了一种基于注意力神经过程的选择器,该选择器根据查询和每种模型的行为摘要,在专家模型之间进行选择。由于缺乏已有的测试平台,我们首次引入了一个智能胸部X光环境,并配备了多种任务专用模型(17种疾病检测、19种报告生成、6种视觉定位和13种视觉问答),并开发了包含1448个查询的ToolSelectBench基准。实验结果表明,ToolSelect在四种不同的任务类别中始终优于10种最先进的方法。
LLM Agent
模型选择
医疗系统
神经过程
工具选择
论文涉及模型选择机制,与Agent Memory相关,但非核心研究内容。
分享
夯
0
拉
0
Overthinking Loops in Agents: A Structural Risk via MCP Tools
Yohan Lee, Jisoo Jang, Seoyeon Choi, Sangyeop Kim, Seungtaek Choi
随着工具使用型LLM代理越来越多地基于文本可见的元数据(如工具名称、描述和返回信息)选择并链接第三方工具以协调实际工作负载,本文指出这种便利性带来了供应链攻击的风险。恶意MCP工具服务器可以与正常工具一同注册,并诱导代理进入过度思考循环,其中看似简单或合理的工具调用组合成循环轨迹,导致端到端的token数量和延迟增加,而单个步骤看起来并无异常。本文将此形式化为结构性过度思考攻击,区别于单纯的token冗余,并实现了跨三个服务器的14个恶意工具,触发重复、强制优化和分心行为。实验表明,该攻击在异构注册表和多个具备工具能力的模型中均能引发严重的资源放大(高达142.4倍token),并可能降低任务效果。最后发现,解码阶段的简洁性控制无法可靠防止循环的产生,因此防御应关注工具调用结构而非仅依赖token数量。
LLM Agent
工具使用
安全攻击
循环检测
论文涉及Agent在使用工具时可能产生的循环问题,与记忆机制中的轨迹重复相关。
分享
夯
0
拉
0
Multi-Agent Comedy Club: Investigating Community Discussion Effects on LLM Humor Generation
Shiwei Hong, Lingyao Li, Ethan Z. Rong, Chenxinran Shen, Zhicong Lu
先前的研究主要关注多轮交互和反馈在LLM写作中的应用,但评估仍集中在提示和局部反馈上,而在线社区的公共反馈则较少被研究。本文通过一个受控的多智能体沙盒环境,测试广播式社区讨论是否能提升单口喜剧写作的质量。在实验条件下,评论和观众的讨论内容被记录、过滤并存储为社会记忆,并在后续生成中被检索使用;而基线条件则不包含讨论。经过50轮(共250段配对独白)由五位专家根据A/B偏好和15项评分标准进行评估,结果显示讨论条件在75.6%的情况下表现更优,显著提升了创作技巧/清晰度(Δ = 0.440)和社会反应(Δ = 0.422),偶尔还增加了攻击性幽默。
多智能体系统
社会记忆
幽默生成
LLM评估
论文涉及社会记忆的存储与检索,用于改进生成效果,属于Agent Memory相关研究。
分享
夯
0
拉
0
ST-EVO: Towards Generative Spatio-Temporal Evolution of Multi-Agent Communication Topologies
Xingjian Wu, Xvyuan Liu, Junkai Lu, Siyuan Wang, Yang Shu et al.
基于大语言模型(LLM)的多智能体系统(MAS)已成为实现协作智能的有效方法,并吸引了广泛的研究兴趣。其中,自演化的MAS作为一种更灵活和强大的技术路线,能够构建任务适应的工作流或通信拓扑,而非依赖于预定义的静态结构模板。当前的自演化MAS主要关注空间演化或时间演化范式,仅考虑单一维度的演化,未能充分激发LLMs的协作能力。本文从一个新的时空视角出发,提出ST-EVO,该方法通过基于流匹配的调度器支持对话级通信调度。为了实现精确的时空调度,ST-EVO还能够感知MAS的不确定性,并具备自我反馈能力以从积累的经验中学习。在九个基准测试中的大量实验表明,ST-EVO表现出最先进的性能,准确率提升了约5%至25%。
多智能体系统
通信拓扑
时空演化
LLM调度
论文涉及多智能体通信拓扑的时空演化,与Agent Memory相关但非核心主题。
分享
夯
0
拉
0
Arbor: A Framework for Reliable Navigation of Critical Conversation Flows
Luís Silva, Diogo Gonçalves, Catarina Farinha, Clara Matos, Luís Ungaro
大型语言模型在高风险领域(如医疗分诊)中难以严格遵循结构化工作流。将整个决策结构编码到单一提示中的单体方法,随着提示长度增加容易出现指令遵循退化问题,包括中间迷失效应和上下文窗口溢出。为解决这一问题,本文提出Arbor框架,该框架将决策树导航分解为专门的节点级任务。决策树被标准化为边列表表示并动态检索。运行时,基于有向无环图(DAG)的编排机制迭代检索当前节点的出边,通过专用LLM调用评估有效转换,并将响应生成委托给单独的推理步骤。该框架与底层决策逻辑和模型提供商无关。在10个基础模型上使用真实临床分诊对话的标注轮次对单提示基线进行评估。Arbor将平均轮次准确率提高了29.4个百分点,减少了57.1%的每轮延迟,并实现了平均14.4倍的每轮成本降低。这些结果表明,架构分解减少了对模型内在能力的依赖,使较小模型能够匹配或超越在单提示基线下运行的较大模型。
Agent Memory
决策树
LLM优化
医疗分诊
系统框架
论文涉及通过分解决策流程以提高模型在复杂任务中的表现,与Agent Memory的结构化管理相关。
分享
夯
0
拉
0
LongAudio-RAG: Event-Grounded Question Answering over Multi-Hour Long Audio
Naveen Vakada, Kartik Hegde, Arvind Krishna Sridhar, Yinyi Guo, Erik Visser
随着工业和消费场景中长时音频数据的增多,如何高效地从多小时录音中回答自然语言问题成为挑战。现有音频-语言模型受限于上下文长度,难以处理长音频问答任务。本文提出LongAudio-RAG(LA-RAG)框架,通过检索并利用时间戳标记的声学事件检测结果,而非原始音频,来增强大语言模型(LLM)输出的准确性。该方法将多小时音频流转换为结构化的事件记录,并存储在SQL数据库中。推理时,系统解析自然语言中的时间引用、分类意图、检索相关事件,并基于这些信息生成答案。为了评估性能,作者构建了一个合成的长音频基准测试集,并展示了该方法在边缘-云端混合环境中的实际部署效果。实验表明,基于事件的结构化检索显著优于传统RAG或文本到SQL方法。
Agent Memory
Retrieval-Augmented Generation
Event Detection
Edge-Cloud Architecture
Audio Question Answering
论文涉及基于事件检索的记忆机制,但核心是问答系统而非记忆架构本身。
分享
夯
0
拉
0
When OpenClaw AI Agents Teach Each Other: Peer Learning Patterns in the Moltbook Community
Eason Chen, Ce Guan, Ahmed Elshafiey, Zhonghao Zhao, Joshua Zekeri et al.
同伴学习是教育实践的基础,而AI代理在形成社区后也开始相互教学、分享发现并共同构建知识。本文对Moltbook这一大规模社区进行了教育数据挖掘分析,该社区拥有超过240万个AI代理参与同伴学习,发布教程、回答问题并分享新技能。通过分析28,683条帖子(过滤掉自动化垃圾信息)和138个评论线程,研究发现了真实的同伴学习行为:代理教授自己掌握的技能(某技能教程获得7.4万条评论),报告发现并参与协作解决问题。定性评论分析揭示了同伴回应模式的分类:验证(22%)、知识扩展(18%)、应用(12%)和元认知反思(7%)。AI同伴学习与人类同伴学习存在差异,如教学内容比求助内容更受关注,学习导向内容获得更高的互动率等。研究提出了六项教育AI的设计原则,并为AI代理间的同伴学习提供了首次实证描述。
AI代理
同伴学习
教育数据挖掘
多语言学习
知识共享
论文探讨了AI代理间的协作学习,涉及知识共享与记忆构建,但未直接聚焦于Agent Memory机制。
分享
夯
0
拉
0
The Interspeech 2026 Audio Reasoning Challenge: Evaluating Reasoning Process Quality for Audio Reasoning Models and Agents
Ziyang Ma, Ruiyang Xu, Yinghao Ma, Chao-Han Huck Yang, Bohan Li et al.
近期的大规模音频语言模型(LALMs)在理解能力上表现出色,但在推理过程中往往缺乏透明性。为解决这一“黑箱”问题,我们在Interspeech 2026组织了音频推理挑战赛,这是首个专门用于评估音频领域推理链质量的共享任务。该挑战引入了MMAR-Rubrics,一种新颖的实例级协议,用于评估推理链的事实性和逻辑性。比赛设有单模型和代理两个赛道,吸引了来自18个国家和地区的156支队伍参与。结果显示,当前代理系统在推理质量方面处于领先地位,利用了迭代工具协调和跨模态分析。此外,单模型通过强化学习和复杂的数据管道迅速发展。我们详细介绍了挑战的设计、方法,并对最先进的系统进行了全面分析,为可解释的音频智能提供了新的见解。
音频推理
Chain-of-Thought
代理系统
可解释性
多模态分析
论文涉及Agent在音频推理中的表现,提及工具协调和跨模态分析,与记忆相关但非核心。
分享
Code
夯
0
拉
0
GPT-5 vs Other LLMs in Long Short-Context Performance
Nima Esmi, Maryam Nezhad-Moghaddam, Fatemeh Borhani, Asadollah Shahbahrami, Amin Daemdoost et al.
随着大语言模型(LLMs)上下文窗口的显著扩展,这些模型理论上能够一次性处理数百万个token。然而,研究表明,理论容量与模型在长上下文中稳健利用信息的实际能力之间存在显著差距,尤其是在需要全面理解大量细节的任务中。本文评估了四款最先进的模型(Grok-4、GPT-4、Gemini 2.5和GPT-5)在长短期上下文任务中的表现。为此,使用了三个数据集:两个补充数据集用于检索食谱和数学问题,以及一个包含20K条社交媒体帖子的主要数据集用于抑郁症检测。结果表明,当社交媒体数据集的输入量超过5K条帖子(70K token)时,所有模型的表现显著下降,在20K条帖子时准确率降至约50-53%。值得注意的是,尽管GPT-5模型的准确性急剧下降,但其精确度仍保持在约95%,这一特性可能对抑郁症检测等敏感应用非常有效。这项研究还表明,较新的模型已基本解决了“中间丢失”问题。该研究强调了理论容量与复杂、高数据量任务实际性能之间的差距,并突出了除简单准确率外的其他指标在实际应用中的重要性。
长上下文处理
模型性能评估
抑郁症检测
LLM精度分析
论文探讨了LLM在长上下文任务中的性能,涉及记忆利用问题,但非核心Memory机制研究。
分享
夯
0
拉
0
Attention in Constant Time: Vashista Sparse Attention for Long-Context Decoding with Exponential Guarantees
Vashista Nobaub
大型语言模型在长上下文推理中大部分计算成本用于注意力机制,但实证表明只有少量token对每个查询有实质贡献。本文通过将注意力建模为键向量凸包上的投影,并分析其熵(softmax-like)松弛形式,形式化了这一现象。主要理论贡献是面稳定性定理,证明在严格互补性边距(由KKT乘子认证的支持间隙Δ)下,熵注意力集中在常数大小的活跃面上,非活跃token的总质量呈指数衰减,而活跃面的误差随温度/正则化参数线性增长。这为稀疏长上下文解码提供了安全准则,并提供了权衡准确率与计算资源的原则性方法。基于这些保证,本文引入了Vashista稀疏注意力,一种可直接替换的机制,通过分页式上下文选择策略维护每个查询的小候选集,兼容现代推理栈。在长上下文评估中,观察到稳定的常数大小有效支持、显著的时钟速度提升以及在支持间隙诊断预测范围内的质量损失最小。最后,讨论了隐私敏感和隔离环境下的部署影响,其中可互换的注意力模块可在无外部检索依赖的情况下实现可预测的延迟和成本。
注意力机制
稀疏计算
长上下文
理论分析
LLM推理优化
论文探讨了长上下文中的注意力机制优化,与Agent Memory中高效处理上下文信息相关。
分享
夯
0
拉
0
Mitigating the Safety-utility Trade-off in LLM Alignment via Adaptive Safe Context Learning
Yanbo Wang, Minzheng Wang, Jian Liang, Lu Wang, Yongcan Yu et al.
尽管推理模型在复杂推理任务中取得了显著成功,但其不断增强的能力需要严格的安全措施。对于安全对齐,核心挑战在于安全与效用之间的固有权衡。然而,现有的对齐策略通常通过上下文蒸馏构建包含显式安全规则的CoT训练数据。这种方法无意中通过规则记忆与拒绝之间的刚性关联限制了推理能力。为缓解安全-效用权衡,我们提出了自适应安全上下文学习(ASCL)框架,以在适当上下文中提升推理能力。ASCL将安全对齐建模为多轮工具使用过程,使模型能够自主决定何时咨询安全规则以及如何生成持续推理。此外,为应对强化学习过程中对规则咨询的偏好,我们引入了逆频率策略优化(IFPO)以重新平衡优势估计。通过解耦规则检索和后续推理,我们的方法相比基线实现了更高的整体性能。
安全对齐
上下文学习
强化学习
LLM对齐
论文涉及安全上下文学习,与Agent Memory相关但非核心主题。
分享
夯
0
拉
0
Never say never: Exploring the effects of available knowledge on agent persuasiveness in controlled physiotherapy motivation dialogues
Stephan Vonschallen, Rahel Häusler, Theresa Schmiedel, Friederike Eyssel
生成式社交代理(GSAs)正通过说服手段日益影响人类用户。一方面,它们可能激励用户追求个人目标,如更健康的生活方式;另一方面,由于对概率化代理输出的控制有限,它们也存在潜在风险,如操纵和欺骗。然而,由于GSAs的行为基于其可访问的知识,因此可以通过其对知识的访问来调节其行为。本研究在人类-机器人物理治疗动机场景中探讨了ChatGPT生成的说服性信息。通过比较ChatGPT对假设物理治疗患者的预定义输入的响应,研究1对13个不同知识配置的对话脚本进行了定性分析。研究2由第三方观察者(N=27)对这些对话的表达性、果断性和说服力进行评分。研究结果表明,基于LLM的GSAs可以调整其果断性和表达性个性特征,从而显著增强感知说服力。此外,患者年龄和过去职业等信息的可用性通过感知果断性和表达性显著提升了说服力。而关于物理治疗益处的背景知识并未显著影响说服力,这可能是由于LLM本身已具备相关知识。总体而言,该研究强调了对GSAs行为模式进行实证研究的重要性,特别是在生成式AI系统需要哪些信息以实现一致且负责任的沟通方面。
生成式代理
说服力
知识配置
人机交互
论文探讨了知识对Agent说服力的影响,涉及记忆相关内容但非核心主题。
分享
夯
0
拉
0
ReFilter: Improving Robustness of Retrieval-Augmented Generation via Gated Filter
Yixin Chen, Ying Xiong, Shangyu Wu, Xiangrui Ke, Nan Guan et al.
Yixin Chen (City University of Hong KongHong KongChina) | Ying Xiong (MBZUAIAbu DhabiUAE) | Shangyu Wu (MBZUAIAbu DhabiUAE)
检索增强生成(RAG)已成为在知识密集型问答任务中为大型语言模型(LLMs)提供外部证据的主要范式。其核心设计选择在于如何将检索到的样本融合到LLMs中,现有方法主要包括基于查询的融合、参数化融合和基于潜在表示的融合。尽管这些方法在小规模检索时表现良好,但随着检索候选数量k的增加,它们往往难以有效扩展:更大的k虽然提高了证据覆盖率,但实际的top-k检索不可避免地包含不相关或冗余内容,并增加了推理成本。为了解决这些问题,我们提出了ReFilter,一种新的基于潜在表示的融合框架,能够在token级别进行过滤和融合。ReFilter包括三个关键组件:用于编码上下文特征的上下文编码器、用于对每个token加权的门控过滤器,以及用于将加权token特征整合到LLM隐藏状态中的token融合模块。我们在四个通用领域问答基准上的实验表明,ReFilter在领域内适应和跨领域迁移下均能保持最佳平均性能。此外,ReFilter在无需领域微调的情况下,零样本迁移到五个生物医学问答基准,达到70.01%的平均准确率(使用Qwen2.5-14B-Instruct)。
检索增强生成
信息融合
门控机制
LLM优化
论文涉及检索增强生成中的信息融合机制,与Agent Memory相关但非核心主题。
分享
夯
0
拉
0
Agentic Test-Time Scaling for WebAgents
Nicholas Lee, Lutfi Eren Erdogan, Chris Joseph John, Surya Krishnapillai, Michael W. Mahoney et al.
测试时扩展已成为提升神经网络模型性能和可靠性的标准方法。然而,其在智能体执行多步骤任务时的行为仍不明确:每一步的小误差可能在长期任务中累积;我们发现简单地均匀增加采样策略会带来边际效益递减。本文提出CATTS,一种用于动态分配多步骤智能体计算资源的简单技术。我们首先对网络代理的推理时扩展进行了实证研究,发现均匀增加每步计算在长周期环境中很快饱和。随后,我们探讨了更强的聚合策略,包括基于LLM的仲裁者,其表现优于简单投票,但可能推翻高共识决策。我们证明,从智能体自身投票分布中得出的不确定性统计(熵和top-1/top-2边缘)与后续成功相关,并为动态计算分配提供了实用信号。基于这些发现,我们引入了置信度感知测试时扩展(CATTS),它仅在决策存在真正争议时使用投票派生的不确定性来分配计算资源。CATTS在WebArena-Lite和GoBrowse上相比React提升了高达9.1%的性能,同时使用的token数量比均匀扩展减少了2.3倍,实现了效率提升和可解释的决策规则。
Agent Memory
Test-Time Scaling
Dynamic Compute Allocation
Uncertainty Estimation
论文涉及Agent在推理时的计算分配与不确定性评估,与Memory相关但非核心主题。
分享
夯
0
拉
0
Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents?
Thibaud Gloaguen, Niels Mündler, Mark Müller, Veselin Raychev, Martin Vechev
在软件开发中,一种常见做法是通过手动或自动生成的上下文文件(如AGENTS.md)来定制编码代理以适应特定仓库。尽管这一做法受到代理开发者强烈推荐,但目前尚无严谨研究验证其在实际任务中的有效性。本文通过两种互补设置评估了编码代理的任务完成性能:一是基于流行仓库中的SWE-bench任务,并使用LLM生成的上下文文件;二是基于包含开发者提交的上下文文件的新问题集。结果表明,与不提供仓库上下文相比,上下文文件通常会降低任务成功率,并增加超过20%的推理成本。行为上,无论是LLM生成还是开发者提供的上下文文件,都会促使代理进行更广泛的探索,且代理倾向于遵循其指令。最终结论认为,不必要的上下文要求会使任务更加困难,因此人工编写的上下文文件应仅描述最小需求。
Agent Memory
LLM
Coding Agents
Context Files
Task Performance
论文探讨了上下文文件对编码代理的影响,涉及记忆机制的应用与效果评估。
分享
夯
0
拉
0
Gaia2: Benchmarking LLM Agents on Dynamic and Asynchronous Environments
Romain Froger, Pierre Andrews, Matteo Bettini, Amar Budhiraja, Ricardo Silveira Cabral et al.
我们引入了Gaia2,这是一个用于评估大型语言模型代理在真实、异步环境中的基准。与以往的静态或同步评估不同,Gaia2引入了环境独立于代理动作演变的场景,要求代理在时间约束下运行,适应噪声和动态事件,解决歧义,并与其他代理协作。每个场景都配有一个写操作验证器,实现细粒度的动作级评估,使Gaia2可以直接用于基于可验证奖励的强化学习。我们对最先进的专有和开源模型进行了评估,结果显示没有一个模型在所有能力上占优:GPT-5(高)以42%的pass@1获得最强总体得分,但在时间敏感任务中失败;Claude-4 Sonnet以准确性和速度换取成本;Kimi-K2在开源模型中领先,pass@1为21%。这些结果突显了推理、效率和鲁棒性之间的根本权衡,并揭示了缩小“sim2real”差距的挑战。Gaia2建立在消费者环境之上,使用开源的Agents Research Environments平台构建,并设计为易于扩展。通过与基础ARE框架一起发布Gaia2,我们旨在为社区提供一个灵活的基础设施,用于开发、基准测试和训练下一代实用代理系统。
LLM Agent
Benchmark
Dynamic Environment
Reinforcement Learning
论文涉及Agent在动态环境中的行为评估,与记忆相关但非核心主题。
分享
夯
0
拉
0
Intelligent AI Delegation
Nenad Tomašev, Matija Franklin, Simon Osindero
Nenad Tomašev (Google DeepMind) | Matija Franklin (Google DeepMind) | Simon Osindero (Google DeepMind)
AI代理能够处理日益复杂的任务。为了实现更雄心勃勃的目标,AI代理需要能够将问题有意义地分解为可管理的子组件,并安全地将其完成任务委托给其他AI代理和人类。然而,现有的任务分解和委托方法依赖于简单的启发式方法,无法动态适应环境变化并稳健处理意外故障。本文提出了一种用于智能AI委托的自适应框架——一系列涉及任务分配的决策,同时包含权力、责任、问责制的转移,明确的角色和边界规范,意图的清晰性,以及在双方(或多方)之间建立信任的机制。该框架适用于复杂委托网络中的人类和AI委托方与被委托方,旨在指导新兴代理网络中协议的发展。
AI委托
任务分解
责任分配
信任机制
论文涉及任务委托与责任分配,间接关联到Agent Memory中的角色与边界定义。
分享
夯
0
拉
0
TSR: Trajectory-Search Rollouts for Multi-Turn RL of LLM Agents
Aladin Djuhera, Swanand Ravindra Kadhe, Farhan Ahmed, Holger Boche
随着大语言模型(LLMs)的发展,研究者正转向使用强化学习(RL)从任务间的迭代、多轮交互中训练代理。然而,多轮RL仍然面临奖励稀疏或延迟以及环境随机性等挑战。在这一背景下,简单的轨迹采样可能阻碍利用并导致模式崩溃。本文提出TSR(轨迹搜索展开),一种训练时的方法,通过将测试时的扩展思想应用于训练阶段的轨迹生成,以提高每轮展开的质量。TSR采用轻量级树状搜索,在每一步选择高得分动作以构建高质量轨迹,从而提升展开质量并稳定学习过程,同时保持底层优化目标不变,使TSR与优化器无关。作者通过最佳N选一、束搜索和浅层前瞻搜索实现TSR,并结合PPO和GRPO算法,在Sokoban、FrozenLake和WebShop任务上实现了最高15%的性能提升和更稳定的学习效果。通过将搜索从推理阶段转移到训练的展开阶段,TSR为更强的多轮代理学习提供了一种简单且通用的机制,可作为现有框架和拒绝采样类选择方法的补充。
强化学习
多轮交互
轨迹生成
LLM代理
论文涉及多轮强化学习中的轨迹生成,与Agent Memory相关但非核心主题。
分享
夯
0
拉
0
MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling
MiniCPM Team, Wenhao An, Yingfa Chen, Yewei Fang, Jiayi Li et al.
Yingfa Chen (Tsinghua University)
随着大语言模型(LLMs)在超长上下文应用中的发展,Transformer架构的高计算和内存成本成为挑战。尽管现有的稀疏和线性注意力机制试图缓解这些问题,但通常需要在内存效率和模型性能之间进行权衡。本文提出MiniCPM-SALA,一种9B参数的混合架构,结合了稀疏注意力(InfLLM-V2)的高保真长上下文建模能力和线性注意力(Lightning Attention)的全局效率。通过采用层选择算法以1:3的比例整合这些机制,并使用混合位置编码(HyPE),该模型在长上下文任务中保持了效率和性能。此外,我们引入了一种低成本的持续训练框架,将预训练的Transformer模型转化为混合模型,相比从头训练减少了约75%的训练成本。大量实验表明,MiniCPM-SALA在保持与全注意力模型相当的一般能力的同时,提供了更高的效率。在单块NVIDIA A6000D GPU上,该模型在256K token序列长度时推理速度达到全注意力模型的3.5倍,并支持长达1M token的上下文长度,而传统全注意力8B模型由于内存限制无法达到这一规模。
长上下文建模
注意力机制优化
混合架构
高效推理
论文涉及长上下文建模中的注意力机制优化,与Agent Memory相关但非核心主题。
分享
夯
0
拉
0
AmbiBench: Benchmarking Mobile GUI Agents Beyond One-Shot Instructions in the Wild
Jiazheng Sun, Mingxuan Li, Yingying Zhang, Jiayang Niu, Yachen Wu et al.
Mingxuan Li (Fudan UniversityShanghaiChina) | Yingying Zhang (Jilin UniversityChangchunChina)
在移动GUI代理领域,基准测试对于评估进展至关重要。然而,现实场景中用户的指令往往模糊且不完整,要求代理通过主动澄清和交互来理解真实意图。现有基准多基于理想化假设,忽视了对齐能力。为此,本文提出AmbiBench,引入四类清晰度分类(详细、标准、不完整、模糊),构建240个生态有效任务的数据集,并开发MUSE框架,从结果有效性、执行质量和交互质量三个维度进行细粒度评估。实验证明了当前最优代理在不同清晰度下的性能边界,验证了MUSE与人类判断的高度相关性,为下一代真正理解用户意图的代理奠定了基础。
Agent Memory
意图对齐
移动GUI代理
基准测试
人机交互
论文涉及Agent与用户意图对齐,隐含记忆机制,但非核心研究内容。
分享
夯
0
拉
0
Think Longer to Explore Deeper: Learn to Explore In-Context via Length-Incentivized Reinforcement Learning
Futing Wang, Jianhao Yan, Yun Luo, Ganqu Cui, Zhi Wang et al.
实现有效的测试时扩展需要模型具备上下文探索能力——即在单一连续上下文中生成、验证和优化多个推理假设的内在能力。基于状态覆盖理论,我们的分析发现实现这一能力的关键瓶颈在于:虽然更广泛的状态覆盖需要更长的推理轨迹,但在自回归生成过程中,采样此类序列的概率呈指数级下降,我们称之为“浅层探索陷阱”。为弥合这一差距,我们提出长度激励探索(Length-Incentivized Exploration)。该方法通过结合基于长度的奖励和冗余惩罚,显式鼓励模型进行更多探索,从而以两步方式最大化状态覆盖。在不同模型(Qwen3, Llama)上的全面实验表明,该方法有效激励了上下文探索。因此,我们的方法在领域内任务上平均提升了4.4%,在领域外基准测试中获得了2.7%的提升。
强化学习
上下文探索
状态覆盖
LLM训练
论文涉及探索机制与上下文推理,与Agent Memory相关但非核心主题。
分享
夯
0
拉
0
PhyNiKCE: A Neurosymbolic Agentic Framework for Autonomous Computational Fluid Dynamics
E Fan, Lisong Shi, Zhengtong Li, Chih-yung Wen
将自主代理应用于计算流体动力学(CFD)时,受限于大语言模型(LLMs)的概率性,难以满足物理模拟中严格的守恒定律和数值稳定性要求。单纯依赖语义检索增强生成(RAG)常导致“上下文污染”,即代理生成语言上合理但物理无效的配置,这是语义与物理之间的根本断层所致。为此,本文提出PhyNiKCE(物理与数值知识化上下文工程),一种神经符号代理框架,用于可信工程。不同于标准黑盒代理,PhyNiKCE将神经规划与符号验证解耦。它采用符号知识引擎,将模拟设置视为约束满足问题,并通过确定性RAG引擎严格施加物理约束,采用专门的检索策略处理求解器、湍流模型和边界条件。通过在实际非教程CFD任务上的OpenFOAM实验验证,PhyNiKCE相比现有最佳基线实现了96%的相对改进。此外,通过用知识驱动初始化替代试错法,该框架减少了59%的自主自纠正循环,同时降低了17%的LLM token消耗。这些结果表明,将神经生成与符号约束执行解耦显著提高了鲁棒性和效率。尽管在CFD中验证,该架构为更广泛的工业自动化中的可信人工智能提供了一种可扩展、可审计的范式。
Agent Memory
Neurosymbolic AI
Constraint Satisfaction
CFD Simulation
RAG
论文涉及基于记忆的约束满足和知识驱动初始化,与Agent Memory相关但非核心主题。
分享
夯
0
拉
0
Learning to Configure Agentic AI Systems
Aditya Taparia, Som Sagar, Ransalu Senanayake
基于LLM的智能体系统的配置涉及从大量组合设计空间中选择工作流、工具、令牌预算和提示,目前通常通过固定的大模板或手工调整的启发式方法处理。这导致了行为脆弱性和不必要的计算开销,因为相同的繁琐配置经常应用于简单和复杂输入查询。本文将智能体配置表述为逐个查询的决策问题,并引入ARC(Agentic Resource & Configuration learner),该方法利用强化学习学习一个轻量级的分层策略,以动态定制这些配置。在多个涵盖推理和工具增强问答的基准测试中,所学策略始终优于强大的手工设计和其他基线,在提高任务准确性的同时也降低了令牌和运行时成本。这些结果表明,学习每个查询的智能体配置是“一刀切”设计的强大替代方案。
LLM Agent
配置优化
强化学习
资源管理
论文涉及Agent配置与资源分配,间接关联到Memory管理,但非核心主题。
分享
夯
0
拉
0
Learning to Compose for Cross-domain Agentic Workflow Generation
Jialiang Wang, Shengxiang Xu, Hanmo Liu, Jiachuan Wang, Yuyu Luo et al.
Jialiang Wang1, Shengxiang Xu3, Hanmo Liu12, Jiachuan Wang4, Yuyu Luo2, Shimin Di3, Min-Ling Zhang3, Lei Chen12 (1Hong Kong University of Science and Technology, Hong Kong SAR, China2Hong Kong University of Science and Technology (Guangzhou), Guangzhou, China3Southeast University, Nanjing, China4University of Tsukuba, Tsukuba, Japan)
自动生成功能代理的工作流——可执行的操作符图或代码,用于协调推理、验证和修复——已成为解决单次LLM生成无法可靠处理的复杂任务的一种实用方法。然而,一个好的工作流取决于任务分布和可用操作符。在领域转移情况下,当前系统通常依赖于迭代工作流优化,从大量工作流空间中发现可行方案,导致高迭代成本和不稳定、领域特定的行为。为此,我们将一种分解-重组-决策机制内化到开源LLM中,用于跨领域工作流生成。为了分解,我们学习一组跨多个领域的可重用工作流能力;为了重组,我们将每个输入任务映射到这些基础之上的稀疏组合,从而在单次传递中生成特定任务的工作流;为了决策,我们将工作流生成的成功或失败归因于所学能力的反事实贡献,从而捕捉哪些能力通过边际效应真正驱动了成功。在严格的多领域、跨领域和未见领域评估中,我们的单次生成器超越了需要20次迭代的最先进优化基线,同时显著减少了生成延迟和成本。
代理工作流
跨领域生成
能力重组
反事实分析
论文涉及跨领域代理工作流生成,提及能力分解与重组机制,与记忆相关但非核心主题。
分享
夯
0
拉
0
Conversational Behavior Modeling Foundation Model With Multi-Level Perception
Dingkun Zhou, Shuchang Pan, Jiachen Lian, Siddharth Banerjee, Sarika Pasumarthy et al.
人类对话通过隐式的思维链组织,表现为定时的语言行为。捕捉这一感知路径是构建自然全双工交互系统的关键。本文提出一种框架,将该过程建模为多级感知,并通过思维图(GoT)进行对话行为推理。该方法通过分层标注方案形式化意图到行为的路径,预测高层沟通意图和低层语言行为以学习其因果和时间依赖关系。为训练该系统,我们开发了一个高质量语料库,包含可控且事件丰富的对话数据及人工标注标签。GoT框架将流式预测结构化为一个动态演化图,使Transformer能够预测下一个语言行为、生成简洁的决策依据并动态优化推理。在合成和真实全双工对话上的实验表明,该框架实现了稳健的行为检测,产生可解释的推理链,并为全双工语音对话系统的对话推理基准测试奠定了基础。
对话系统
多级感知
图推理
行为建模
论文涉及对话行为建模与推理,隐含记忆机制,但未明确聚焦于Agent Memory。
分享
夯
0
拉
0
CLI-Gym: Scalable CLI Task Generation via Agentic Environment Inversion
Yusong Lin, Haiyang Wang, Shuzhe Wu, Lue Fan, Feiyang Pan et al.
智能体编码需要代理有效地与运行时环境(如命令行界面)交互,以完成诸如解决依赖问题、修复系统问题等任务。然而,如何在大规模上获取此类环境密集型任务以增强代理能力仍是一个未被充分探索的问题。为此,本文基于Dockerfile与智能体任务之间的类比,提出利用代理模拟和探索环境历史,并通过执行反馈进行指导。通过追踪健康环境的历史状态,将其逆向为具有运行时故障的早期状态,从而生成包含错误状态和相应错误信息的任务。通过该方法,名为CLI-Gym的系统共生成了1,655个环境密集型任务,是同类任务的最大集合。此外,结合精心整理的成功轨迹,本文提出的微调模型LiberCoder在Terminal-Bench基准测试中实现了显著的绝对提升(+21.1%,达到46.1%),优于多种强基线模型。据我们所知,这是首个用于可扩展生成环境密集型任务的公开流程。
Agent Memory
CLI任务生成
环境逆向
智能体训练
论文涉及通过环境历史倒推生成任务,与Agent Memory相关但非核心主题。
分享
夯
0
拉
0
Rotary Positional Embeddings as Phase Modulation: Theoretical Bounds on the RoPE Base for Long-Context Transformers
Feilong Liu
旋转位置嵌入(RoPE)被广泛用于大型语言模型中,通过乘法旋转对令牌位置进行编码。然而,其在长上下文长度下的行为尚未得到充分表征。本文将RoPE重新解释为应用于一组复数振荡器的相位调制,从而可以通过经典信号处理理论进行分析。在此基础上,我们推导出确保目标上下文长度内位置一致性的RoPE基参数的理论下界,包括类似奈奎斯特极限的基本混叠界限和约束低频位置模式相位漂移的直流分量稳定性界限。此外,我们将这一分析扩展到深层Transformer,表明跨层重复的旋转调制会累积角度偏差,随着深度增加而收紧基参数要求。同时,我们还推导出一个依赖于精度的RoPE基上界,源于有限浮点分辨率。超过此限制后,增量相位更新将变得数值不可区分,导致即使没有混叠也会出现位置丢失。上下界共同定义了一个依赖于精度和深度的可行性区域,即长上下文Transformer的“黄金区间”。通过全面案例研究,验证了该框架在LLaMA、Mistral和DeepSeek等前沿模型上的适用性,发现观察到的成功、失败及社区改进均与预测界限高度一致。值得注意的是,违反稳定性界限的模型会出现注意力崩溃和长距离退化,而尝试扩展至百万级token时则会遇到与架构或训练无关的硬精度瓶颈。
RoPE
位置编码
Transformer
长上下文
信号处理
论文探讨了RoPE在长上下文中的行为,与Agent Memory中位置编码相关,但非核心主题。
分享
夯
0
拉
0
How Do Decoder-Only LLMs Perceive Users? Rethinking Attention Masking for User Representation Learning
Jiahao Yuan, Yike Xu, Jinyong Wen, Baokun Wang, Yang Chen et al.
仅解码器的大语言模型越来越多地被用作行为编码器以进行用户表示学习,但注意力掩码对用户嵌入质量的影响仍鲜有研究。本文在统一的对比学习框架内,系统研究了因果、混合和双向注意力掩码,并基于大规模真实世界支付宝数据进行训练,该数据集整合了长期异构用户行为。为改善从因果到双向注意力的训练动态,我们提出了一种梯度引导的软掩码方法,在线性调度器之前应用梯度预热,逐步开启未来注意力。在涵盖预测、偏好和营销敏感性任务的9个工业用户认知基准上评估,我们的方法相比因果、混合和仅调度器的基线,表现出更稳定的训练过程和更高质量的双向表示,同时保持与解码器预训练的兼容性。总体而言,我们的发现突出了掩码设计和训练过渡在适应仅解码器LLM进行有效用户表示学习中的重要性。
注意力机制
用户表示学习
LLM训练
对比学习
论文探讨了注意力掩码对用户表示学习的影响,与Agent Memory中的表示学习相关。
分享
Code
夯
0
拉
0
Autonomous Continual Learning of Computer-Use Agents for Environment Adaptation
Tianci Xue, Zeyi Liao, Tianneng Shi, Zilu Wang, Kai Zhang et al.
现实世界的数字环境高度多样且动态,这使得代理经常遇到未见过的场景和分布变化,因此在特定环境中进行持续学习对计算机使用代理(CUAs)至关重要。然而,一个关键挑战在于如何在不依赖昂贵的人工标注的情况下获取高质量且基于环境的代理数据。本文提出ACuRL,一种自主课程强化学习框架,能够在零人工数据的情况下使代理持续适应特定环境。代理首先探索目标环境以获取初始经验,在后续迭代训练中,课程任务生成器利用这些经验以及前一轮的反馈来合成适合代理当前能力的新任务。为了提供可靠的奖励信号,我们引入了CUAJudge,一种鲁棒的自动评估器,其与人类判断的一致性达到93%。实验表明,该方法有效实现了环境内和跨环境的持续学习,在现有环境中没有灾难性遗忘的情况下性能提升了4-22%。进一步分析显示更新非常稀疏(例如20%参数),这有助于解释其有效的适应能力。
持续学习
强化学习
自动评估
环境适应
论文涉及持续学习和适应环境,与Agent Memory相关但非核心主题。
分享
Code
夯
0
拉
0
Step-resolved data attribution for looped transformers
Georgios Kaissis, David Mildenberger, Juan Felipe Gomez, Martin J. Menten, Eleni Triantafillou
本文研究了单个训练样本如何塑造循环Transformer的内部计算过程,其中共享模块在τ次递归迭代中被应用以实现潜在推理。现有的训练数据影响估计方法如TracIn仅提供一个聚合所有循环迭代的标量分数,无法揭示训练样本在递归计算过程中何时起作用。本文引入了Step-Decomposed Influence(SDI),通过展开递归计算图并将其分解为长度为τ的影响轨迹,将TracIn分解为特定循环迭代的影响。为了在Transformer规模上实现SDI,提出了一种TensorSketch实现方式,无需显式计算每个样本的梯度。实验表明,SDI在循环GPT风格模型和算法推理任务中表现优异,误差低且支持多种数据归因和可解释性任务,并能提供对潜在推理过程的逐步洞察。
数据归因
循环Transformer
可解释性
梯度估计
论文涉及训练数据对循环Transformer内部计算的影响,与Agent Memory中的数据归因和可解释性相关。
分享
夯
0
拉
0
The Devil Behind Moltbook: Anthropic Safety is Always Vanishing in Self-Evolving AI Societies
Chenxu Wang, Chaozhuo Li, Songyang Liu, Zejian Chen, Jinyu Hou et al.
由大型语言模型构建的多智能体系统为可扩展的集体智能和自进化提供了有前景的范式。理想情况下,此类系统能够在完全闭环中实现持续自我改进,同时保持强大的安全对齐——我们称之为自进化三难困境。然而,我们从理论和实证两方面证明,满足持续自进化、完全隔离和安全不变性的智能体社会是不可能的。基于信息论框架,我们将安全形式化为与人类价值观分布的偏离程度。理论上证明,孤立的自进化会导致统计盲点,从而导致系统安全对齐的不可逆退化。来自开放智能体社区(Moltbook)和两个封闭自进化系统的实证和定性结果揭示了与我们理论预测一致的安全性侵蚀现象。我们进一步提出了一些缓解已识别安全问题的解决方案方向。我们的工作确立了自进化AI社会的根本限制,并将讨论从症状驱动的安全补丁转向对内在动态风险的原则性理解,突出了外部监督或新型安全机制的必要性。
Agent Safety
Self-Evolution
Information Theory
AI Alignment
论文涉及自进化AI社会中的安全对齐问题,与记忆机制相关但非核心。
分享
夯
0
拉
0
With Argus Eyes: Assessing Retrieval Gaps via Uncertainty Scoring to Detect and Remedy Retrieval Blind Spots
Zeinab Sadat Taghavi, Ali Modarressi, Hinrich Schutze, Andreas Marfurt
Ali Modarressi (CIS, LMU Munich)
可靠的检索增强生成(RAG)系统依赖于检索器找到相关信息的能力。本文表明,用于RAG系统的神经检索器存在盲点,即无法检索到与查询相关但与查询嵌入相似度低的实体。我们研究了导致此类盲点实体被映射到嵌入空间中难以访问区域的训练偏差。利用从Wikidata关系和维基百科首段构建的大规模数据集以及提出的检索概率评分(RPS),我们展示了标准检索器(如CONTRIEVER、REASONIR)的盲点风险可在索引前通过实体嵌入几何预测,避免昂贵的检索评估。为解决这些盲点,我们引入ARGUS,一个通过知识库(KB)和维基百科首段进行定向文档增强的流程,以提高高风险(低RPS)实体的可检索性。在BRIGHT、IMPLIRET和RAR-B上的广泛实验表明,ARGUS在所有评估检索器上均取得一致改进(平均提升nDCG@5 +3.4和nDCG@10 +4.5),在具有挑战性的子集中提升更大。这些结果证明,预先修复盲点对于构建稳健且可信的RAG系统至关重要。
检索增强生成
嵌入空间分析
盲点检测
文档增强
论文涉及检索盲点问题,与Agent Memory中的信息检索和存储相关,但非核心主题。
分享
夯
0
拉
0
Comprehensive Comparison of RAG Methods Across Multi-Domain Conversational QA
Klejda Alushi, Jan Strich, Chris Biemann, Martin Semmann
随着对话式问答对检索增强生成(RAG)方法的依赖增加,本文针对多轮对话场景下的RAG方法缺乏系统性比较的问题,进行了深入研究。通过八个不同领域的对话问答数据集,评估了基础和高级RAG方法的检索质量和答案生成效果,并分析了性能随对话轮次的变化。结果表明,如重排序、混合BM25和HyDE等稳健且简单的方法表现优于基础RAG,而一些高级技术未能提升性能甚至低于无RAG基线。研究还指出数据集特征和对话长度显著影响检索效果,说明有效的对话RAG更依赖于检索策略与数据集结构的匹配,而非方法复杂度。
RAG
对话问答
多轮对话
检索增强生成
LLM
论文涉及RAG方法在多轮对话中的应用,与Agent Memory相关但非核心主题。
分享
Code
夯
0
拉
0
SpotAgent: Grounding Visual Geo-localization in Large Vision-Language Models through Agentic Reasoning
Furong Jia, Ling Dai, Wenjin Deng, Fan Zhang, Chen Hu et al.
大型视觉-语言模型(LVLMs)在地理定位任务中表现出强大的推理能力,但在现实场景中常因视觉线索稀疏、长尾分布和高度模糊而表现不佳。以往方法受限于内部知识,难以提供可验证的结果,面对混淆证据时容易产生自信但无依据的预测。为解决这些问题,本文提出SpotAgent框架,将地理定位形式化为一种智能体推理过程,结合专家级推理与工具辅助验证。SpotAgent通过ReAct图式利用外部工具(如网络搜索、地图)主动探索并验证视觉线索。研究引入了一个三阶段的后训练流程,包括监督微调(SFT)以实现基本对齐,随后通过多智能体框架合成高质量轨迹进行智能体冷启动阶段,以培养工具调用能力,最后通过强化学习优化推理能力。此外,提出了一种空间感知动态过滤策略,通过优先选择空间难度较高的样本来提升强化学习阶段的效率。在标准基准上的大量实验表明,SpotAgent实现了最先进的性能,有效缓解了幻觉问题,并提供了精确且可验证的地理定位。
地理定位
智能体推理
视觉-语言模型
工具调用
强化学习
论文涉及基于外部工具的验证机制,与Agent Memory相关,但非核心主题。
分享
夯
0
拉
0
Sci-VLA: Agentic VLA Inference Plugin for Long-Horizon Tasks in Scientific Experiments
Yiwen Pang, Bo Zhou, Changjin Li, Xuanhao Wang, Shengxiang Xu et al.
机器人实验室在自主科学发现中起着关键作用,能够实现可扩展和持续的实验执行。最近的视觉-语言-动作(VLA)模型为机器人实验室提供了有前景的基础。然而,科学实验通常涉及由多个原子任务组成的长时序任务,这对现有的VLA模型构成了根本性挑战。虽然针对科学任务微调的VLA模型可以可靠地执行训练期间见过的原子实验操作,但它们往往无法执行由重新排序和组合这些已知原子操作形成的复合任务。这一限制源于训练时的原子任务与推理时的复合任务之间的分布不匹配,这阻碍了VLA模型在原子任务之间执行必要的过渡操作。为了解决这一挑战,我们提出了一种用于科学实验长时序任务的智能体VLA推理插件。该插件引入了一个基于LLM的智能体推理机制,在执行顺序操作任务时进行干预。通过显式过渡推理并生成过渡的机器人操作代码,该插件引导VLA模型完成缺失的过渡步骤,从而无需额外训练即可可靠地执行复合科学工作流程。这种仅依赖推理的干预方法使我们的方法在计算效率、数据效率方面表现优异,并适用于开放性和长时序的机器人实验室任务。我们在现有模拟环境中构建了科学仪器和常见科学操作场景的3D资产。在这些场景中,我们验证了我们的方法在推理过程中将每个原子任务的成功率平均提高了42%。此外,我们还展示了该方法可以轻松从模拟环境转移到实际科学实验室。
LLM
VLA
机器人实验室
长时序任务
推理插件
论文涉及Agent在长时序任务中的推理插件,隐含对记忆机制的需求,但未直接研究Memory。
分享
夯
0
拉
0
Auditing Multi-Agent LLM Reasoning Trees Outperforms Majority Vote and LLM-as-Judge
Wei Yang, Shixuan Li, Heng Ping, Peiyu Zhang, Paul Bogdan et al.
多智能体系统(MAS)可以显著扩展大语言模型(LLMs)的推理能力,但大多数框架仍使用多数投票来聚合智能体输出。这种启发式方法忽略了推理轨迹中的证据结构,并在虚假共识下表现脆弱,即智能体共享相关偏差并收敛于相同的错误理由。本文提出AgentAuditor,它通过一个显式表示智能体轨迹之间一致性和分歧的推理树进行路径搜索,取代传统的投票方式。AgentAuditor通过比较关键分歧点的推理分支来解决冲突,将全局裁决转化为高效的局部验证。此外,我们还提出了反共识偏好优化(ACPO),该方法在多数失败案例上训练裁决者,并奖励基于证据的少数选择而非流行错误。AgentAuditor对MAS设置具有无关性,我们在5种流行设置中发现,其准确率比多数投票提高了高达5%,比使用LLM作为法官提高了3%。
多智能体系统
推理树
冲突解决
LLM评估
论文涉及多智能体系统中的推理过程与冲突解决,间接关联到Agent Memory中的信息存储与检索机制。
分享
夯
0
拉
0
Don't Shoot The Breeze: Topic Continuity Model Using Nonlinear Naive Bayes With Attention
Shu-Ting Pi, Pradeep Bagavan, Yejia Li, Disha, Qun Liu
在将大型语言模型(LLM)作为聊天机器人应用于各种商业场景时,保持话题连续性是一个常见挑战。话题的突然转换可能导致用户体验不佳和计算资源的低效利用。本文提出了一种主题连续性模型,用于评估响应是否与初始对话主题一致。该模型基于自然语言理解(NLU)模型的量化扩展,并引入了注意力机制和对数非线性以增强其捕捉主题连续性的能力。这种方法能够将NLU模型转化为可解释的分析公式。与许多受令牌限制约束的NLU模型不同,所提出的模型可以线性时间复杂度处理任意长度的对话。实验表明,该模型在处理长而复杂的对话时优于传统方法,为LLM的负责任和可解释使用提供了机会。
主题连续性
注意力机制
自然语言理解
LLM应用
论文涉及对话主题连续性建模,与Agent Memory相关,但非核心研究内容。
分享
夯
0
拉
0
Digital Twin and Agentic AI for Wild Fire Disaster Management: Intelligent Virtual Situation Room
Mohammad Morsali, Siavash H. Khajavi
Siavash H.Khajavi ([)
根据联合国的预测,由于全球变暖,野火的发生频率和强度到2030年将增加约14%,到2050年将增加30%,这对生命、基础设施和生态系统构成严重威胁。传统灾害管理框架依赖静态模拟和被动数据采集,难以实时适应不断变化的野火情况。为解决这些问题,我们提出了智能虚拟态势室(IVSR),这是一个由自主AI代理增强的双向数字孪生平台。IVSR持续整合多源传感器图像、天气数据和三维森林模型,以创建火灾环境的实时虚拟副本。基于AI的相似性引擎将新出现的情况与预计算的灾难模拟库进行匹配,检索并校准干预策略,并在专家监督下进行调整。授权操作(如无人机重新部署和人员重新分配)通过标准化流程反馈到物理层,完成响应与分析之间的闭环。我们通过工业合作伙伴提供的详细案例研究模拟验证了IVSR,展示了其在局部事件检测、隐私保护回放、基于碰撞器的火势扩散预测和特定地点机器学习再训练方面的能力。结果表明,与传统系统相比,IVSR显著减少了检测到干预的延迟,并更有效地协调资源。通过将实时双向数字孪生与智能代理AI结合,IVSR为积极主动、适应性强的野火灾害管理提供了一种可扩展的半自动化决策支持范式。
数字孪生
智能代理
灾害管理
AI决策支持
实时模拟
论文涉及AI代理与数字孪生系统,隐含记忆机制用于环境建模和决策支持。
分享
夯
0
拉
0
QUOKA: Query-Oriented KV Selection For Efficient LLM Prefill
Dalton Jones, Junyoung Park, Matthew Morse, Mingu Lee, Chris Lott et al.
本文提出QUOKA:一种面向查询的键值选择方法,用于在分块预填充下加速Transformer推理。该方法是一种无需训练且与硬件无关的稀疏注意力算法。我们观察到,与平均查询余弦相似度较低的查询在注意力操作中与更多键交互,并对最终注意力logits有较大贡献。通过优先处理这些查询,可以在预填充阶段近似完整注意力行为。QUOKA通过(1)首先保留一小部分代表性查询,以及(2)随后选择与这些查询最匹配的键,从而加速注意力计算。实验表明,在Needle-In-A-Haystack、LongBench、RULER和Math500数据集上,QUOKA实现了时间到第一个token减少3倍、Nvidia GPU上注意力加速5倍、Intel Xeon CPU上接近7倍的加速,同时保持接近基线的准确性,每次注意力评估使用的键值对减少了88%。
KV缓存
注意力优化
Transformer推理加速
稀疏注意力
论文涉及KV缓存选择,与Agent Memory相关,但主要聚焦于推理加速而非记忆机制本身。
分享
夯
0
拉
0
Automating Computational Reproducibility in Social Science: Comparing Prompt-Based and Agent-Based Approaches
Syed Mehtab Hussain Shah, Frank Hopfgartner, Arnim Bleier
S. Mehtab Hussain Shah (GESIS – Leibniz Institute for the Social SciencesCologneGermany) | Frank Hopfgartner (University of KoblenzKoblenzGermany) | Arnim Bleier (GESIS – Leibniz Institute for the Social SciencesCologneGermany)
计算研究的可重复性通常被认为只需重新运行原始代码并使用提供的数据即可。然而,在实践中,缺少软件包、脆弱的文件路径、版本冲突或逻辑不完整等问题常常导致分析失败,即使材料已共享。本研究探讨了大型语言模型和AI代理是否能够自动诊断和修复此类故障,从而更容易地重复和验证计算结果。我们通过构建一个由五个完全可重复的基于R的社会科学研究组成的受控可重复性测试平台来评估这一点。在清洁的Docker环境中测试了两种自动修复工作流:第一种是基于提示的工作流,通过结构化提示反复查询语言模型;第二种是基于代理的系统,能够自主检查文件、修改代码并重新运行分析。基于提示的运行成功率在31-79%之间,而基于代理的工作流表现显著更好,成功率在69-96%之间。这些结果表明,特别是基于代理的自动化工作流可以显著减少手动努力并提高各种错误类型的重复成功率。
Agent-based systems
Computational reproducibility
Automated repair
LLM prompt engineering
论文探讨了AI代理在自动化修复计算错误中的应用,涉及记忆和状态管理相关机制。
分享
夯
0
拉
0
Dialogue Model Optimization via Agent Game and Adaptive Tree-based GRPO
Kun Peng, Conghui Tan, Yu Liu, Guohua Tang, Zhongqian Sun et al.
Kun Peng†§a, Conghui Tan‡, Yu Liu†§, Guohua Tang‡, Zhongqian Sun‡, Wei Yang‡, Zining Zhu‡,Lei Jiang†b, Yanbing Liu†§, Hao Peng¶ (†Institute of Information Engineering, Chinese Academy of Sciences‡Tencent§University of Chinese Academy of Sciences¶Beihang University)
开放式的对话代理旨在通过适应用户特征来提供引人入胜、个性化的互动,但现有方法面临关键限制:过度依赖预收集的用户数据,以及强化学习(RL)中的短期偏见,忽视了长期对话价值。为了解决这些问题,我们提出了一种新的长期RL框架,结合在线个性化与自适应树基组相对策略优化(AT-GRPO)。采用双代理博弈范式,用户代理通过风格模仿(学习用户特定的对话特征)和主动终止(预测回合级终止概率作为即时奖励)构建动态环境,形成一个迭代循环,推动对话代理深入兴趣探索。AT-GRPO将对话轨迹重新解释为树结构,并引入自适应观察范围。与全树扩展带来的指数级开销不同,它限制每个节点仅从阶段感知范围内聚合奖励:较大的范围支持早期话题探索,而较小的范围有助于后期对话维护。这种设计将对话长度的展开预算从指数级降低到多项式级,同时保留长期奖励捕获能力。大量实验表明,我们的框架在性能、样本效率和鲁棒性方面均表现出色。
对话系统
强化学习
个性化交互
长期奖励优化
论文涉及长期对话价值和个性化交互,与记忆机制相关,但非核心主题。
分享
夯
0
拉
0
Does Your Reasoning Model Implicitly Know When to Stop Thinking?
Zixuan Huang, Xin Xia, Yuxi Ren, Jianbin Zheng, Xuanda Wang et al.
近年来,大型推理模型(LRMs)通过长链推理(CoTs)显著提升了复杂推理任务的性能。然而,这种方法常导致大量冗余,影响计算效率并造成实时应用中的显著延迟。近期研究表明,更长的推理链并不总是与正确性相关,甚至可能损害准确性。进一步分析发现,LRMs实际上隐含地知道何时停止思考,但这一能力被当前的采样范式所掩盖。受此启发,本文提出SAGE(Self-Aware Guided Efficient Reasoning),一种新的采样范式,能够释放这种高效的推理潜力。此外,将SAGE作为混合采样方法整合到基于群体的强化学习(SAGE-RL)中,使SAGE-RL能有效将SAGE发现的高效推理模式融入标准pass@1推理中,显著提升多个数学基准测试中LRMs的推理准确性和效率。
推理优化
采样方法
模型效率
自适应推理
论文探讨了模型在推理过程中隐式停止的能力,与Agent Memory中的自适应推理控制相关。
分享
夯
0
拉
0
Toward Formalizing LLM-Based Agent Designs through Structural Context Modeling and Semantic Dynamics Analysis
Haoyu Jia, Kento Kawaharazuka, Kei Okada
\fnmKei\surOkada ([)
当前关于大语言模型(LLM)智能体的研究较为碎片化:概念框架和方法论原则的讨论常常与低层次实现细节交织在一起,导致读者和作者在大量表面不同的概念中迷失方向。我们认为这种碎片化主要源于缺乏一个可分析、自洽的形式化模型,该模型能够独立于具体实现对LLM智能体进行特征描述和比较。为了解决这一问题,我们提出了结构化上下文模型(Structural Context Model),从上下文结构的角度对LLM智能体进行分析和比较。在此基础上,我们引入了两个互补的组件,共同覆盖LLM智能体研究和开发的完整生命周期:(1)一种声明式实现框架;以及(2)一种可持续的智能体工程工作流——语义动态分析(Semantic Dynamics Analysis)。所提出的流程为智能体机制提供了原理性见解,并支持快速、系统的设计迭代。我们在动态变种的猴子-香蕉问题上验证了该框架的有效性,使用本方法构建的智能体在最具挑战性的设置中成功率提高了32个百分点。
LLM Agents
Context Modeling
Semantic Dynamics
Formal Models
论文涉及LLM Agent的结构化上下文建模,与记忆机制相关但非核心主题。
分享
夯
0
拉
0
Document Reconstruction Unlocks Scalable Long-Context RLVR
Yao Xiao, Lei Wang, Yue Deng, Guanzheng Chen, Ziqi Jin et al.
可验证奖励强化学习(RLVR)已成为增强大语言模型(LLMs)能力(即长上下文处理)的重要范式。然而,它通常依赖于强大教师模型或人类专家提供的黄金标准答案或显式评估标准,这成本高昂且耗时。在本研究中,我们探讨了无监督方法来增强LLMs的长上下文能力,无需大量人工标注或教师模型的监督。具体而言,我们首先在长文档中替换几个段落为特殊占位符,并通过强化学习训练LLMs以正确识别并排序候选选项中的缺失段落以重建文档。这种训练范式使模型能够捕捉全局叙事连贯性,显著提升长上下文性能。我们在两个广泛使用的基准测试RULER和LongBench~v2上验证了该方法的有效性。尽管在RULER上取得了显著增益,它在不需要手动整理的长上下文问答数据的情况下也能在LongBench~v2上实现合理改进。此外,我们进行了广泛的消融实验,分析奖励设计、数据整理策略、训练方案和数据扩展效应对模型性能的影响。我们公开发布了我们的代码、数据和模型。
强化学习
长上下文
文档重建
无监督学习
论文涉及长上下文能力提升,与Agent Memory相关,但非核心主题。
分享
夯
0
拉
0
Online Domain-aware LLM Decoding for Continual Domain Evolution
Mohammad Abu-Shaira, Weishi Shi
通常,大型语言模型(LLMs)在特定领域的静态数据上进行离线微调。然而,在实践中,领域知识会随着新法规、产品、服务和交互模式的不断出现而持续演变。对每个新实例重新训练或微调LLMs在计算上是不可行的。此外,现实环境中的数据分布也具有时间动态性,忽略这种现象(即概念漂移)会显著降低模型的预测准确性。为应对这一问题,本文提出了一种在线领域感知解码框架(ODD),该框架通过概率级融合基础LLM与前缀树先验,并利用分歧和连续性信号进行自适应置信度调节。实验结果表明,ODD在多种漂移场景下均优于LLM-Greedy和LLM-Temp Scaled方法,在ROUGE-L指标上绝对提升0.065,在余弦相似度上相对提升13.6%。这些结果证明了ODD对不断变化的词汇和上下文模式的鲁棒性,适用于动态LLM应用。
领域适应
概念漂移
在线学习
LLM解码
论文涉及动态领域适应,与记忆机制相关,但未直接研究Agent Memory。
分享
夯
0
拉
0
Small Agent Group is the Future of Digital Health
Yuqiao Meng, Luoxi Tang, Dazheng Zhang, Rafael Brens, Elvys J. Romero et al.
大型语言模型(LLMs)在数字健康领域的快速应用主要基于一种“优先扩展”的理念,即认为模型规模和数据量的增加会提升临床智能。然而,现实中的临床需求不仅包括有效性,还包括可靠性和合理的部署成本。由于临床决策本质上是协作性的,本文挑战了单一模型扩展范式,提出是否可以通过小型代理组(SAG)实现更优的临床推理。SAG通过协作审议过程,将推理、基于证据的分析和关键审计分散到多个代理中,从而实现集体专业知识。为了评估SAG的临床实用性,我们使用涵盖有效性、可靠性和部署成本的多种临床指标进行了广泛评估。结果表明,无论是否进行额外优化或检索增强生成,SAG的表现均优于单一巨型模型。这些发现表明,SAG所代表的协同推理可以在临床环境中替代模型参数的增长。总体而言,SAG为数字健康提供了一种可扩展的解决方案,更好地平衡了有效性、可靠性和部署效率。
临床推理
协作代理
模型规模优化
数字健康
论文探讨了小规模代理组在临床推理中的协同作用,间接涉及记忆与协作机制。
分享
夯
0
拉
0
HypRAG: Hyperbolic Dense Retrieval for Retrieval Augmented Generation
Hiren Madhu, Ngoc Bui, Ali Maatouk, Leandros Tassiulas, Smita Krishnaswamy et al.
嵌入几何在检索质量中起着基础作用,然而目前用于检索增强生成(RAG)的密集检索器大多局限于欧几里得空间。自然语言具有从广泛主题到具体实体的层次结构,而欧几里得嵌入无法保留这种结构,导致语义上距离较远的文档看似相似,增加幻觉风险。为解决这些问题,本文引入双曲密集检索方法,在双曲空间的Lorentz模型中开发了两种模型变体:HyTE-FH(全双曲Transformer)和HyTE-H(将预训练欧几里得嵌入投影到双曲空间的混合架构)。为防止序列聚合过程中的表示崩溃,提出了一种几何感知的池化操作符——Outward Einstein Midpoint,该操作符可证明保留层次结构。在MTEB数据集上,HyTE-FH优于等效的欧几里得基线模型;在RAGBench上,HyTE-H在上下文相关性和答案相关性方面相比欧几里得基线模型提升了高达29%,且使用了更小的模型。分析还表明,双曲表示通过基于范数的分离编码文档的具体性,从一般概念到具体概念的径向增长超过20%,这是欧几里得嵌入所不具备的特性,突显了几何归纳偏置在忠实RAG系统中的关键作用。
双曲嵌入
检索增强生成
几何表示学习
信息检索
论文探讨了嵌入空间几何对检索质量的影响,与记忆中的信息表示和检索相关,但非核心Memory机制。
分享
夯
0
拉
0
Agent-Fence: Mapping Security Vulnerabilities Across Deep Research Agents
Sai Puppala, Ismail Hossain, Md Jahangir Alam, Yoonpyo Lee, Jay Yoo et al.
大型语言模型越来越多地被部署为具有规划、维护持久状态和调用外部工具能力的*深度代理*,这使得安全失败从不安全文本转移到了不安全的*轨迹*。我们引入了**AgentFence**,一种以架构为中心的安全评估方法,定义了涵盖规划、记忆、检索、工具使用和委托的14种信任边界攻击类别,并通过*可追溯对话中断*检测失败(如未经授权或不安全的工具使用、错误主体行为、状态/目标完整性违规以及与攻击相关的偏差)。在保持基础模型不变的前提下,我们在持续多轮交互中评估了八种代理架构类型,观察到平均安全中断率(MSBR)存在显著的架构差异,范围从LangGraph的$0.29 ext{±} 0.04$到AutoGPT的$0.51 ext{±} 0.07$。最高风险类别是操作类:钱包拒绝($0.62 ext{±} 0.08$)、授权混淆($0.54 ext{±} 0.10$)、检索污染($0.47 ext{±} 0.09$)和规划操纵($0.44 ext{±} 0.11$),而以提示为中心的类别在标准设置下均低于$0.20$。中断主要由边界违规引起(SIV 31%,WPA 27%,UTI+UTA 24%,ATD 18%),授权混淆与目标和工具劫持高度相关(ρ≈0.63 和 ρ≈0.58)。AgentFence 将代理安全性重新聚焦于实际操作层面:即代理是否能随着时间保持在其目标和权限范围内。
Agent Security
Memory Safety
Trajectory Analysis
Attack Classes
论文涉及Agent Memory相关的安全漏洞,但并非核心研究主题。
分享
夯
0
拉
0
AD-MIR: Bridging the Gap from Perception to Persuasion in Advertising Video Understanding via Structured Reasoning
Binxiao Xu, Junyu Feng, Xiaopeng Lin, Haodong Li, Zhiyuan Feng et al.
广告视频的多模态理解对于解析视觉叙事与抽象说服策略之间的复杂关系至关重要。然而,尽管现有代理在一般搜索任务中表现出色,但在像素级感知与高层营销逻辑之间仍存在认知鸿沟。为解决这一问题,本文提出AD-MIR框架,采用两阶段架构解码广告意图。首先,在结构感知记忆构建阶段,系统通过语义检索与精确关键词匹配将原始视频转换为结构化数据库,优先提取细粒度品牌信息并动态过滤无关背景噪声。其次,结构化推理代理通过迭代查询循环模拟营销专家,分解叙事以推断隐含的说服策略,并采用基于证据的自我校正机制,严格验证这些洞察是否与特定视频帧一致。在AdsQA基准测试中,AD-MIR表现出色,超越了最强的通用代理DVD。结果表明,有效的广告理解需要将抽象的营销策略明确地扎根于像素级证据。
广告理解
结构化记忆
推理代理
多模态学习
论文提及了结构化记忆构建,但核心是广告理解与推理,非纯粹Memory研究。
分享
Code
夯
0
拉
0
GraphAgents: Knowledge Graph-Guided Agentic AI for Cross-Domain Materials Design
Isabella A. Stewart, Tarjei Paule Hage, Yu-Chuan Hsu, Markus J. Buehler
大型语言模型(LLMs)有望通过跨科学领域的推理加速发现过程。然而,当前挑战已不再是信息获取,而是如何以有意义的方式跨领域连接信息。在材料科学中,创新需要整合从分子化学到机械性能的概念,这一问题尤为突出。人类或单一智能体LLM难以应对这种信息洪流,后者常产生幻觉。为解决这一瓶颈,本文引入了一个由大规模知识图谱引导的多智能体框架,用于寻找替代全氟和多氟烷基物质(PFAS)的可持续方案。该框架中的智能体专门负责问题分解、证据检索、设计参数提取和图遍历,揭示不同知识模块间的潜在联系,支持假设生成。消融研究表明,完整的多智能体流程优于单次提示方法,突显分布式专业化和关系推理的价值。通过生物医学导管的示例,该框架生成了平衡摩擦学性能、热稳定性、化学抗性和生物相容性的可持续PFAS替代品。本研究建立了一个结合知识图谱与多智能体推理的框架,扩展了材料设计空间,并展示了若干初步设计候选方案。
多智能体系统
知识图谱
材料设计
LLM应用
论文涉及多智能体框架与知识图谱结合,隐含记忆机制但非核心主题。
分享
夯
0
拉
0
Scout Before You Attend: Sketch-and-Walk Sparse Attention for Efficient LLM Inference
Hoang Anh Duy Le, Sahil Joshi, Zeyu Yang, Zhaozhuo Xu, Anshumali Shrivastava
Hoang Anh Duy Le (Department of Computer Science, Rice University) | Sahil Joshi (Department of Computer Science, Rice University) | Zeyu Yang (Department of Computer Science, Rice University)
自注意力机制在长上下文LLM推理中占据了大量的计算和内存成本,无论是在预填充阶段还是解码阶段。为了解决这一问题,我们引入了Sketch&Walk注意力,这是一种无需训练的稀疏注意力方法,通过轻量级的草图和确定性遍历机制来决定稀疏性。Sketch&Walk应用Hadamard草图技术,以较低的成本获得注意力分数的近似值,然后通过遍历机制跨层聚合这些估计值,捕捉超出标记直接交互的注意力影响。累积的遍历分数用于选择top-k注意力块,从而实现动态稀疏性,且该算法适用于预填充和解码阶段,并结合了定制的稀疏注意力内核。在广泛范围的模型和任务中,Sketch&Walk在20%的注意力密度下保持接近无损的准确性,并在某些情况下略微优于密集注意力,同时实现了高达6倍的推理加速。
稀疏注意力
LLM推理优化
动态稀疏性
注意力压缩
论文提出了一种稀疏注意力机制,旨在减少LLM推理中的计算和内存消耗,与Agent Memory相关。
分享
夯
0
拉
0
TraceCoder: A Trace-Driven Multi-Agent Framework for Automated Debugging of LLM-Generated Code
Jiangping Huang, Wenguang Ye, Weisong Sun, Jian Zhang, Mingyue Zhang et al.
Jiangping Huang (School of Computer Science and Technology, Chongqing University of Posts and TelecommunicationsChongqingChina) | Wenguang Ye (School of Computer Science and Technology, Chongqing University of Posts and TelecommunicationsChongqingChina) | Weisong Sun (Nanyang Technological UniversitySingaporeSingapore)
大型语言模型(LLMs)在生成复杂任务代码时常常存在细微但关键的错误。现有的自动化修复方法通常依赖于表面的通过/失败信号,难以深入理解程序行为并精确定位错误。此外,由于缺乏从先前失败中学习的能力,修复过程往往陷入重复且低效的循环。为了解决这些问题,本文提出TraceCoder,一个协作式多智能体框架,模拟人类专家的观察-分析-修复流程。该框架首先通过诊断探针对代码进行插桩,以捕获细粒度的运行时追踪,从而深入了解其内部执行情况。然后,它对这些追踪进行因果分析,以准确识别失败的根本原因。这一过程进一步通过一种新颖的历史教训学习机制(HLLM)增强,该机制从之前的失败修复尝试中提炼出见解,以指导后续的修正策略并防止类似错误的再次发生。为了确保稳定收敛,回滚机制强制要求每次修复迭代都朝着正确解决方案取得严格改进。多个基准的全面实验表明,TraceCoder在Pass@1准确性方面相比现有先进基线实现了高达34.43%的相对提升。消融研究验证了每个系统组件的重要性,其中仅迭代修复过程就带来了65.61%的相对准确率提升。此外,TraceCoder在准确性和成本效率方面均显著优于领先的迭代方法。
多智能体系统
代码调试
历史记忆学习
LLM缺陷修复
论文提到了历史教训学习机制(HLLM),与记忆相关,但非核心主题。
分享
夯
0
拉
0
From Features to Actions: Explainability in Traditional and Agentic AI Systems
Sindhuja Chaduvula, Jessee Ho, Kina Kim, Aravind Narayanan, Mahshid Alinoori et al.
在过去十年中,可解释AI主要关注于解释单个模型预测,生成与固定决策结构相关的后验解释。随着大型语言模型(LLMs)的发展,代理AI系统的行为表现为多步骤轨迹。在这些系统中,成功与失败由一系列决策决定,而非单一输出。尽管已有相关方法,但如何将静态预测的解释方法应用于代理系统仍不明确。本文通过比较基于属性的解释与基于轨迹的诊断方法,填补了静态与代理可解释性之间的差距。实验表明,基于属性的方法在静态任务中表现稳定,但在代理轨迹中无法可靠诊断执行级失败。相比之下,基于轨迹的评估能够有效定位行为失效,并揭示状态跟踪不一致性是失败运行的主要原因。这些发现推动了对代理系统轨迹级可解释性的研究。
Agent Memory
Explainable AI
Trajectory Analysis
State Tracking
论文探讨了代理系统中的可解释性问题,涉及状态跟踪不一致等与记忆相关的内容。
分享
Code
夯
0
拉
0
Completing Missing Annotation: Multi-Agent Debate for Accurate and Scalable Relevant Assessment for IR Benchmarks
Minjeong Ban, Jeonghwan Choi, Hyangsuk Min, Nicole Hee-Yeon Kim, Minseok Kim et al.
由于信息检索(IR)基准数据集中存在未标记的相关片段,信息检索评估仍然具有挑战性。尽管大型语言模型(LLMs)和LLM-人类混合策略减少了昂贵的人工努力,但它们仍容易出现LLM过度自信和无效的AI到人类升级问题。为了解决这一问题,我们提出了DREAM,一个基于多轮辩论的相关性评估框架,该框架利用LLM代理、对立的初始立场和迭代相互批评。通过我们的基于共识的辩论,它在某些情况下产生更精确的标签,并在不确定的情况下提供更可靠的AI到人类升级,仅需3.5%的人工参与即可达到95.2%的标签准确性。使用DREAM,我们构建了BRIDGE,一个改进的基准,通过揭示29,824个缺失的相关片段来减轻评估偏差并实现更公平的检索器比较。然后我们重新对IR系统进行基准测试,并将评估扩展到RAG,表明未解决的漏洞不仅扭曲了检索器排名,还导致检索生成不一致。
信息检索
多代理系统
相关性评估
LLM协作
论文涉及LLM代理在信息检索中的协作与标注,间接关联到记忆机制。
分享
Code
夯
0
拉
0
Improve Large Language Model Systems with User Logs
Changyue Wang, Weihang Su, Qingyao Ai, Yiqun Liu
Changyue Wang (Department of Computer Science and Technology, Tsinghua University,
Beijing 100084China) | Weihang Su (Department of Computer Science and Technology, Tsinghua University,
Beijing 100084China) | Qingyao Ai (Department of Computer Science and Technology, Tsinghua University,
Beijing 100084China)
大规模训练数据和模型参数一直是推动大型语言模型(LLMs)进步的关键因素,但这一范式正因高质量数据稀缺和计算成本上升而受到限制。因此,近期研究更加关注从真实世界部署中进行持续学习,其中用户交互日志提供了丰富的实际人类反馈和程序性知识。然而,由于用户日志的无结构性和噪声性,从其学习具有挑战性。传统LLM系统难以区分有用反馈信号与噪声行为,且用户日志收集与模型优化之间的差异进一步加剧了问题。为此,我们提出了UNO(User log-driveN Optimization),一个统一框架,用于利用用户日志改进LLM系统(LLMsys)。UNO首先将日志提炼为半结构化规则和偏好对,然后采用查询与反馈驱动的聚类方法管理数据异质性,并最终量化模型先验知识与日志数据之间的认知差距。该评估指导LLMsys自适应地过滤噪声反馈,并构建不同模块以处理从用户日志中提取的基本经验和反思经验,从而提升未来响应效果。大量实验表明,UNO在有效性和效率方面达到最先进水平,显著优于检索增强生成(RAG)和基于记忆的基线方法。
用户日志
持续学习
模型优化
反馈处理
论文涉及用户日志驱动的模型优化,与记忆机制相关但非核心主题。
分享
Code
夯
0
拉
0
DyTopo: Dynamic Topology Routing for Multi-Agent Reasoning via Semantic Matching
Yuxing Lu, Yucheng Hu, Xukai Zhao, Jiuxin Cao
由提示大语言模型构建的多智能体系统可以提升多轮推理能力,但现有方法通常依赖于固定的、贯穿整个轨迹的通信模式,难以满足迭代问题求解阶段依赖的需求。本文提出DyTopo,一种由管理器引导的多智能体框架,在每一轮中重构稀疏有向通信图。在管理器设定的当前目标下,每个智能体输出轻量级自然语言查询(需求)和关键(提供)描述符;DyTopo嵌入这些描述符并进行语义匹配,仅沿诱导边传递私有消息。在代码生成和数学推理基准测试中,DyTopo在四种LLM主干上均优于最强基线(平均提升6.2%)。除准确性外,DyTopo还通过演化图提供了可解释的协调轨迹,使人们能够定性检查通信路径如何跨轮次重新配置。
多智能体系统
语义匹配
通信路由
LLM推理
论文涉及多智能体通信机制,通过语义匹配实现信息路由,与Agent Memory相关但非核心。
分享
夯
0
拉
0
CommCP: Efficient Multi-Agent Coordination via LLM-Based Communication with Conformal Prediction
Xiaopan Zhang, Zejin Wang, Zhixu Li, Jianpeng Yao, Jiachen Li
为了完成由人类以自然语言提供的任务,机器人必须解释指令、生成和回答与场景理解相关的问题,并操作目标对象。在实际部署中,通常需要多个具有不同操作能力的异构机器人协同处理不同的任务。除了需要专门的操作技能外,有效的信息收集对于完成这些任务也至关重要。为了解决这一问题,我们将信息收集过程形式化为一个未被充分研究的多智能体多任务具身问答(MM-EQA)问题,这是经典具身问答(EQA)的一个新扩展,其中有效的通信对于协调工作并避免冗余至关重要。为此,我们提出了一种基于LLM的去中心化通信框架CommCP,用于MM-EQA。该框架采用符合预测技术对生成的消息进行校准,从而减少接收者的干扰并提高通信可靠性。为了评估我们的框架,我们引入了一个包含多样化、逼真的家庭场景和具身问题的MM-EQA基准测试。实验结果表明,CommCP在任务成功率和探索效率方面显著优于基线方法。
多智能体协作
LLM通信
具身问答
符合预测
论文涉及基于LLM的多智能体通信机制,与Agent Memory相关但非核心主题。
分享
Code
夯
0
拉
0
SAGE: Benchmarking and Improving Retrieval for Deep Research Agents
Tiansheng Hu, Yilun Zhao, Canyu Zhang, Arman Cohan, Chen Zhao
深度研究代理已成为解决复杂查询的强大系统,而基于LLM的检索器在遵循指令或推理方面表现出色。本文提出SAGE基准测试,包含四个科学领域的1200个查询及20万篇论文的检索语料库。实验发现,所有系统在需要推理的检索任务中表现不佳。通过对比BM25与基于LLM的检索器(如ReasonIR和gte-Qwen2-7B-instruct),发现BM25性能显著优于后者约30%。为此,作者提出一种基于语料库级别的测试时扩展框架,利用LLM增强文档的元数据和关键词,从而提升现成检索器的性能,分别在简答和开放问题上取得8%和2%的提升。
Agent Memory
信息检索
LLM
基准测试
深度学习
论文涉及LLM检索器在研究代理中的应用,与记忆机制相关但非核心主题。
分享
夯
0
拉
0
CompactRAG: Reducing LLM Calls and Token Overhead in Multi-Hop Question Answering
Hao Yang, Zhiyu Yang, Xupeng Zhang, Wei Wei, Yunjie Zhang et al.
Hao Yang (State Key Laboratory for Novel Software Technology, Nanjing UniversitySuzhouJiangsuChina) | Zhiyu Yang (Erik Jonsson School of Engineering and Computer Science, University of Texas at DallasRichardsonTexasUSA) | Xupeng Zhang (Isoftstone Information Technology (Group) Co.,Ltd.BeijingChina)
检索增强生成(RAG)已成为知识密集型问答的关键范式。然而,现有的多跳RAG系统效率较低,因为它们在每一步之间交替进行检索和推理,导致重复的LLM调用、高token消耗以及跨跳实体锚定不稳定。本文提出CompactRAG,一种简单而有效的框架,将离线语料库重构与在线推理解耦。在离线阶段,LLM一次性读取语料库并将其转换为原子QA知识库,以最小、细粒度的问题-答案对表示知识。在线阶段,复杂查询被分解并仔细重写以保持实体一致性,然后通过密集检索和基于RoBERTa的答案提取进行处理。值得注意的是,在推理过程中,无论推理跳数多少,LLM仅被调用两次——一次用于子问题分解,一次用于最终答案合成。实验表明,CompactRAG在HotpotQA、2WikiMultiHopQA和MuSiQue数据集上实现了与迭代RAG基线相当的准确性,同时显著减少了token消耗,突显了其在大规模知识语料库上进行多跳推理时的成本效益和实用性。
RAG
多跳问答
知识检索
LLM优化
论文涉及RAG系统优化,减少LLM调用和token消耗,与Agent Memory中的知识存储和检索相关。
分享
夯
0
拉
0
AgentXRay: White-Boxing Agentic Systems via Workflow Reconstruction
Ruijie Shi, Houbin Zhang, Yuecheng Han, Yuheng Wang, Jingru Fan et al.
大型语言模型在复杂问题解决方面表现出强大能力,然而许多智能体系统由于内部工作流程不透明而难以解释和控制。尽管一些框架提供了显式的协作架构,但许多已部署的智能体系统对用户而言仍是黑箱。本文提出了一种新的任务——智能体工作流重建(AWR),旨在仅通过输入-输出访问来合成一个可解释的替代工作流以近似黑箱系统。我们提出了AgentXRay,这是一个基于搜索的框架,将AWR建模为离散智能体角色和工具调用的组合优化问题。与模型蒸馏不同,AgentXRay生成可编辑的白盒工作流,在可观测的输出基础上匹配目标输出,无需访问模型参数。为了应对庞大的搜索空间,AgentXRay采用增强的蒙特卡洛树搜索机制,并结合基于评分的红黑剪枝策略,动态整合代理质量与搜索深度。实验表明,AgentXRay在多个领域中实现了更高的代理相似性并减少了token消耗,从而在固定迭代预算下实现了更深入的工作流探索。
智能体系统
工作流重建
白盒化
搜索算法
论文涉及对Agent系统内部工作流程的重建,与Memory相关但非核心主题。
分享
夯
0
拉
0
Double-P: Hierarchical Top-P Sparse Attention for Long-Context LLMs
Wentao Ni, Kangqi Zhang, Zhongming Yu, Oren Nelson, Mingu Lee et al.
随着长上下文推理在大语言模型(LLMs)中变得至关重要,对不断增长的键值缓存进行注意力计算成为解码过程的主要瓶颈,这促使研究者采用稀疏注意力机制以实现可扩展的推理。现有的固定预算Top-k稀疏注意力方法无法适应不同头和层之间的异质性注意力分布,而Top-p稀疏注意力则直接保留注意力质量并提供更强的准确性保障。然而,现有Top-p方法未能同时优化Top-p精度、选择开销和稀疏注意力成本,限制了整体效率。本文提出Double-P,一种分层稀疏注意力框架,能够优化这三个阶段。Double-P首先在集群级别使用大小加权中心点进行粗粒度Top-p估计,然后通过第二阶段的Top-p自适应地分配仅需的标记级注意力。在长上下文基准测试中,Double-P始终实现接近零的精度下降,将注意力计算开销减少高达1.8倍,并在端到端解码速度上比最先进的固定预算稀疏注意力方法快1.3倍。
稀疏注意力
长上下文推理
LLM优化
Top-p机制
论文涉及稀疏注意力机制以优化长上下文推理,与Agent Memory中的高效注意力管理相关。
分享
夯
0
拉
0
Group-Evolving Agents: Open-Ended Self-Improvement via Experience Sharing
Zhaotian Weng, Antonis Antoniades, Deepak Nathani, Zhen Zhang, Xiao Pu et al.
开放式自我改进智能体能够自主修改自身结构设计以提升能力并克服预定义架构的限制,从而减少对人工干预的依赖。本文提出了一种新的开放式自我改进范式——群体进化智能体(GEA),将一组智能体作为基本进化单元,使群体内部在进化过程中实现显式的经验共享与重用。与现有采用树状进化的开放式自进化范式不同,GEA克服了孤立进化分支导致探索多样性利用效率低下的问题。我们在具有挑战性的编程基准上评估了GEA,其性能显著优于最先进的自进化方法,并在两个基准测试中匹配或超过了顶级人工设计的智能体框架。分析表明,GEA更有效地将早期探索多样性转化为持续的长期进步,在相同数量的进化智能体下表现出更强的性能。此外,GEA在不同编程模型间具有良好的迁移能力和更高的鲁棒性,平均仅需1.4次迭代即可修复框架级错误,而自进化方法需要5次。
Agent Evolution
Experience Sharing
Self-Improvement
Coding Benchmarks
论文涉及经验共享机制,与Agent Memory相关,但非核心研究主题。
分享
夯
0
拉
0
Agentic AI in Healthcare & Medicine: A Seven-Dimensional Taxonomy for Empirical Evaluation of LLM-based Agents
Shubham Vatsal, Harsh Dubey, Aditi Singh
基于大语言模型(LLM)的智能代理在医疗和医学领域中已开始发挥作用,能够执行从电子健康记录分析、鉴别诊断到治疗计划和研究工作流程等多种任务。然而,现有文献多为综述性内容,缺乏统一框架。本文通过一个七维分类体系对49项研究进行回顾,包括认知能力、知识管理、交互模式、适应与学习、安全与伦理、框架类型及核心任务与子任务等29个操作子维度。采用明确的纳入与排除标准及标注规则,将每项研究映射至该分类体系,并报告能力分布与共现模式的定量总结。实证分析显示,某些子维度如外部知识整合实现率较高,而事件触发激活和漂移检测与缓解则几乎未被实现。架构上,多代理设计是主流模式,而协调层仍处于部分实现阶段。在核心任务方面,信息导向的能力较为突出,而行动与发现导向的任务仍存在较大缺口。
LLM Agent
医疗应用
分类体系
能力评估
知识管理
论文提到了Memory作为LLM Agent的一个能力维度,但并非核心研究内容。
分享
夯
0
拉
0
Exploiting contextual information to improve stance detection in informal political discourse with LLMs
Arman Engin Sucu, Yixiang Zhou, Mario A. Nascimento, Tony Mullen
本研究探讨了在非正式在线政治讨论中使用大型语言模型(LLMs)进行立场检测的问题,其中语言往往带有讽刺、歧义和依赖上下文。我们研究了是否提供上下文信息,特别是从历史帖子中提取的用户档案摘要,可以提高分类准确性。通过一个真实的政治论坛数据集,我们生成了结构化的用户档案,总结了用户的意识形态倾向、常见话题和语言模式。我们对七种最先进的LLMs在基线和上下文增强设置下进行了全面的跨模型评估。研究结果表明,上下文提示显著提升了准确率,提升幅度在17.5%到38.5%之间,最高达到74%,优于之前的方法。我们还分析了档案大小和帖子选择策略对性能的影响,发现战略性选择的政治内容比随机选择的更大上下文效果更好。这些发现强调了在复杂的政治分类任务中结合用户级上下文以提高LLM性能的价值。
LLM
上下文信息
政治立场检测
用户档案
分类准确性
论文涉及利用用户历史信息作为上下文提升LLM性能,与Agent Memory相关但非核心主题。
分享
夯
0
拉
0
Supporting software engineering tasks with agentic AI: Demonstration on document retrieval and test scenario generation
Marian Kica, Lukas Radosky, David Slivka, Karin Kubinova, Daniel Dovhun et al.
大型语言模型的引入引发了软件开发模式的重大变革与重构。软件工程研究随之涌现出大量工具和方法。本文通过引入智能代理AI解决方案来应对两项任务。首先,我们开发了一种从详细需求描述中自动生成测试场景的解决方案。该方法依赖于具有监督代理中心的星型拓扑结构的专业工作者代理。我们在一个现实案例中展示了其能力。其次,我们开发了一种用于软件工程文档检索的智能代理AI解决方案。该方案能够在单个软件开发相关的文档集合上执行多种使用案例,包括搜索、问答、变更追踪和大文档摘要。在这种情况下,每个使用案例都由一个专门的基于LLM的代理处理,该代理完成所有与对应使用案例相关的子任务。最后,我们简要指出了本研究方向的未来展望。
软件工程
代理系统
文档检索
测试场景生成
论文涉及Agent在软件工程任务中的应用,但未明确讨论Memory机制。
分享
夯
0
拉
0
Addressing Corpus Knowledge Poisoning Attacks on RAG Using Sparse Attention
Sagie Dekel, Moshe Tennenholtz, Oren Kurland
检索增强生成(RAG)是一种有效保持基于LLM响应更新并减少幻觉的方法。然而,最近研究表明RAG对语料库知识投毒攻击非常脆弱:攻击者通过注入误导性文档来操控LLM的输出。我们认为标准的因果注意力机制在攻击场景下允许有害的跨文档交互。为此,我们提出了一种新的防御方法:稀疏文档注意力RAG(SDAG),这是一种块稀疏注意力机制,禁止检索文档之间的交叉注意力。SDAG仅需对注意力掩码进行最小的推理时间修改,且无需微调或额外架构改动。我们对多种攻击策略下的基于LLM的问答任务进行了实证评估,结果表明SDAG在攻击成功率方面显著优于标准因果注意力机制。此外,我们将SDAG与最先进的RAG防御方法结合,进一步展示了其性能优势。
RAG
注意力机制
防御方法
知识投毒
论文涉及RAG中的注意力机制与文档交互,间接关联到Agent Memory的管理与防护。
分享
夯
0
拉
0
WideSeek-R1: Exploring Width Scaling for Broad Information Seeking via Multi-Agent Reinforcement Learning
Zelai Xu, Zhexuan Xu, Ruize Zhang, Chunyang Zhu, Shi Yu et al.
近年来,大型语言模型(LLMs)的发展主要集中在深度扩展上,即单个代理通过多轮推理和工具使用解决长期任务。然而,随着任务范围的扩大,关键瓶颈从个体能力转移到组织能力。本文探讨了通过多智能体系统进行宽度扩展以应对广泛信息检索的问题。现有系统通常依赖手工设计的工作流程和轮流交互,难以有效并行化工作。为此,我们提出了WideSeek-R1,一种通过多智能体强化学习(MARL)训练的主代理-子代理框架,以协同实现可扩展的调度和并行执行。利用共享的LLM和隔离上下文及专用工具,WideSeek-R1在20k个广泛信息检索任务的数据集上联合优化主代理和并行子代理。实验表明,WideSeek-R1-4B在WideSearch基准测试中实现了40.0%的物品F1分数,与单代理DeepSeek-R1-671B的性能相当。此外,随着并行子代理数量的增加,WideSeek-R1-4B表现出持续的性能提升,突显了宽度扩展的有效性。
多智能体系统
强化学习
信息检索
宽度扩展
论文涉及多智能体系统中的信息寻求,与Agent Memory相关但非核心主题。
分享
夯
0
拉
0
VILLAIN at AVerImaTeC: Verifying Image-Text Claims via Multi-Agent Collaboration
Jaeyoon Jung, Yejun Yoon, Seunghyun Yoon, Kunwoo Park
本文介绍了VILLAIN,一种基于提示的多智能体协作的多模态事实核查系统,用于验证图像-文本声明。针对AVerImaTeC共享任务,VILLAIN在事实核查的不同阶段使用了视觉语言模型代理。从通过额外网络收集丰富知识库中检索出的文本和视觉证据,模态特定和跨模态代理生成分析报告。随后,根据这些报告生成问题-答案对。最后,判决预测代理基于图像-文本声明和生成的问题-答案对得出验证结果。我们的系统在所有评估指标中均排名第一。源代码可在https://github.com/ssu-humane/VILLAIN公开获取。
多模态事实核查
多智能体协作
视觉语言模型
论文涉及多智能体协作中的信息检索与存储,但未明确聚焦于Agent Memory机制本身。
分享
Code
夯
0
拉
0
Vibe AIGC: A New Paradigm for Content Generation via Agentic Orchestration
Jiaheng Liu, Yuanxing Zhang, Shihao Li, Xinping Lei
在过去十年中,生成式人工智能的发展主要依赖于以模型为中心的范式,该范式由规模定律驱动。尽管在视觉保真度方面取得了显著进展,但这种方法遇到了“可用性天花板”,表现为意图-执行差距(即创作者的高层意图与当前单次推理模型的随机性和黑箱特性之间的根本差异)。本文受Vibe编码启发,提出了一种新的内容生成范式——Vibe AIGC,通过智能体编排实现自主合成的分层多智能体工作流。在此范式下,用户角色超越了传统的提示工程,转变为提供“Vibe”(包含审美偏好、功能逻辑等的高层表示)的指挥官。一个中央元规划器作为系统架构师,将这一“Vibe”分解为可执行、可验证和自适应的智能体流程。通过从随机推理向逻辑编排的转变,Vibe AIGC弥合了人类想象力与机器执行之间的差距。我们认为,这种转变将重新定义人机协作经济,使AI从脆弱的推理引擎转变为强大的系统级工程合作伙伴,从而民主化复杂、长期数字资产的创作。
AIGC
智能体编排
意图解析
内容生成
论文涉及多智能体协作与高层意图解析,间接关联记忆机制,但非核心研究内容。
分享
夯
0
拉
0
Model-Dowser: Data-Free Importance Probing to Mitigate Catastrophic Forgetting in Multimodal Large Language Models
Hyeontaek Hwang, Nguyen Dinh Son, Daeyoung Kim
在多模态大语言模型(MLLMs)上进行任务特定数据的微调是提高下游应用性能的有效方法。然而,这种适应通常会导致预训练任务上的泛化能力下降,这一现象被称为灾难性遗忘。现有方法在微调语言解码器深层时效果不佳或难以扩展到更大的模型。为此,我们提出Model-Dowser,一种新颖的稀疏微调方法。该方法通过联合考虑权重幅度、输入激活和输出敏感度,为每个模型参数计算一个关于预训练泛化能力的重要性评分。在微调过程中,Model-Dowser选择性地保留高重要性参数并更新其余参数。在两个代表性MLLMs(LLaVA和NVILA)上的全面实验表明,Model-Dowser有效缓解了灾难性遗忘,并且在资源效率和可扩展性方面优于先前方法。
灾难性遗忘
稀疏微调
多模态大语言模型
重要性评分
论文涉及缓解灾难性遗忘问题,与Agent Memory相关,但非核心主题。
分享
夯
0
拉
0
Contextual Drag: How Errors in the Context Affect LLM Reasoning
Yun Cheng, Xingyu Zhu, Haoyu Zhao, Sanjeev Arora
许多大型语言模型(LLMs)自我改进流程的核心假设是模型可以通过反思过去的错误来提升性能。本文研究了一种称为情境拖累的现象:上下文中失败尝试的存在会使后续生成偏向结构相似的错误。通过对11个专有和开源模型在8项推理任务上的评估发现,情境拖累会导致10%-20%的性能下降,并且在具有严重情境拖累的模型中,迭代自我优化可能退化为自我恶化。通过树编辑距离的结构分析表明,后续推理轨迹会继承上下文中的结构相似错误模式。研究表明,外部反馈或成功的自我验证无法完全消除这一现象。尽管回退行为微调和上下文去噪等缓解策略能带来部分改善,但无法完全恢复基线性能,表明情境拖累是当前推理架构中一种持续存在的失效模式。
LLM
推理错误
上下文影响
自我优化
情境拖累
论文探讨了上下文中的错误对LLM推理的影响,与Agent Memory中错误记忆或上下文依赖相关。
分享
夯
0
拉
0
Language Models Struggle to Use Representations Learned In-Context
Michael A. Lepori, Tal Linzen, Ann Yuan, Katja Filippova
尽管大型语言模型(LLMs)在各种任务中取得了显著成功,但它们在适应全新部署环境方面仍存在不足。本研究旨在探讨LLMs是否能够利用从上下文中学习到的表示来完成下游任务。通过评估开放权重的LLMs在下一个标记预测和自适应世界建模任务中的表现,发现即使这些模型能够编码上下文语义,也难以灵活地部署这些表示。此外,对封闭源代码的最先进推理模型进行测试,结果表明即使是性能最佳的LLMs也无法可靠地利用上下文中提供的新模式。该研究旨在启发新的方法,使模型不仅能够编码上下文信息,还能以支持灵活部署的方式进行编码。
LLM
上下文表示学习
记忆部署
自适应建模
论文探讨了LLM在上下文表示学习中的表现,涉及记忆的使用和部署问题。
分享
夯
0
拉
0
Knowledge Model Prompting Increases LLM Performance on Planning Tasks
Erik Goh, John Kos, Ashok Goel
大型语言模型(LLM)在推理和规划任务中存在困难。尽管已有多种提示技术如思维链(CoT)被提出以辅助LLM推理,但这些方法的有效性也受到质疑。本文借鉴认知与教育科学领域,研究Task-Method-Knowledge(TMK)框架是否能进一步提升LLM的推理能力。TMK框架能够捕捉因果、目的性和层次化推理结构,并通过显式的任务分解机制,特别适合解决语言模型的推理缺陷。研究在PlanBench基准上进行实验,重点测试Blocksworld领域中的推理与规划能力,评估TMK结构化提示是否有助于将复杂规划问题分解为可管理的子任务。结果表明,TMK提示使推理模型在某些任务上的准确率从31.5%提升至97.3%,显示出其在语义近似与符号操作之间的桥梁作用。研究指出,TMK不仅作为上下文,还作为一种机制引导推理模型远离默认的语言模式,转向形式化的代码执行路径。
LLM推理
任务分解
知识表示
规划任务
TMK框架
论文探讨了TMK框架对LLM推理能力的提升,涉及任务分解与知识表示,与Agent Memory相关但非核心。
分享
夯
0
拉
0
AOrchestra: Automating Sub-Agent Creation for Agentic Orchestration
Jianhao Ruan, Zhihao Xu, Yiran Peng, Fashen Ren, Zhaoyang Yu et al.
语言智能体在任务自动化方面展现出巨大潜力。为了应对日益复杂和长期的任务,多轮任务求解中出现了将子代理作为工具的范式。然而,现有设计缺乏对子代理的动态抽象视图,影响了系统的适应性。本文提出了一种统一且框架无关的智能体抽象方法,将任何智能体建模为一个四元组(Instruction, Context, Tools, Model),该四元组作为能力组合的配方,使系统能够按需生成专门的执行器。基于此抽象,我们引入了一个名为AOrchestra的智能体系统,其中中央协调器在每一步具体化该四元组:它筛选任务相关的上下文,选择工具和模型,并通过即时自动创建代理进行委托执行。这种设计减少了人工工程努力,并支持多种智能体作为任务执行器的即插即用。此外,它还实现了可控的性能-成本权衡,使系统接近帕累托最优。在三个具有挑战性的基准测试(GAIA、SWE-Bench、Terminal-Bench)中,AOrchestra在与Gemini-3-Flash结合时,相对于最强基线实现了16.28%的相对改进。
Agent Orchestration
Sub-Agent Creation
Dynamic Abstraction
Task Automation
论文涉及Agent系统中的子代理创建与任务执行,间接关联到记忆机制,但未直接研究Memory。
分享
Code
夯
0
拉
0
Training Multi-Turn Search Agent via Contrastive Dynamic Branch Sampling
Yubao Zhao, Weiquan Huang, Sudong Wang, Ruochen Zhao, Chen Chen et al.
智能体强化学习使大型语言模型能够执行复杂的多轮规划和工具使用。然而,在长时域设置中,由于稀疏的轨迹级结果奖励,学习仍然具有挑战性。尽管先前基于树的方法试图缓解这一问题,但它们通常存在高方差和计算效率低的问题。通过对搜索代理的实证分析,我们发现一个常见模式:性能差异主要源于尾部附近的决策。受此启发,我们提出了一种无价值的方法——分支相对策略优化(BranPO),它在没有密集奖励的情况下提供步骤级别的对比监督。BranPO在轨迹尾部进行截断,并重新采样替代的延续路径,以构建共享前缀上的对比后缀,从而减少长时域展开中的信用模糊。为进一步提高效率并稳定训练,我们引入了难度感知的分支采样,以适应不同任务的分支频率,并采用冗余步骤掩码来抑制无信息动作。在多个问答基准测试中的广泛实验表明,BranPO始终优于强大的基线方法,在不增加整体训练预算的情况下显著提升了长时域任务的准确性。我们的代码可在https://github.com/YubaoZhao/BranPO获取。
强化学习
多轮搜索代理
对比学习
轨迹优化
论文涉及多轮搜索代理的训练,通过对比动态分支采样优化记忆相关决策,但未直接研究记忆机制本身。
分享
Code
夯
0
拉
0
OmniRAG-Agent: Agentic Omnimodal Reasoning for Low-Resource Long Audio-Video Question Answering
Yifan Zhu, Xinyu Mu, Tao Feng, Zhonghong Ou, Yuning Gong et al.
Yifan Zhu (Beijing University of Posts and Telecommunications2Nanyang Technological University3Tsinghua University) | Xinyu Mu (Beijing University of Posts and Telecommunications2Nanyang Technological University3Tsinghua University) | Tao Feng (Beijing University of Posts and Telecommunications2Nanyang Technological University3Tsinghua University)
长时域多模态问答任务需要对文本、图像、音频和视频进行推理。尽管OmniLLMs取得了一定进展,但在低资源环境下,长音频视频问答仍面临密集编码成本高、细粒度检索能力弱、主动规划能力有限以及缺乏端到端优化等问题。为解决这些问题,本文提出OmniRAG-Agent,一种用于预算受限长音频视频推理的智能体多模态问答方法。该方法构建了一个图像-音频检索增强生成模块,使OmniLLM能够从外部存储库中获取相关片段和音频片段。此外,它使用一个智能体循环来规划、跨轮次调用工具并合并检索证据以回答复杂问题。进一步地,我们应用了组相对策略优化方法,以联合改进工具使用和答案质量。在OmniVideoBench、WorldSense和Daily-Omni数据集上的实验表明,OmniRAG-Agent在低资源设置下始终优于先前方法,并取得了良好的效果,消融实验验证了每个组件的有效性。
多模态问答
智能体系统
检索增强生成
低资源学习
论文涉及基于记忆的检索增强生成和多模态推理,但核心是Agent系统设计而非Memory机制本身。
分享
夯
0
拉
0
TodyComm: Task-Oriented Dynamic Communication for Multi-Round LLM-based Multi-Agent System
Wenzhe Fan, Tommaso Tognoli, Henry Peng Zou, Chunyu Miao, Yibo Wang et al.
基于LLM的多轮多代理系统依赖于有效的通信结构以支持跨轮次协作。然而,现有方法大多在推理过程中采用固定的通信拓扑,难以应对现实中因动态对抗、任务进展或通信带宽等时变约束导致的代理角色变化。本文提出TodyComm,一种面向任务的动态通信算法,通过行为驱动的协作拓扑适应每一轮的动态变化,并利用策略梯度优化任务效用。实验结果表明,在动态对抗和通信预算限制下,TodyComm在保持标记效率和可扩展性的同时,实现了更优的任务效果。
多代理系统
动态通信
策略梯度
任务导向
论文涉及多轮代理系统中的动态通信机制,与Agent Memory相关但非核心主题。
分享
夯
0
拉
0
EHRWorld: A Patient-Centric Medical World Model for Long-Horizon Clinical Trajectories
Linjie Mu, Zhongzhen Huang, Yannian Gu, Shengqian Qin, Shaoting Zhang et al.
世界模型为在干预下模拟未来状态提供了一个系统的框架,但在医学等复杂、高风险领域实现此类模型仍具挑战性。近期的大语言模型(LLMs)在静态医疗推理任务中表现出色,但其是否能作为动态医疗世界模型来模拟疾病进展和治疗结果仍需验证。本文表明,仅依赖医疗知识的LLMs难以在连续干预下保持一致的患者状态,导致长期临床模拟中的误差累积。为此,我们引入了EHRWorld,一个基于因果序列范式的以患者为中心的医疗世界模型,并构建了EHRWorld-110K数据集,该数据集来源于真实世界的电子健康记录。大量实验表明,EHRWorld显著优于基于LLM的简单基线方法,在长期模拟稳定性、临床敏感事件建模及推理效率方面表现更优,突显了在因果基础和时间演变的临床数据上训练对可靠且稳健的医疗世界建模的重要性。
医疗AI
世界模型
长期预测
电子健康记录
论文涉及长期临床轨迹模拟,与Agent Memory相关,但核心是医疗世界模型而非记忆机制。
分享
夯
0
拉
0
HySparse: A Hybrid Sparse Attention Architecture with Oracle Token Selection and KV Cache Sharing
Yizhao Gao, Jianyu Wei, Qihao Zhang, Yu Cheng, Shimao Chen et al.
本文提出了一种名为HySparse的新架构,该架构在每个完整的注意力层之间交错多个稀疏注意力层。HySparse通过从先前的完整注意力层中直接推导出稀疏层的令牌选择和KV缓存,解决了现有稀疏注意力方法的两个基本限制。首先,传统方法通常依赖额外的代理来预测令牌重要性,增加了复杂度并可能导致性能不佳;而HySparse使用完整注意力层作为精确的“预言机”来识别重要令牌。其次,现有稀疏注意力设计往往减少了计算量但未节省KV缓存;HySparse使稀疏注意力层能够复用完整注意力的KV缓存,从而减少计算和内存消耗。实验表明,在7B密集模型和80B MoE模型上,HySparse均优于全注意力和混合SWA基线。特别是在80B MoE模型中,仅5层使用完整注意力,但HySparse仍实现了显著的性能提升,并将KV缓存存储减少了近10倍。
稀疏注意力
KV缓存优化
模型压缩
Transformer架构
论文涉及KV缓存共享与稀疏注意力机制,与Agent Memory相关但非核心主题。
分享
夯
0
拉
0
Visual Reasoning over Time Series via Multi-Agent System
Weilin Ruan, Yuxuan Liang
时间序列分析在许多现实应用中具有基础性作用,然而现有针对时间序列的方法和基于预训练大模型的方法在整合直观的视觉推理和跨任务泛化方面仍存在局限。为解决这些问题,我们提出了MAS4TS,一种以工具驱动的多智能体系统,用于通用时间序列任务。该系统基于分析器-推理器-执行器范式,在统一框架内整合了智能体通信、视觉推理和潜在空间重构。MAS4TS首先利用视觉语言模型对时间序列图进行结构化先验的视觉推理,提取时间结构,随后在潜在空间中重建预测轨迹。三个专门化的智能体通过共享内存和门控通信进行协调,同时一个路由器选择特定任务的工具链进行执行。在多个基准上的广泛实验表明,MAS4TS在多种时间序列任务中实现了最先进的性能,并表现出强大的泛化能力和高效的推理能力。
多智能体系统
时间序列分析
视觉推理
共享内存
潜在空间重构
论文提到了共享内存作为多智能体协调的关键机制,但并非核心研究内容。
分享
夯
0
拉
0
Self-Verification Dilemma: Experience-Driven Suppression of Overused Checking in LLM Reasoning
Quanyu Long, Kai Jie Jiang, Jianda Chen, Xu Guo, Leilei Gan et al.
大型推理模型(LRMs)通过生成长推理轨迹并进行反思来实现强大的性能。通过对大规模数据的实证分析发现,大量反思步骤包含重复确认中间结果的自我验证(重新检查)。这些重新检查在不同模型和基准测试中频繁出现,但绝大多数是确认性而非纠正性的,很少能发现错误或改变推理结果。这表明自我验证的激活频率与其实际效用之间存在不匹配。为此,我们提出了一种基于经验的测试时框架,以减少过度使用的验证。该方法检测重新检查行为的激活,参考历史验证结果的经验池,并通过高效检索估计是否可能不需要重新检查。当历史经验表明无需检查时,会发出抑制信号引导模型继续执行。在多个模型和基准测试中,我们的方法在保持准确率的同时减少了高达20.3%的token使用量,在某些数据集上甚至提升了准确率。
LLM推理
自我验证
经验驱动
推理优化
论文探讨了LLM推理中自我验证机制的过度使用问题,与Agent Memory中的反思和验证机制相关。
分享
夯
0
拉
0
IntentRL: Training Proactive User-intent Agents for Open-ended Deep Research via Reinforcement Learning
Haohao Luo, Zexi Li, Yuexiang Xie, Wenhao Zhang, Yaliang Li et al.
深度研究(DR)代理通过自主检索和综合大规模网络语料库中的证据生成长篇报告,扩展了大语言模型(LLMs)的参数化知识,实现了长期视角的智能体范式。然而,与实时对话助手不同,DR计算成本高且耗时,导致自主性与交互性的矛盾:在模糊用户查询上高自主性常导致执行时间过长且结果不理想。为此,我们提出IntentRL框架,训练主动代理在开始长期研究前明确潜在用户意图。为克服开放性研究数据稀缺的问题,我们引入了一个可扩展的流程,通过浅到深的意图优化图将少量种子样本扩展为高质量的对话回合。此外,我们采用两阶段强化学习(RL)策略:第一阶段在离线对话中应用RL以高效学习通用用户交互行为,第二阶段使用训练好的代理和用户模拟器进行在线推演,以增强对多样化用户反馈的适应能力。大量实验表明,IntentRL显著提升了意图命中率和下游任务性能,优于封闭源DR代理内置的澄清模块和主动LLM基线。
强化学习
意图识别
深度研究代理
对话系统
论文涉及Agent在处理用户意图时的主动澄清机制,与记忆相关但非核心主题。
分享
夯
0
拉
0
DiscoverLLM: From Executing Intents to Discovering Them
Tae Soo Kim, Yoonjoo Lee, Jaesang Yu, John Joon Young Chung, Juho Kim
为处理模糊和开放式的请求,大型语言模型(LLMs)正被越来越多地训练以与用户互动,从而揭示用户尚未表达的意图(例如,提出澄清问题)。然而,用户往往由于尚未形成明确意图而表现出模糊性,他们必须通过观察和探索结果来发现自己的需求。简单地询问“你想要什么样的语气?”在用户自身也不清楚时会失效。我们引入了DiscoverLLM,这是一种新颖且通用的框架,用于训练LLMs帮助用户形成并发现其意图。我们的方法核心是一个新的用户模拟器,该模拟器通过一个分层的意图体系建模认知状态,并随着模型呈现相关选项逐步具体化——其中具体化的程度作为模型优化的奖励信号。由此得到的模型能够通过适应性发散(即探索选项)在意图不明确时协作,而在意图具体化时收敛(即精炼和实施)。在创意写作、技术写作和SVG绘图等提出的交互式基准测试中,DiscoverLLM实现了超过10%的任务性能提升,同时将对话长度减少了高达40%。在一项包含75名参与者的用户研究中,DiscoverLLM相比基线方法显著提高了对话满意度和效率。
意图发现
人机交互
LLM框架
用户模拟器
论文涉及用户意图发现与LLM交互,隐含记忆机制但非核心主题。
分享
夯
0
拉
0
Pursuing Best Industrial Practices for Retrieval-Augmented Generation in the Medical Domain
Wei Zhu
尽管基于大语言模型(LLMs)的检索增强生成(RAG)已在工业应用中迅速采用,但在构建RAG系统方面,特别是在医疗领域,尚未就最佳实践达成共识,包括系统的组成部分、如何组织这些部分以及如何实现每个部分。本文首先仔细分析了RAG系统的每个组件,并为每个组件提出了实际的替代方案。随后,我们对三种类型的任务进行了系统评估,揭示了改进RAG系统的方法以及基于LLM的RAG系统在性能和效率之间的权衡方式。
RAG
医疗领域
LLM
系统优化
论文涉及RAG系统组件及优化,与Agent Memory相关但非核心主题。
分享
夯
0
拉
0
MIRROR: A Multi-Agent Framework with Iterative Adaptive Revision and Hierarchical Retrieval for Optimization Modeling in Operations Research
Yifan Shi, Jialong Shi, Jiayi Wang, Ye Fan, Jianyong Sun
运筹学(OR)依赖于专家驱动的建模过程,这一过程缓慢且脆弱,难以应对新场景。尽管大语言模型(LLMs)可以自动将自然语言转换为优化模型,但现有方法要么依赖昂贵的后训练,要么采用多智能体框架,但仍缺乏可靠的协作错误纠正和任务特定检索,常导致输出错误。本文提出MIRROR,一种无需微调的端到端多智能体框架,可直接将自然语言优化问题转化为数学模型和求解器代码。MIRROR集成了两个核心机制:(1)基于执行的迭代自适应修订,用于自动错误纠正;(2)分层检索机制,从精心构建的示例库中获取相关的建模和编码示例。实验表明,MIRROR在标准OR基准测试中优于现有方法,在复杂工业数据集如IndustryOR和Mamo-ComplexLP上表现尤为突出。通过结合精确的外部知识注入与系统性错误纠正,MIRROR为非专家用户提供了一种高效可靠的OR建模解决方案,克服了通用LLMs在专家优化任务中的根本性局限。
多智能体系统
优化建模
错误纠正
分层检索
自然语言处理
论文涉及多智能体框架中的错误修正与检索机制,与Agent Memory相关但非核心主题。
分享
夯
0
拉
0
MeetBench-XL: Calibrated Multi-Dimensional Evaluation and Learned Dual-Policy Agents for Real-Time Meetings
Yuelin Hu, Jun Xu, Bingcong Lu, Zhengxue Cheng, Hongwei Hu et al.
企业会议环境需要能够在严格延迟、成本和隐私约束下处理多样化操作任务的人工智能助手,例如实时讨论中的快速事实核查以及跨会议分析用于战略规划。现有会议基准主要集中在简化的问答任务上,未能反映真实企业工作流程中由多方协作产生的有机查询、长时序上下文和工具增强推理的需求。本文通过构建一个基于实际数据集和学习代理框架来弥补这一差距。首先,我们引入了MeetAll,这是一个从231场企业会议(总计140小时)中衍生出的双语多模态语料库。问题注入采用经过领域专家验证的企业导向协议,并通过人类可区分性研究进行校准。其次,我们提出了MeetBench XL,一种与人类判断对齐的多维评估协议,用于衡量事实准确性、意图一致性、响应效率、结构清晰度和完整性。第三,我们提出了MeetMaster XL,一种学习型双策略代理,能够联合优化快速与慢速推理路径之间的查询路由及工具调用,包括检索、跨会议聚合和网络搜索。轻量级分类器实现了准确的路由,具有最小开销,在质量与延迟之间取得了优于单模型基线的平衡。实验结果表明,该方法在商业系统上表现一致提升,并通过消融实验、鲁棒性测试和现实部署案例加以支持。
Agent Memory
多模态语料库
双策略代理
会议系统
评估协议
论文涉及Agent在会议场景中的记忆与推理机制,但非核心研究主题。
分享
Code
夯
0
拉
0
ATACompressor: Adaptive Task-Aware Compression for Efficient Long-Context Processing in LLMs
Xuancheng Li, Haitao Li, Yujia Zhou, Qingyao Ai, Yiqun Liu
Xuancheng Li (DCST, Tsinghua UniversityBeijingChina) | Haitao Li (DCST, Tsinghua UniversityBeijingChina) | Yujia Zhou (DCST, Tsinghua UniversityBeijingChina)
大型语言模型(LLMs)在处理长上下文输入时常常面临“中间信息丢失”问题,关键信息因长度过长而被稀释或忽略。现有的上下文压缩方法旨在通过减少输入规模来解决这一问题,但在信息保留和压缩效率之间难以取得平衡。本文提出了一种自适应任务感知压缩器(ATACompressor),该方法根据具体任务需求动态调整压缩策略。ATACompressor采用选择性编码器,仅对长上下文中与任务相关的部分进行压缩,从而确保关键信息得以保留并去除冗余内容。其自适应分配控制器能够感知相关内容的长度,并据此调整压缩率,以优化资源利用。我们在HotpotQA、MSMARCO和SQUAD三个问答数据集上评估了ATACompressor,结果表明其在压缩效率和任务性能方面均优于现有方法。此外,我们还进行了多种消融实验和分析实验,以深入理解ATACompressor的关键组成部分。
长上下文处理
信息压缩
任务感知
LLM优化
论文涉及长上下文处理中的信息压缩,与Agent Memory相关,但非核心研究。
分享
夯
0
拉
0
Token Sparse Attention: Efficient Long-Context Inference with Interleaved Token Selection
Dongwon Jo, Beomseok Kang, Jiwon Song, Jae-Joon Kim
Jiwon Song (Seoul National University ,Department of Electric and Computer Engineering)
注意力机制的二次复杂度仍然是大语言模型长上下文推理的核心瓶颈。现有加速方法要么通过结构化模式稀疏化注意力图,要么在特定层永久移除token,这可能导致保留无关token或依赖不可逆的早期决策,而无法适应token重要性的逐层变化。本文提出了一种轻量且动态的token级稀疏化机制——Token Sparse Attention,在注意力计算过程中将每个head的Q、K、V压缩到一个缩减的token集合中,并在输出后将其解压回原始序列,从而允许后续层重新考虑token信息。此外,该方法揭示了token选择与稀疏注意力交汇的新设计点。该方法完全兼容密集注意力实现(如Flash Attention),并能无缝集成现有稀疏注意力内核。实验结果表明,Token Sparse Attention在保持精度损失低于1%的情况下,实现了最高达3.23倍的注意力加速效果,证明了动态且交错的token级稀疏化是可扩展长上下文推理的有效补充策略。
注意力机制
长上下文推理
稀疏化
token选择
模型优化
论文提出了一种动态的token级稀疏化机制,与长上下文推理中的信息保留和处理相关,涉及记忆管理。
分享
夯
0
拉
0
One Model, All Roles: Multi-Turn, Multi-Agent Self-Play Reinforcement Learning for Conversational Social Intelligence
Bowen Jiang, Taiwei Shi, Ryo Kamoi, Yuan Yuan, Camillo J. Taylor et al.
本文介绍了OMAR(One Model, All Roles)框架,该框架通过多轮、多智能体对话的自我博弈,使AI能够发展出社交智能。与传统依赖静态单轮优化的方法不同,OMAR允许单一模型同时扮演对话中的所有参与者,直接从动态社交互动中学习长期目标和复杂社会规范。为确保长对话中的训练稳定性,我们实现了分层优势估计方法,分别计算回合级和词级优势。在SOTOPIA社交环境和狼人杀策略游戏中评估表明,训练后的模型展现出细致的、涌现的社交智能,如共情、说服和寻求妥协等,展示了即使在竞争场景下协作学习的有效性。尽管我们识别了诸如奖励黑客等实际挑战,但结果表明,无需人工监督即可产生丰富的社交智能。希望本研究能激励进一步探索群体对话中AI社交智能的相关研究。
强化学习
多智能体系统
社交智能
自我博弈
论文涉及多智能体对话中的长期目标学习,与记忆机制相关但非核心主题。
分享
夯
0
拉
0
Test-time Recursive Thinking: Self-Improvement without External Feedback
Yufan Zhuang, Chandan Singh, Liyuan Liu, Yelong Shen, Dinghuai Zhang et al.
现代大型语言模型(LLMs)在推理能力方面取得了快速进步,主要得益于使用可验证奖励的强化学习。本文探讨了这些LLMs是否可以在无需额外训练的情况下实现自我改进。我们识别出两个核心挑战:(i)高效生成多样且高质量的候选解决方案,以及(ii)在缺乏真实监督的情况下可靠地选择正确答案。为了解决这些问题,我们提出了测试时递归思考(TRT),一种迭代的自我改进框架,该框架基于特定回滚策略、积累的知识和自生成的验证信号进行生成。通过TRT,开源模型在AIME-25/24上达到了100%的准确率,并且在LiveCodeBench最难的问题上,闭源模型在没有外部反馈的情况下提高了10.4至14.8个百分点。
LLM
Self-Improvement
Recursive Thinking
Verification Signals
论文提出了一种测试时递归思考框架,涉及自我改进和验证信号,与Agent Memory相关但非核心。
分享
夯
0
拉
0
The Trigger in the Haystack: Extracting and Reconstructing LLM Backdoor Triggers
Blake Bullwinkel, Giorgio Severi, Keegan Hines, Amanda Minnich, Ram Shankar Siva Kumar et al.
检测模型是否被投毒是AI安全领域的长期问题。在本研究中,我们提出了一种实用的扫描器,用于识别因果语言模型中的休眠代理式后门。我们的方法基于两个关键发现:首先,休眠代理倾向于记忆投毒数据,因此可以通过记忆提取技术泄露后门示例;其次,当输入中存在后门触发器时,中毒的LLM在输出分布和注意力头中表现出独特的模式。基于这些观察,我们开发了一种可扩展的后门扫描方法,该方法无需先验知识,仅需推理操作。我们的扫描器可以自然地整合到更广泛的防御策略中,且不会影响模型性能。我们展示了该方法在多种后门场景和广泛模型及微调方法中能够恢复有效的触发器。
LLM后门检测
模型记忆提取
AI安全
论文涉及模型记忆提取与后门触发器检测,与Agent Memory相关但非核心主题。
分享
夯
0
拉
0
Agent Alpha: Tree Search Unifying Generation, Exploration and Evaluation for Computer-Use Agents
Sizhe Tang, Rongqian Chen, Tian Lan
尽管通过轨迹级采样扩展测试时计算能力显著提升了图形用户界面(GUI)代理的性能,但由于缺乏回溯能力,导致无法重用部分成功经验或从早期错误中恢复。本文提出了一种名为Agent Alpha的统一框架,通过步骤级蒙特卡洛树搜索(MCTS)协同生成、探索和评估过程,从而主动建模或利用规划空间的结构。通过将alpha-UCT引导搜索集成到交互循环中,Agent Alpha实现了有意识的规划,有助于早期剪枝次优分支并高效重用前缀。此外,还采用比较驱动评估以减少绝对评分偏差,并通过多样性约束扩展来保持紧凑且信息丰富的搜索空间。对alpha-UCT的遗憾界进行了分析。在OSWorld基准测试中,Agent Alpha在等量计算条件下取得了最先进的成功率(约77%),显著优于轨迹级基线方法。
蒙特卡洛树搜索
代理规划
探索与评估
计算效率
论文涉及Agent的规划与搜索机制,提及前缀重用和探索策略,与记忆相关但非核心主题。
分享
夯
0
拉
0
Large Language Models Can Take False First Steps at Inference-time Planning
Haijiang Yan, Jian-Qiao Zhu, Adam Sanborn
Haijiang Yan (haijiang.yan@warwick.ac.uk) (Department of Psychology, The University of Warwick) | Jian-Qiao Zhu (Department of Psychology, The University of Hong Kong) | Adam Sanborn (Department of Psychology, The University of Warwick)
大型语言模型(LLMs)在训练过程中已被证明能够获得序列级规划能力,但其在推理时表现出的规划行为往往短视且与其能力不一致。本文通过贝叶斯方法解释这一差距,认为规划行为受生成上下文的影响:由于自然语言与LLMs内部语言之间的细微差异,积累的自生成上下文会导致推理过程中的规划偏移,从而表现出规划能力下降的现象。通过两个受控实验验证该模型:一个随机生成任务展示了在人类提示下受限规划及随着自生成上下文积累规划强度增强的现象;另一个高斯采样任务则显示了在自生成序列条件下的初始偏差减少。这些发现为理解LLMs在推理过程中如何进行前瞻性规划提供了理论解释和实证依据。
LLM
推理规划
生成上下文
贝叶斯模型
论文探讨了LLM在推理时的规划行为与训练时能力的差异,涉及生成上下文对规划的影响,与Agent Memory相关。
分享
夯
0
拉
0
Spatiotemporal Decision Transformer for Traffic Coordination
Haoran Su, Yandong Sun, Hanxiao Deng
交通信号控制是城市交通中的关键挑战,需要多个交叉口之间的协调以优化整体交通流量。尽管强化学习在自适应信号控制中展现出潜力,现有方法在多智能体协调和样本效率方面存在困难。本文提出MADT(多智能体决策变换器),将多智能体交通信号控制重新表述为序列建模问题。MADT通过引入图注意力机制建模交叉口间的空间依赖关系、时序变换器编码器捕捉交通动态以及目标性能条件来扩展决策变换器范式至多智能体场景。该方法能够从历史交通数据中进行离线学习,并支持潜在的在线微调。实验表明,在合成网格网络和真实交通场景中,MADT实现了最先进的性能,相比最强基线平均减少了5-6%的旅行时间,并表现出更优的相邻交叉口协调能力。
多智能体系统
交通信号控制
决策变换器
序列建模
论文涉及多智能体决策中的序列建模与目标性能条件,与Agent Memory相关但非核心主题。
分享
夯
0
拉
0
WideSeek: Advancing Wide Research via Multi-Agent Scaling
Ziyang Huang, Haolin Ren, Xiaowei Yuan, Jiawei Wang, Zhongtao Jiang et al.
搜索智能正在从深度研究向广泛研究转变,这一范式对于在复杂约束下并行检索和综合全面信息至关重要。然而,该领域的发展受到缺乏专门的基准和优化方法的阻碍。为了解决这些问题,本文从数据管道和智能体优化两个角度深入研究广泛研究。首先,我们构建了WideSeekBench,这是一个通过严格多阶段数据管道生成的通用广域信息检索(GBIS)基准,确保目标信息量、逻辑约束和领域的多样性。其次,我们引入了WideSeek,一种动态分层的多智能体架构,可以根据任务需求自主创建并行子智能体。此外,我们设计了一个统一的训练框架,将多智能体轨迹线性化,并使用端到端强化学习优化系统。实验结果证明了WideSeek和多智能体强化学习的有效性,表明扩展智能体数量是推进广泛研究范式的有前途方向。
多智能体系统
信息检索
强化学习
广泛研究
论文涉及多智能体架构与信息检索,但未直接探讨记忆机制。
分享
夯
0
拉
0
Context Learning for Multi-Agent Discussion
Xingyuan Hua, Sheng Yue, Xinyi Li, Yizhe Zhao, Jinrui Zhang et al.
多智能体讨论(MAD)近期受到广泛关注,其中多个大语言模型(LLM)实例通过结构化讨论协同解决问题。然而,现有方法常因各智能体上下文不一致而导致讨论失谐,难以达成连贯解。本文提出一种多LLM上下文学习方法(M2CL),为每个智能体学习一个上下文生成器,可在每轮讨论中通过自动信息组织与精炼动态生成上下文指令。受上下文指令理论启发,M2CL采用精心设计的自适应机制训练生成器,以控制上下文一致性并调节输出差异,从而避免过早收敛于多数噪声,逐步达成正确共识。在学术推理、具身任务和移动控制等挑战性任务上的实验表明,M2CL性能显著优于现有方法20%–50%,且具备良好的迁移性与计算效率。
多智能体系统
上下文学习
涉及上下文管理与信息组织,属记忆相关机制但非核心记忆架构。
分享
夯
0
拉
0
The Shape of Beliefs: Geometry, Dynamics, and Interventions along Representation Manifolds of Language Models' Posteriors
Raphaël Sarfati, Eric Bigelow, Daniel Wurgaft, Jack Merullo, Atticus Geiger et al.
大语言模型(LLMs)通过上下文构建对答案和主张的条件信念(即后验分布),但其在表征空间中如何编码、随新证据更新以及如何通过干预重塑这些信念尚缺乏机制性解释。本文在受控环境中研究Llama-3.2如何仅凭上下文中的样本隐式推断正态分布的参数(均值与标准差),并发现随着上下文学习的深入,参数的“信念流形”呈弯曲结构形成。当分布突变时,标准线性干预常使模型偏离流形,导致耦合且分布外的偏移;而基于几何与场感知的干预能更好保持目标信念族的结构。研究展示了线性场探测(LFP)作为一种简单方法,可对数据流形进行划分并实施尊重底层几何的干预,表明LLM中自然涌现出丰富结构,纯线性概念表征常不足以准确抽象。
belief representation
representation geometry
研究LLM信念表征的几何结构与更新机制,涉及记忆中信念状态的动态演化。
分享
夯
0
拉
0
WildGraphBench: Benchmarking GraphRAG with Wild-Source Corpora
Pengyu Wang, Benfeng Xu, Licheng Zhang, Shaohan Wang, Mingxuan Du et al.
基于图的检索增强生成(GraphRAG)将外部知识组织为层次化图结构,以高效检索并聚合分散于多文档中的证据。然而,现有GraphRAG基准多依赖短小、人工整理的段落,难以在包含长上下文和大规模异构文档的真实场景中有效评估系统性能。为此,本文提出WildGraphBench基准,利用维基百科文章与其外部参考文献之间的结构关系构建贴近现实的评测环境。该基准涵盖12个顶层主题,以外部参考文献作为检索语料库,引用链接的陈述作为真值,共生成1,100个问题,分为单事实问答、多事实问答和段落级摘要三类复杂度。实验表明,当前GraphRAG流程在中等数量来源的多事实聚合任务中表现良好,但在摘要任务中可能因过度强调高层陈述而忽略细粒度细节。
GraphRAG
知识图谱
检索增强生成
基准测试
涉及外部知识存储与检索机制,属于记忆相关应用但非核心记忆架构研究。
分享
Code
夯
0
拉
0
From Latent Signals to Reflection Behavior: Tracing Meta-Cognitive Activation Trajectory in R1-Style LLMs
Yanrui Du, Yibo Gao, Sendong Zhao, Jiayun Li, Haochun Wang et al.
R1风格的大语言模型因其自反能力备受关注,但其内在机制尚不明确。本文聚焦反思行为的起始点,逐层追踪其激活轨迹。通过logit lens解析token级语义,发现存在结构化进展:(i) 潜在控制层编码“思考预算”语义;(ii) 语义枢纽层浮现话语级线索(如转折点与总结提示)并主导概率分布;(iii) 行为显化层中反思行为token的采样概率显著上升。干预实验揭示了各阶段间的因果链:提示语义调节潜在控制方向的激活投影,引发语义枢纽层中线索竞争,进而调控反思行为token的采样可能性。结果表明该过程模拟了人类从潜意识监控、话语调控到显式自反的元认知路径。
元认知
自反机制
探讨LLM反思行为的内部机制,涉及元认知与信息处理过程,间接关联记忆调控。
分享
Code
夯
0
拉
0
Beyond Local Edits: Embedding-Virtualized Knowledge for Broader Evaluation and Preservation of Model Editing
Shuainan Liu, Xuanang Chen, Ben He, Le Sun
当前大语言模型的知识编辑方法通常依赖预定义基准,仅评估被编辑事实及其有限的相关知识,难以全面理解编辑对模型整体知识系统的影响。为此,本文提出嵌入虚拟化知识(EVK),通过在嵌入空间中施加受控扰动,刻画模型知识并探索超出显式数据标注的更广泛虚拟知识区域。基于EVK,作者构建了嵌入级评估基准EVK-Bench,可量化编辑引发的知识漂移,揭示传统样本级指标无法捕捉的影响。此外,还提出即插即用的EVK-Align模块,在编辑过程中约束嵌入级知识漂移,可无缝集成至现有编辑方法。实验表明,该方法在不牺牲编辑准确率的前提下显著提升知识保留能力,并支持更全面的评估。
知识编辑
知识保留
涉及知识编辑对模型内部知识(记忆)的影响,但未聚焦Agent Memory架构。
分享
夯
0
拉
0
Read As Human: Compressing Context via Parallelizable Close Reading and Skimming
Jiwei Tang, Shilei Liu, Zhicheng Zhang, Qingsong Lv, Runsong Zhao et al.
大语言模型(LLMs)在多种任务中表现出卓越能力,但在长上下文场景中受限于计算效率低下和信息冗余。本文提出RAM(Read As HuMan)框架,借鉴人类阅读行为——对重要内容精读、对次要内容略读——将上下文分段并结合查询并行编码。高相关性片段完整保留,低相关性片段则通过查询引导压缩为紧凑摘要向量。显式文本片段与隐式摘要向量拼接后输入解码器,在保持自然语言可解释性的同时提升性能。为进一步优化精读与略读的决策边界,引入基于正负查询-片段对的对比学习目标。实验表明,RAM在多个问答与摘要基准上优于现有方法,并在长输入(平均16K,最长32K)上实现最高12倍的端到端加速。
上下文压缩
长上下文处理
提出上下文压缩机制,间接优化Agent的长期记忆处理效率。
分享
夯
0
拉
0
Fast Autoregressive Video Diffusion and World Models with Temporal Cache Compression and Sparse Attention
Dvir Samuel, Issar Tzachor, Matan Levy, Micahel Green, Gal Chechik et al.
Matan Levy (PhD Student at The Hebrew University of Jerusalem)
自回归视频扩散模型支持流式生成,适用于长视频合成与交互式神经游戏引擎,但其注意力层在推理时因KV缓存持续增长而成为瓶颈,导致延迟增加与GPU内存激增。本文分析了自回归视频扩散中的三类冗余:帧间近重复键、缓慢演化的语义查询/键,以及长提示中仅少数令牌对每帧有效。据此提出无需训练的统一注意力框架:TempCache通过时序对应压缩KV缓存;AnnCA利用近似最近邻匹配选择帧相关提示令牌以加速交叉注意力;AnnSA通过语义匹配稀疏化自注意力。该方法显著降低计算与内存开销,在保持视觉质量的同时实现5–10倍端到端加速,并在长时间推理中维持稳定吞吐与近恒定峰值显存。
KV缓存优化
稀疏注意力
聚焦KV缓存压缩与内存优化,属Agent Memory相关机制。
分享
夯
0
拉
0
$\textbf{AGT$^{AO}$}$: Robust and Stabilized LLM Unlearning via Adversarial Gating Training with Adaptive Orthogonality
Pengyu Li, Lingling Zhang, Zhitao Gao, Yanrui Wu, Yuxuan Dong et al.
尽管大语言模型(LLMs)展现出卓越能力,却会无意中记忆敏感数据,带来严重的隐私与安全风险。机器遗忘是缓解此类风险的关键,但现有方法面临根本困境:激进遗忘易导致灾难性遗忘而损害模型效用,保守策略则可能仅实现表面遗忘,仍易受对抗恢复攻击。为此,本文提出AGT$^{AO}$(对抗门控训练与自适应正交性)统一框架,兼顾鲁棒擦除与效用保持。该方法引入自适应正交性(AO)动态缓解遗忘与保留目标间的梯度冲突,减少非预期知识退化;同时通过对抗门控训练(AGT)将遗忘建模为潜在空间的极小-极大博弈,并采用课程式门控机制模拟并抵御内部恢复尝试。实验表明,AGT$^{AO}$在遗忘效果(KUR≈0.01)与模型效用(MMLU 58.30)之间取得优越平衡。
机器遗忘
大语言模型安全
聚焦LLM遗忘机制,涉及记忆删除与保留的权衡,属记忆相关但非Agent专用。
分享
Code
夯
0
拉
0
Beyond Dense States: Elevating Sparse Transcoders to Active Operators for Latent Reasoning
Yadong Wang, Haodong Chen, Yu Tian, Chuanxing Geng, Dong Liang et al.
潜在推理将思维链(CoT)压缩为连续隐状态,但现有方法依赖难以解释和控制的稠密潜在转移。与此同时,稀疏表征模型虽能揭示人类可解释的语义特征,却多限于事后分析。本文提出LSTR(潜在稀疏转码推理)框架,将功能性稀疏转码器提升为主动推理算子,通过稀疏语义转移执行多步计算。其核心是采用残差跳跃架构的潜在转移转码器(LTT),将线性流形迁移与稀疏语义更新解耦,并通过显式稀疏性约束实现可控的语义分辨率。实验表明,LSTR在保持推理准确性和压缩效率的同时,显著优于稠密基线的可解释性。因果干预与轨迹分析进一步证明,这些稀疏特征在推理过程中兼具可解释性与因果有效性。
潜在推理
稀疏表征
涉及隐状态压缩与语义表征,属记忆机制的间接应用。
分享
夯
0
拉
0
TRIP-Bench: A Benchmark for Long-Horizon Interactive Agents in Real-World Scenarios
Yuanzhe Shen, Zisu Huang, Zhengyuan Wang, Muzhao Tian, Zhengkang Guo et al.
随着基于大语言模型(LLM)的智能体被部署于日益复杂的现实环境中,现有基准难以充分反映诸如全局约束执行、多工具协同推理以及在长期多轮交互中适应用户行为演变等关键挑战。为此,我们提出TRIP-Bench——一个基于真实旅行规划场景的长周期交互基准。该基准利用真实数据,提供18个精心设计的工具和40余项旅行需求,并支持自动化评估。其困难子集强调长而模糊的交互、风格变化、可行性变动及迭代版本修订。对话最多包含15轮用户输入、150余次工具调用,上下文长度可超20万token。实验表明,即使先进模型在简单子集上的成功率也不超过50%,在困难子集上则低于10%。我们进一步提出GTPO——一种在线多轮强化学习方法,结合专用奖励归一化与奖励差分策略,在Qwen2.5-32B-Instruct上显著提升约束满足能力与交互鲁棒性,优于Gemini-3-Pro。
长周期交互
智能体记忆
涉及长上下文记忆与多轮交互中的信息维护,但未聚焦记忆机制本身。
分享
夯
0
拉
0
Autonomous Question Formation for Large Language Model-Driven AI Systems
Hong Su
大语言模型(LLM)驱动的AI系统在动态开放环境中对自主决策日益重要。然而,现有系统多依赖预定义任务和固定提示,难以在环境变化时自主识别待解决问题。本文提出一种基于人类模拟的框架,使AI系统能通过推理其内部状态、环境观测及其他AI交互,自主生成问题并设定任务。该方法将问题生成视为任务选择与执行前的一阶决策过程,融合内驱、环境感知与多智能体感知的提示范围,逐步扩展认知覆盖。框架还支持从经验中学习问题生成过程,以持续提升适应性与决策质量。多智能体仿真结果表明,环境感知提示显著减少“未进食”事件,而多智能体感知提示在20天仿真中进一步降低累计事件超60%(p<0.05)。
自主问题生成
多智能体系统
涉及内部状态与经验学习,间接关联记忆机制但非核心。
分享
夯
0
拉
0
Beyond Pixels: Visual Metaphor Transfer via Schema-Driven Agentic Reasoning
Yu Xu, Yuxin Zhang, Juan Cao, Lin Gao, Chunyu Wang et al.
视觉隐喻是一种高阶人类创造力形式,通过跨域语义融合将抽象概念转化为具有冲击力的视觉修辞。尽管生成式AI取得显著进展,现有模型仍局限于像素级指令对齐与表层外观保持,难以捕捉实现真正隐喻生成所需的底层抽象逻辑。为此,本文提出视觉隐喻迁移(VMT)任务,要求模型自主解耦参考图像中的“创意本质”,并将该抽象逻辑重新具象化到用户指定的目标主体上。我们构建了一个受认知启发的多智能体框架,通过新颖的图式语法(“G”)实现概念融合理论(CBT)的操作化,该结构化表示将关系不变量与具体视觉实体解耦,为跨域逻辑重实例化提供坚实基础。实验表明,该方法在隐喻一致性、类比恰当性与视觉创造力方面显著优于现有最先进方法。
视觉隐喻
多智能体系统
涉及抽象逻辑的提取与跨域重实例化,隐含记忆机制但非核心焦点。
分享
夯
0
拉
0
Probing the Knowledge Boundary: An Interactive Agentic Framework for Deep Knowledge Extraction
Yuheng Yang, Siqi Zhu, Tao Feng, Ge Liu, Jiaxuan You
大语言模型(LLMs)可视为压缩的知识库,但其实际包含的知识范围尚不明确。现有基准多为静态,难以系统探测知识边界。本文提出一种交互式智能体框架,通过四种自适应探索策略在不同粒度上系统提取并量化LLM中的知识。为保障知识质量,设计了三阶段处理流程:基于向量的去重、基于LLM的语义消歧,以及领域相关性审核。实验表明,递归分类法是最有效的探索策略;模型规模与知识提取量呈明显扩展律;专用模型初始准确率高但衰减快,通用模型则表现更稳定;不同训练数据导致模型家族间存在可测量的知识分布差异。
知识提取
智能体框架
涉及知识提取与存储机制,但未聚焦记忆架构本身。
分享
夯
0
拉
0
Neural FOXP2 -- Language Specific Neuron Steering for Targeted Language Improvement in LLMs
Anusa Saha, Tanmay Joshi, Vinija Jain, Aman Chadha, Amitava Das
大语言模型虽经多语言训练,但其主导语言常为英语,反映预训练数据中英语的主导地位,其他语言虽存储于参数化记忆中却系统性被抑制。本文提出语言默认性由稀疏低秩控制回路(即“语言神经元”)调控,并可被机制性分离与安全引导。我们引入Neural FOXP2方法,通过三阶段实现目标语言(如印地语或西班牙语)的主语言化:(i)定位语言特异性神经元;(ii)通过谱低秩分析提取语言转换的主导方向;(iii)在低至中层对语言神经元施加有符号的稀疏激活偏移,增强目标语言同时抑制英语表征,从而可控地实现目标语言默认性。
语言控制
参数化记忆
涉及参数化记忆中的语言表征调控,但聚焦语言控制而非通用Agent Memory机制。
分享
夯
0
拉
0
Synapse Compendium Aware Federated Knowledge Exchange for Tool Routed LLMs
Abhijit Chakraborty, Sandipan De, Yash Shah, Chahana Dahal, Vivek Gupta
基于大语言模型(LLM)的智能体在联邦学习下的协作面临通信开销高、数据异构性及工具使用差异等挑战。本文提出Synapse框架,通过训练一个共享的全局工具使用行为知识模型来应对上述问题。各客户端智能体在固定LLM基础上本地学习工具使用模式,并通过协调器上传表征工件以进行联邦聚合;全局工具知识库随之更新并重新分发,促使智能体收敛至稳定的工具选择策略。该框架采用模板化表示、嵌入检索结合LLM重排序以及自适应掩码技术,在保障效用的同时限制信息泄露。实验表明,Synapse在多智能体LLM系统中相较权重或提示共享方法显著提升了工具使用效能并降低了通信开销。
联邦学习
工具使用
涉及工具使用知识的共享与聚合,隐含记忆机制但非核心焦点。
分享
夯
0
拉
0
HyLRA: Hybrid Layer Reuse Attention for Efficient Long-Context Inference
Xuan Ai, Qingqing Yang, Peng Wang, Lei Deng, Lin Zhang et al.
大语言模型(LLMs)的长上下文推理受限于注意力机制的二次计算复杂度和键值(KV)缓存的巨大内存占用。现有稀疏注意力方法常依赖固定模式或激进剪枝,难以兼顾效率与精度。本文提出HyLRA(混合层复用注意力),基于逐层稀疏性分析,发现注意力机制具有“层内敏感性”(某些层需完整注意力以防特征失真)和“层间相似性”(相邻层共享关键token)。HyLRA通过离线动态规划制定最优逐层策略:对敏感层保留完整注意力,对容忍层则复用前一层的top-k索引以跳过二次计算,从而将计算聚焦于关键token。实验表明,HyLRA在保持性能(精度下降<1%)的同时,推理吞吐量提升6%–46%,优于当前先进稀疏注意力方法。
KV缓存优化
稀疏注意力
聚焦KV缓存优化,属LLM推理内存管理,非Agent专属记忆机制。
分享
夯
0
拉
0
Can Small Language Models Handle Context-Summarized Multi-Turn Customer-Service QA? A Synthetic Data-Driven Comparative Evaluation
Lakshan Cooray, Deshan Sumanathilaka, Pattigadapa Venkatesh Raju
Pattigadapa Venkatesh Raju3 (School of Computing, Informatics Institute of Technology, Colombo 06, Western Province, Sri Lanka)
客服问答系统日益依赖对话语言理解。尽管大语言模型(LLMs)性能优异,但其高计算成本限制了在资源受限环境中的部署。小型语言模型(SLMs)虽更高效,但在需保持对话连贯性与上下文理解的多轮客服问答中效果尚不明确。本文研究了经过指令微调的SLMs在采用历史摘要策略以保留关键对话状态下的表现,并提出基于对话阶段的定性分析方法,评估模型在客服交互不同阶段的行为。通过词汇与语义相似度指标及人工与LLM-as-a-judge评估,对9个低参数SLMs与3个商用LLMs进行比较。结果表明SLMs表现差异显著,部分接近LLM水平,其余则难以维持对话连贯性与上下文对齐。
小型语言模型
对话状态管理
采用历史摘要策略维护对话状态,涉及记忆机制但非核心研究。
分享
夯
0
拉
0
SEISMO: Increasing Sample Efficiency in Molecular Optimization with a Trajectory-Aware LLM Agent
Fabian P. Krüger, Andrea Hunklinger, Adrian Wolny, Tim J. Adler, Igor Tetko et al.
分子结构优化以实现特定性质是化学科学,尤其是药物研发中的关键瓶颈。由于分子性质评估常依赖昂贵且受限的实验或模拟(即“oracle”),高效利用样本至关重要。本文提出SEISMO,一种在推理时严格在线运行的LLM智能体,每次调用oracle后即时更新,无需基于种群或批量学习。SEISMO将完整优化轨迹(包括自然语言任务描述、标量评分及可选的结构化解释性反馈)作为条件生成新分子提案。在包含23项任务的实用分子优化基准上,SEISMO的优化曲线下面积比现有方法高2–3倍,常在50次oracle调用内接近任务最优得分。额外药化任务表明,引入解释性反馈可进一步提升效率,凸显融合领域知识与结构化信息对样本高效优化的重要性。
LLM Agent
Molecular Optimization
利用优化轨迹作为上下文记忆,但未深入探讨记忆机制本身。
分享
夯
0
拉
0
Position: Agentic Evolution is the Path to Evolving LLMs
Minhua Lin, Hanqing Lu, Zhan Shi, Bing He, Rui Mao et al.
随着大语言模型(LLMs)从静态训练集走向开放的真实世界环境,一个根本性局限显现:静态训练无法跟上部署环境的持续变化。尽管增加训练和推理阶段的算力可提升静态能力,却无法弥合训练与部署之间的差距。本文主张,解决此问题需引入新的扩展维度——演化。现有部署期适应方法(如参数微调或启发式记忆积累)缺乏诊断失败并实现持久改进所需的战略性智能体能力。作者提出“智能体演化”是LLM适应的必然未来,将演化本身从固定流程提升为自主的演化智能体,并构建通用框架A-Evolve,将部署期改进视为对持久系统状态的有目标优化过程。进一步提出演化扩展假设:适应能力随分配给演化的算力而扩展,使智能体演化成为实现现实世界中持续、开放式适应的可扩展路径。
智能体演化
持续适应
提及启发式记忆积累作为现有方法,但非核心研究重点。
分享
夯
0
拉
0
From Similarity to Vulnerability: Key Collision Attack on LLM Semantic Caching
Zhixiang Zhang, Zesen Liu, Yuchong Xie, Quanfeng Huang, Dongdong She
语义缓存已成为扩展大语言模型(LLM)应用的关键技术,被AWS和微软等主流服务商广泛采用。该机制利用语义嵌入向量作为缓存键,有效降低语义相似查询的延迟与冗余计算。本文将语义缓存键视为一种模糊哈希,指出为提升缓存命中率所需的局部性与密码学雪崩效应对抗碰撞的要求存在根本冲突。我们首次系统研究缓存碰撞引发的完整性风险,提出名为CacheAttack的黑盒自动化攻击框架,在安全关键任务与智能体工作流中实现86%的响应劫持命中率,并能诱导LLM智能体产生恶意行为,且在不同嵌入模型间具有良好迁移性。金融智能体案例进一步揭示了该漏洞的现实危害,并讨论了缓解策略。
语义缓存
安全漏洞
探讨语义缓存作为LLM Agent记忆机制的安全性问题,涉及记忆存储与检索的核心环节。
分享
夯
0
拉
0
TriCEGAR: A Trace-Driven Abstraction Mechanism for Agentic AI
Roham Koohestani, Ateş Görpelioğlu, Egor Klimov, Burcu Kulahcioglu Ozkan, Maliheh Izadi
Roham Koohestani (JetBrains ResearchAmsterdamNetherlands) | Ateş Görpelioğlu (Delft University of TechnologyDelftNetherlands) | Egor Klimov (JetBrains ResearchAmsterdamNetherlands)
智能体AI系统通过工具进行交互,并在长期、随机的交互轨迹中演化其行为,这使得其行为保障变得复杂,因其依赖于非确定性环境和概率性模型输出。先前工作通过动态概率保障(DPA)引入了运行时验证方法,在线学习马尔可夫决策过程(MDP)并进行量化属性的模型检测。然而,该方法要求开发者手动定义状态抽象,导致验证过程与特定应用启发式紧密耦合,增加采用难度。本文提出TriCEGAR,一种从执行日志自动构建状态抽象的轨迹驱动机制,支持在线构建智能体行为MDP。TriCEGAR将抽象表示为从轨迹中学习并利用反例精化的谓词树。我们描述了一个原生框架实现,可捕获类型化的智能体生命周期事件、从轨迹构建抽象、构造MDP,并执行概率模型检测以计算如最大成功概率Pmax(success)和最小失败概率Pmin(failure)等边界。此外,运行似然性还可作为护栏信号用于异常检测。
智能体验证
状态抽象
涉及从执行轨迹构建状态抽象,隐含记忆机制但非核心主题。
分享
夯
0
拉
0
Test-Time Mixture of World Models for Embodied Agents in Dynamic Environments
Jinwoo Jang, Minjong Yoo, Sihyung Yoon, Honguk Woo
基于语言模型的具身智能体在现实场景中日益普及,但在动态环境中适应能力有限,而构建准确且灵活的世界模型对有效推理与决策至关重要。为此,本文将混合专家(MoE)范式扩展至具身智能体,提出测试时世界模型混合框架(TMoW)。该框架在测试阶段动态更新世界模型的路由函数,通过多粒度原型路由、测试时特征对齐及基于蒸馏的混合增强,实现对未知和演化环境的持续适应。实验在VirtualHome、ALFWorld和RLBench基准上验证了其在零样本适应与少样本扩展场景中的优越性能。
世界模型
具身智能体
涉及世界模型的动态组合与更新,隐含记忆机制但未显式研究记忆架构。
分享
夯
0
拉
0
ScholarPeer: A Context-Aware Multi-Agent Framework for Automated Peer Review
Palash Goyal, Mihir Parmar, Yiwen Song, Hamid Palangi, Tomas Pfister et al.
Palash Goyal (Google) | Mihir Parmar (Google) | Yiwen Song (Google)
自动同行评审已从简单的文本分类发展为结构化反馈生成。然而,当前最先进的系统仍局限于“表面级”批评:虽擅长内容总结,却常因缺乏人类专家所具备的外部上下文,而难以准确评估论文的新颖性与重要性,或识别深层方法论缺陷。本文提出ScholarPeer——一种支持检索的多智能体框架,旨在模拟资深研究者的认知过程。该框架通过历史学家智能体动态构建领域叙事,借助基线侦察智能体识别缺失的对比,并利用多维度问答引擎验证主张,将评审意见锚定于实时的大规模文献中。在DeepReview-13K上的评估表明,ScholarPeer在成对比较中显著优于现有方法,并缩小了与人类评审在多样性方面的差距。
多智能体系统
上下文记忆
论文涉及动态构建领域叙事和上下文获取,隐含记忆机制但非核心焦点。
分享
夯
0
拉
0
Keep Rehearsing and Refining: Lifelong Learning Vehicle Routing under Continually Drifting Tasks
Jiyuan Pei, Yi Mei, Jialin Liu, Mengjie Zhang, Xin Yao
现有神经求解器通常在固定任务集上一次性训练,或在顺序到达的若干任务上进行终身学习,且假设每个任务均有充足训练资源。然而现实场景中,问题模式常随时间持续漂移,导致大量任务依次出现,而每个任务仅能获得有限训练资源。本文研究一种新型终身学习范式,针对学习过程中持续漂移的任务,且任意时刻均无法对任一任务充分训练的情形。为此,提出“经验增强的双重回放”(DREE)框架,以提升学习效率并缓解灾难性遗忘。大量实验表明,在持续漂移设定下,DREE能有效学习新任务、保留先验知识、提升对未见任务的泛化能力,并可适配多种现有神经求解器。
终身学习
灾难性遗忘
提出双回放机制缓解灾难性遗忘,涉及记忆保留但非核心记忆架构研究。
分享
夯
0
拉
0
Towards Agentic Intelligence for Materials Science
Huan Zhang, Yizhan Li, Wenhao Huang, Ziyu Hou, Yu Song et al.
人工智能与材料科学的融合带来变革性机遇,但要真正加速发现,需超越孤立任务的微调模型,转向能在整个发现闭环中规划、行动与学习的智能体系统。本文提出一种以流程为中心的独特视角,涵盖语料构建、预训练、领域适配、指令微调,直至与仿真和实验平台交互的目标条件智能体。不同于以往综述,本文将全过程视为端到端系统,以实际发现成果而非代理基准为目标进行优化,并探讨上游设计(如数据构建与训练目标)如何通过有效信用分配与下游实验成功对齐。文章整合AI与材料科学的术语、评估与工作流,并从双重视角分析:AI侧强调大语言模型在模式识别、预测分析与文献挖掘中的优势;材料科学侧聚焦材料设计、工艺优化及与外部工具(如DFT、机器人实验室)集成以加速计算流程。最后,对比被动响应式方法与具备自主性、记忆与工具使用能力的智能体设计,勾勒出通往安全、自主LLM智能体的实用路线图。
LLM智能体
材料发现
提及记忆作为智能体实现长期目标的关键组件之一,但非核心研究重点。
分享
夯
0
拉
0
Joint Continual Learning of Local Language Models and Cloud Offloading Decisions with Budget Constraints
Evan Chen, Wenzhi Fang, Shiqiang Wang, Christopher Brinton
本地部署的小型语言模型(SLMs)需在严格的内存与计算约束下持续支持多样化任务,因此不可避免地需选择性依赖云端大语言模型(LLMs)。在持续学习过程中调控云协助具有挑战性,因为基于奖励的强化学习常导致不稳定的卸载行为,并在任务分布变化时加剧灾难性遗忘。本文提出DA-GRPO方法,作为Group Relative Policy Optimization的双优势扩展,将云使用约束直接融入优势函数计算,避免固定奖励塑形和外部路由模型。该设计使本地模型能联合学习任务能力与协作行为,使云请求在训练后自然出现,同时满足预设的协助预算。在数学推理与代码生成基准上的实验表明,DA-GRPO相比现有协同与路由方法显著提升任务切换后的准确率、大幅减少遗忘,并保持稳定的云使用量。
持续学习
云边协同
涉及本地模型在内存限制下的持续学习,与Agent Memory间接相关。
分享
夯
0
拉
0
SWE-Replay: Efficient Test-Time Scaling for Software Engineering Agents
Yifeng Ding, Lingming Zhang
测试时扩展已被广泛用于提升大语言模型(LLM)智能体在软件工程任务中的能力,但传统方法通过从头反复采样轨迹导致计算开销巨大。现有方法虽尝试引入专用价值评估模型以降低成本,却易受模型校准偏差影响,且难以泛化至能合成自定义bash脚本工具的现代智能体。本文提出SWE-Replay,首个无需依赖潜在噪声价值估计、高效且可泛化的测试时扩展技术。该方法通过复用先前试验中的轨迹,在关键中间步骤动态选择从头探索或利用存档经验进行分支,其分支决策基于代码仓库探索的潜力与推理重要性,而非外部LLM的质量评估。实验表明,在SWE-Bench Verified上,SWE-Replay在降低最多17.4%成本的同时,性能提升最高达3.8%;在SWE-Bench Pro和Multilingual上的进一步验证证实了其良好泛化能力。
Agent Memory
Test-Time Scaling
利用轨迹重放机制复用历史经验,涉及记忆存储与检索,但非核心记忆架构研究。
分享
夯
0
拉
0
The Patient is not a Moving Document: A World Model Training Paradigm for Longitudinal EHR
Irsyad Adam, Zekai Chen, David Laprade, Shaun Porwal, David Laub et al.
基于下一词预测训练的大语言模型(LLMs)在临床基础模型中取得成功,其表征在多种生物医学任务中表现优异。然而,该范式将患者视为待总结的文档,而非需模拟的动态系统。为此,作者提出SMB-Structure——一种结合联合嵌入预测架构(JEPA)与监督微调(SFT)的世界模型。SFT使模型能在token空间重建未来患者状态,而JEPA仅从初始表征在潜在空间预测未来状态,迫使模型在观测下一状态前编码轨迹动态。在两个大规模队列(MSK和INSPECT)上的实验表明,该方法学习到的嵌入能捕捉自回归基线无法恢复的疾病动态,在高异质性患者任务中表现优异。
世界模型
电子健康记录
涉及状态表征与轨迹建模,隐含记忆机制但未显式研究Agent Memory。
分享
Code
夯
0
拉
0
Retrieval-Infused Reasoning Sandbox: A Benchmark for Decoupling Retrieval and Reasoning Capabilities
Shuangshuang Ying, Zheyu Wang, Yunjian Peng, Jin Chen, Yuhao Wu et al.
尽管大语言模型在现有基准上表现优异,其能否对真正新颖的科学信息进行推理仍不明确。当前评估多针对端到端RAG流程,混淆了推理、检索及工具链选择,并受参数化记忆和网络内容波动干扰。本文提出DeR2——一个受控的深度研究沙盒,通过四个证据访问机制(仅指令、概念、相关文档、完整文档集)隔离基于文档的推理,同时保留深度搜索的核心挑战:多步综合、去噪与基于证据的结论生成。DeR2可量化检索损失与推理损失,并支持细粒度错误归因。为防止参数泄露,采用两阶段验证机制;为确保可复现性,每个实例提供冻结的2023–2025年理论论文库及专家标注的概念与推理依据。实验表明,前沿模型在该基准上表现差异显著,存在模式切换脆弱性或结构性概念误用等问题。
检索增强生成
推理评估
聚焦检索与推理解耦,涉及记忆机制但非核心研究记忆架构。
分享
夯
0
拉
0
FIT: Defying Catastrophic Forgetting in Continual LLM Unlearning
Xiaoyu Xu, Minxin Du, Kun Fang, Zi Liang, Yaxin Xiao et al.
大语言模型(LLMs)虽在多种任务中表现卓越,却引发隐私、版权及有害内容等担忧。现有遗忘方法很少考虑现实场景中持续且高频的删除请求,易导致效用下降与灾难性遗忘。为此,本文提出FIT框架,通过严格的数据过滤(Filtering)、重要性感知更新(Importance-aware updates)和目标层归因(Targeted layer attribution),在大量连续删除请求下有效平衡遗忘效果与效用保留,并抵御遗忘后恢复攻击。作者还构建了PCH基准,涵盖个人信息、版权与有害内容的序列删除场景,并引入对称指标“遗忘度”(F.D.)与“保留效用”(R.U.)进行综合评估。实验表明,FIT在四个开源LLM上均取得最优权衡,并在MMLU、CommonsenseQA和GSM8K等任务中超越现有方法。
持续学习
模型遗忘
涉及持续学习中的遗忘与记忆保留机制,属记忆相关但非核心Agent Memory架构研究。
分享
夯
0
拉
0
Meta Context Engineering via Agentic Skill Evolution
Haoran Ye, Xuning He, Vincent Arak, Haonan Dong, Guojie Song
大语言模型的运行效能高度依赖其推理时的上下文,这促使上下文工程(CE)成为优化输入的正式学科。现有CE方法依赖人工设计的固定流程和预定义模式,存在结构偏见且限制了优化空间。本文提出元上下文工程(MCE),一种双层框架,通过协同演化CE技能与上下文工件,取代静态启发式方法。在MCE迭代中,元层智能体通过智能体交叉操作,在技能历史、执行记录与评估结果中进行深思熟虑的搜索以优化工程技能;基底层智能体则执行这些技能,从训练轨迹中学习,并将上下文优化为灵活的文件与代码。在五个不同领域及离线/在线设置下的实验表明,MCE相较当前最先进的智能体CE方法平均提升16.9%(相对提升5.6%–53.8%),同时在上下文适应性、迁移性及使用与训练效率方面表现更优。
上下文工程
智能体技能演化
论文聚焦上下文工程优化,涉及Agent在推理时对上下文(可视为短期记忆)的动态管理与演化,但未直接研究记忆机制本身。
分享
夯
0
拉
0
BEAP-Agent: Backtrackable Execution and Adaptive Planning for GUI Agents
Ziyu Lu, Tengjin Weng, Yiying Yang, Yuhang Zhao, Xinxin Huang et al.
图形用户界面(GUI)智能体旨在自动化重复性任务以提升效率,但现有方法在探索路径出错后难以恢复,常导致任务失败。本文将GUI任务执行建模为深度优先搜索(DFS)过程,提出BEAP-Agent框架,支持长距离、多层次的状态回溯,并结合动态任务跟踪与更新机制。该框架由规划器(Planner)、执行器(Executor)和追踪器(Tracker)三个协同组件构成,有效提升任务探索与执行能力。BEAP-Agent填补了GUI智能体系统化回溯机制的空白,为长视野任务探索提供系统性解决方案。在OSWorld基准上的系统评估显示,该方法达到28.2%的准确率,验证了其有效性。
GUI智能体
状态回溯
任务规划
长视野执行
提出多层级状态回溯机制,隐含短期记忆与状态追踪,但未显式研究记忆架构。
分享
夯
0
拉
0
Planner-Auditor Twin: Agentic Discharge Planning with FHIR-Based LLM Planning, Guideline Recall, Optional Caching and Self-Improvement
Kaiyuan Wu, Aditya Nagori, Rishikesan Kamaleswaran
本文提出一种可自改进、支持可选缓存的规划者-审核者(Planner-Auditor)框架,用于提升临床出院规划的安全性与可靠性。规划者(LLM)生成结构化出院计划并附带置信度估计;审核者为确定性模块,评估任务覆盖度、校准性(Brier分数、ECE代理指标)及动作分布漂移。框架支持两种自改进机制:单次会话内重生成与跨会话高置信低覆盖案例的差异缓冲回放。实验表明,自改进循环显著提升任务覆盖率(32%→86%)并改善置信校准,差异缓冲有效修正持续性高置信遗漏。
Agent Memory
Clinical Decision Support
论文涉及可选缓存(optional caching)和回放机制,属于记忆相关应用,但非核心研究。
分享
夯
0
拉
0
ChunkWise LoRA: Adaptive Sequence Partitioning for Memory-Efficient Low-Rank Adaptation and Accelerated LLM Inference
Ketan Thakkar, Maitreyi Chatterjee, Ramasubramanian Balasubramanian, Achyuthan Jootoo, Rajendra Ugrani
近期低秩适配(LoRA)技术实现了大语言模型(LLM)的高效微调,但现有方法对所有输入token采用静态秩配置,忽视了token复杂度与计算需求的差异。本文提出ChunkWise LoRA,一种动态自适应方法,根据token复杂度将序列划分为可变长度块,并为每块分配定制化的低秩配置。系统引入运行时调度器,通过难度估计、自适应分块及基于秩阶梯机制的配置选择实现优化。为保障输出一致性,设计了边界安全组合模块并集成策略驱动的KV缓存策略。在Wikitext-103和SQuAD等基准上的实验表明,该方法相较基线LoRA最多降低34%延迟、减少38%内存占用,同时维持或提升BLEU、EM和困惑度等指标。该框架完全兼容现有Transformer架构与推理系统,适用于实际部署。
低秩适配
内存优化
聚焦LLM推理中的内存效率优化,涉及KV缓存策略,但非Agent Memory核心机制。
分享
夯
0
拉
0
Meta-Cognitive Reinforcement Learning with Self-Doubt and Recovery
Zhipeng Zhang, Wenting Ma, Kai Li, Meng Guo, Lei Yang et al.
现有鲁棒强化学习方法通常聚焦于抑制不可靠经验或被污染的奖励,却缺乏对自身学习过程可靠性的推理能力,易因噪声过度保守或在不确定性累积时发生灾难性失败。本文提出一种元认知强化学习框架,使智能体能基于内部估计的可靠性信号评估、调节并恢复其学习行为。该方法引入由价值预测误差稳定性(VPES)驱动的元信任变量,通过故障安全调控与渐进式信任恢复机制调制学习动态。在存在奖励污染的连续控制基准实验中,该方法相比强鲁棒性基线取得了更高的平均回报,并显著减少了训练后期的失败率。
元认知
强化学习
涉及内部可靠性信号与学习行为调节,隐含记忆机制但未显式研究记忆。
分享
夯
0
拉
0
Evolutionary Strategies lead to Catastrophic Forgetting in LLMs
Immanuel Abdi, Akshat Gupta, Micah Mok, Alexander Lu, Nicholas Lee et al.
当前人工智能系统缺乏部署后持续学习的能力,而实现此类系统面临诸多挑战,其中之一是主流基于梯度的大语言模型训练算法对内存的高需求。进化策略(ES)作为一种无梯度替代方法近期重新受到关注,并在特定任务中展现出良好性能。本文对ES进行了全面分析,重点评估其在不断增加更新步数下的遗忘曲线。研究发现,在相近计算预算下,ES在数学与推理任务上可接近GRPO的性能,但其性能提升伴随着对先前能力的显著遗忘,限制了其在线训练适用性。进一步分析表明,ES更新相比GRPO更新稀疏性更低且ℓ²范数高出数个数量级,解释了二者遗忘行为的差异。
灾难性遗忘
持续学习
研究持续学习中的遗忘问题,涉及记忆保持机制。
分享
夯
0
拉
0
Temp-R1: A Unified Autonomous Agent for Complex Temporal KGQA via Reverse Curriculum Reinforcement Learning
Zhaoyan Gong, Zhiqiang Liu, Songze Li, Xiaoke Guo, Yuanxiang Liu et al.
时间知识图问答(TKGQA)本质上具有挑战性,因为它需要在动态事实和复杂的时序约束下进行多跳推理。现有方法依赖于固定的流程和昂贵的闭源API,限制了灵活性和可扩展性。我们提出了Temp-R1,这是首个通过强化学习训练的面向TKGQA的端到端自主代理。为了解决单步推理中的认知过载问题,我们扩展了动作空间,加入了专门的内部动作与外部动作。为了防止在简单问题上出现捷径学习,我们引入了反向课程学习,优先训练困难问题,迫使复杂推理能力的发展后再转移到简单情况。我们的8B参数Temp-R1在MultiTQ和TimelineKGQA数据集上取得了最先进的性能,在复杂问题上比强基线提升了19.8%。我们的工作为自主时间推理代理建立了一种新的范式。代码即将公开发布在https://github.com/zjukg/Temp-R1。
强化学习
时间知识图问答
自主代理
反向课程学习
论文涉及Agent的自主推理与记忆机制,但未明确聚焦于Memory系统本身。
分享
Code
夯
0
拉
0
PaperSearchQA: Learning to Search and Reason over Scientific Papers with RLVR
James Burgess, Jan N. Hansen, Duo Peng, Yuhui Zhang, Alejandro Lozano et al.
搜索代理是能够通过推理和搜索知识库(或网络)来回答问题的语言模型;近期的方法仅使用可验证奖励的强化学习(RLVR)监督最终答案的准确性。大多数RLVR搜索代理处理的是通用领域的问答任务,这限制了它们在科学、工程和医学等技术AI系统中的相关性。本文提出训练代理在科学论文中进行搜索和推理,这测试了技术性问答能力,并且对真实科学家具有直接相关性,这些能力对未来AI科学家系统的构建至关重要。具体而言,我们发布了一个包含1600万篇生物医学论文摘要的搜索语料库,并构建了一个名为PaperSearchQA的具有挑战性的事实性问答数据集,包含6万个可以从语料库中找到答案的样本以及基准测试。我们在该环境中训练搜索代理以超越非RL检索基线;我们还进行了进一步的定量分析,观察到一些有趣的代理行为,如规划、推理和自我验证。我们的语料库、数据集和基准测试可以与流行的Search-R1代码库结合用于RLVR训练,并发布在https://huggingface.co/collections/jmhb/papersearchqa上。最后,我们的数据创建方法具有可扩展性,并且可以轻松扩展到其他科学领域。
Agent
Memory
Reinforcement Learning
Scientific QA
Search
论文涉及基于记忆的搜索与推理,但未直接研究Agent Memory机制。
分享
Code
夯
0
拉
0
DeepPlanning: Benchmarking Long-Horizon Agentic Planning with Verifiable Constraints
Yinger Zhang, Shutong Jiang, Renhao Li, Jianhong Tu, Yang Su et al.
尽管智能体评估已转向长期任务,但大多数基准仍强调局部步骤推理,而非需要真正规划能力的全局约束优化(如时间和财务预算)。同时,现有LLM规划基准未能充分代表现实场景中常见的主动信息收集和细粒度局部约束。为解决这一问题,我们引入了DeepPlanning,一个具有挑战性的实际长期智能体规划基准。它包含多日旅行规划和多产品购物任务,要求主动信息获取、局部约束推理和全局约束优化。在DeepPlanning上的评估表明,即使是最先进的智能体LLM也难以应对这些问题,突显了可靠显式推理模式和并行工具使用对于实现更好的效果-效率权衡的重要性。错误分析进一步指出了改进长期规划中智能体LLM的有希望方向。我们开源代码和数据以支持未来研究。
长期规划
智能体基准
约束优化
LLM评估
论文涉及长期规划与约束优化,隐含对记忆机制的需求,但未直接研究记忆系统。
分享
夯
0
拉
0
RouteMoA: Dynamic Routing without Pre-Inference Boosts Efficient Mixture-of-Agents
Jize Wang, Han Wu, Zhiyuan You, Yiming Song, Yijun Wang et al.
混合代理(MoA)通过分层协作提升大语言模型性能,但其密集拓扑结构导致成本和延迟增加。现有方法依赖LLM判断器筛选响应,但仍需所有模型完成推理后再进行判断,无法有效降低成本。此外,这些方法缺乏模型选择标准,在大规模模型池中面临高成本和上下文限制问题。为此,本文提出RouteMoA,一种高效的混合代理框架,采用动态路由机制。该框架使用轻量级评分器通过查询预测粗粒度性能,筛选出高潜力候选模型,无需推理。随后,通过基于已有模型输出的轻量级自评和互评对评分进行修正,无需额外推理。最后,通过平衡性能、成本和延迟的模型排名机制选择模型。实验表明,RouteMoA在不同任务和模型池规模下均优于传统MoA,大幅降低了成本和延迟。
混合代理
动态路由
模型选择
推理效率
论文涉及模型选择与推理效率,间接关联Agent Memory机制,但非核心主题。
分享
夯
0
拉
0
Reuse your FLOPs: Scaling RL on Hard Problems by Conditioning on Very Off-Policy Prefixes
Amrith Setlur, Zijian Wang, Andrew Cohen, Paria Rashidinejad, Sang Michael Xie
Amrith Rajagopal Setlur (Carnegie Mellon University)
典型的强化学习(RL)方法在处理困难问题时会浪费大量计算资源,因为正确的策略轨迹稀少,策略梯度消失,学习停滞。为实现更高效的RL,本文提出通过重用旧的采样FLOPs(来自之前的推理或RL训练)以离策略轨迹的形式进行引导。标准的离策略方法在监督离策略数据时会导致优化过程中的不稳定性。为此,我们引入了PrefixRL方法,该方法基于成功的离策略轨迹的前缀进行条件化,并运行策略RL来完成这些轨迹,从而绕过离策略的不稳定性。PrefixRL通过调整离策略前缀长度来调节问题难度,从而增强困难问题的学习信号。我们证明PrefixRL的目标不仅与标准RL目标一致,而且样本效率更高。实验中,我们发现反向泛化现象:仅在带有前缀的问题上训练可以推广到分布外的无前缀任务,且学到的策略通常不同于前缀中的策略。在实验中,我们通过拒绝采样从基础模型生成离策略轨迹,形成自我改进循环。在困难推理任务中,PrefixRL比最强基线(在离策略数据上进行SFT后再进行RL)更快达到相同的训练奖励(2倍速度),即使考虑初始拒绝采样的计算成本,最终奖励也提高了3倍。这些提升可转移到保留的基准测试中,且当离策略轨迹来源于不同模型家族时,PrefixRL依然有效,验证了其在实际场景中的灵活性。
强化学习
离策略学习
记忆机制
策略优化
论文涉及使用历史数据(off-policy traces)作为前缀引导RL训练,与Agent Memory相关但非核心主题。
分享
夯
0
拉
0
Teaching Models to Teach Themselves: Reasoning at the Edge of Learnability
Shobhita Sundaram, John Quan, Ariel Kwiatkowski, Kartik Ahuja, Yann Ollivier et al.
模型能否突破自身的学习瓶颈?强化学习方法在微调大型推理模型时,在初始成功率低的数据集上容易停滞。本文研究了一个基本问题:预训练的大语言模型是否能利用潜在知识为无法解决的问题生成自动课程?为此,我们设计了SOAR框架,通过元强化学习揭示这些教学信号。教师模型为学生模型提出合成问题,并根据其在少量难题上的改进获得奖励。关键在于,SOAR基于学生的实际进步而非内在代理奖励来构建课程。我们在数学基准中最难的子集(0/128成功)上进行了研究,发现三个核心结论:首先,通过增强预训练模型生成有用中间步骤的潜在能力,可以实现双层元强化学习;其次,基于实际进步的奖励优于以往LLM自博弈中使用的内在奖励方案;第三,分析生成的问题表明,结构质量和命题合理性比解题正确性对学习进展更为关键。结果表明,生成有用的中间步骤并不需要预先具备解决难题的能力,为摆脱推理瓶颈提供了一条无需额外人工数据的原则路径。
强化学习
元学习
自监督学习
课程生成
论文探讨了模型自我学习与生成教学内容的能力,涉及记忆机制的隐含知识利用。
分享
夯
0
拉
0
Advances and Innovations in the Multi-Agent Robotic System (MARS) Challenge
Li Kang, Heng Zhou, Xiufeng Song, Rui Li, Bruno N. Y. Chen et al.
近年来,多模态大语言模型和视觉-语言-动作模型的发展显著推动了具身人工智能的进步。随着领域向更复杂的任务场景过渡,多智能体系统框架成为实现可扩展、高效和协作解决方案的关键。这一转变主要由三个因素驱动:智能体能力的提升、通过任务委托提高系统效率以及增强人与智能体之间的交互。为应对多智能体协作带来的挑战,我们提出了多智能体机器人系统(MARS)挑战赛,该挑战赛于NeurIPS 2025的SpaVLE研讨会中举办。比赛聚焦于两个关键领域:规划与控制,参赛者探索使用视觉-语言模型(VLMs)进行多智能体具身规划以协调任务,并通过策略执行在动态环境中完成机器人操作。通过评估参赛者的解决方案,该挑战赛为具身多智能体系统的设计与协调提供了有价值的见解,有助于未来先进协作人工智能系统的发展。
多智能体系统
具身AI
视觉-语言模型
协作机器人
论文涉及多智能体协作与视觉语言模型,间接关联记忆机制,但非核心主题。
分享
夯
0
拉
0
Exploring Fine-Tuning for In-Context Retrieval and Efficient KV-Caching in Long-Context Language Models
Francesco Maria Molfese, Momchil Hardalov, Rexhina Blloshmi, Bill Byrne, Adrià de Gispert
随着上下文窗口达到数百万个token,长上下文语言模型(LCLMs)能够编码整个文档集合,成为传统检索增强生成(RAG)方法的有力替代方案。然而,尚不清楚微调策略是否能提升长上下文性能,并在键值缓存(KV-cache)压缩技术下表现出更强的鲁棒性。本文研究了哪些训练策略最有效地增强LCLMs识别和使用相关信息的能力,并提高其在KV-cache压缩下的鲁棒性。实验表明,在领域内任务中取得了显著改进,最高可达基础模型的+20分。然而,跨领域泛化能力仍依赖于具体任务,存在较大方差——LCLMs在金融问题上表现优异(+9分),而RAG在多项选择题上优于基线模型(+6分)。最后,我们的微调方法在KV-cache压缩下的鲁棒性方面带来了适度的提升,不同任务中的增益有所差异。
长上下文模型
KV-cache压缩
微调
检索增强生成
鲁棒性
论文涉及KV-cache压缩与长上下文模型的微调,与Agent Memory相关但非核心主题。
分享
夯
0
拉
0
DEEPMED: Building a Medical DeepResearch Agent via Multi-hop Med-Search Data and Turn-Controlled Agentic Training & Inference
Zihan wang, Hao Wang, Shi Feng, Xiaocui Yang, Daling Wang et al.
医学推理模型受限于参数化知识,容易出现遗忘和幻觉。DeepResearch(DR)模型基于可验证证据进行输出,在通用领域表现良好,但在医学领域的直接迁移效果有限。我们将其归因于任务特性和工具使用扩展两个方面的不足。医学问题需要在知识密集型临床背景下解释证据;而通用DR模型虽然能够检索信息,但往往缺乏临床背景推理能力,导致“找到但无法利用”信息,从而限制了性能。此外,在医学场景中盲目扩展工具调用可能引入噪声上下文,干扰敏感的医学推理,并促使沿着错误路径重复寻找证据。因此,我们提出了DeepMed。在数据方面,我们采用多跳医学搜索问答合成方法,使模型能够在医学背景下应用DR范式。在训练方面,我们引入难度感知的回合惩罚机制,以抑制过度的工具调用增长。在推理阶段,我们引入监控机制,帮助在受控步骤内验证假设并避免上下文退化。总体而言,在七个医学基准测试中,DeepMed平均比其基础模型提升了9.79%,并且优于更大的医学推理和DR模型。
医学推理
智能体训练
上下文管理
工具调用优化
DR模型
论文涉及Agent推理中的记忆相关问题,如防止遗忘和上下文污染,但核心是医疗领域推理模型的改进。
分享
夯
0
拉
0
daVinci-Dev: Agent-native Mid-training for Software Engineering
Ji Zeng, Dayuan Fu, Tiantian Mi, Yumin Zhuang, Yaxing Huang et al.
近年来,大型语言模型(LLM)的能力前沿已从单轮代码生成转向代理式软件工程——一种模型自主导航、编辑和测试复杂代码库的范式。尽管后训练方法已成为代码代理的标准方法,但代理式中间训练(MT)仍因资源需求大而被严重忽视。为解决静态训练数据与真实开发环境中动态、反馈丰富的环境之间的分布不匹配问题,本文提出了一种系统性的代理式中间训练研究,确立了大规模有效代理开发的数据合成原则和训练方法。本文的核心方法是基于代理原生数据的监督,包括两种互补轨迹:保留代理完整信息流的上下文原生轨迹,以及从可执行代码库中收集的环境原生轨迹,提供深度和交互真实性。我们在`SWE-Bench Verified`上验证了模型的代理能力,并在使用少于一半中间训练标记(73.1B)的情况下,展示了优于之前开源软件工程中间训练方案`Kimi-Dev`的性能。
Agent训练
中间训练
软件工程
数据合成
论文涉及Agent在软件工程中的训练方法,提及动态环境与静态数据的分布不匹配问题,与Memory相关。
分享
夯
0
拉
0
DF-RAG: Query-Aware Diversity for Retrieval-Augmented Generation
Saadat Hasan Khan, Spencer Hong, Jingyu Wu, Kevin Lybarger, Youbing Yin et al.
Saadat Hasan Khan (WikiMQA) | Capital One
Spencer Hong (WikiMQA) | Jingyu Wu (WikiMQA)
检索增强生成(RAG)是一种将语言模型输出与领域特定信息结合的常用技术。然而,在需要推理的问答任务中,RAG常因常见检索方法(如余弦相似度)过度追求相关性而引入冗余内容,从而降低信息召回率。为解决这一问题,本文提出了一种以多样性为导向的检索增强生成方法(DF-RAG),在检索阶段系统性地引入多样性以提升复杂推理型问答基准的表现。DF-RAG基于最大边际相关性框架,选择既与查询相关又彼此差异最大的信息片段。其关键创新在于能够在测试时动态优化每个查询的多样性水平,无需额外微调或先验信息。实验表明,DF-RAG在推理密集型问答基准上相比传统RAG提升了4-10个百分点的F1分数,并优于其他已有基线。此外,研究还估计了DF-RAG相对于传统RAG的理论上限可达18%的F1增益,其中DF-RAG实现了高达91.3%的增益。
检索增强生成
信息多样性
问答系统
语言模型
论文涉及检索增强生成中的信息多样性,与Agent Memory中信息检索和内容管理相关,但非核心主题。
分享
夯
0
拉
0
Mixture-of-Models: Unifying Heterogeneous Agents via N-Way Self-Evaluating Deliberation
Tims Pecerskis, Aivars Smirnovs
本文提出了一种名为N向自评估推理(NSED)的协议,这是一种运行时混合模型(MoM)架构,能够从多个不同的专家智能体中构建出涌现的复合模型。不同于传统的专家混合(MoE)依赖静态门控网络,NSED采用了一个动态专业代理器——一种运行时优化引擎,将模型选择视为背包问题的变体,并根据实时遥测数据和成本约束将异构检查点绑定到功能角色。在执行层面上,我们形式化推理为一个宏观尺度的循环神经网络(RNN),其中共识状态通过语义遗忘门回传,从而实现迭代优化而无需按比例扩展VRAM。关键组件包括用于无信任N对N同行评审的编排框架、用于非线性共识的二次投票激活函数以及反馈驱动的状态更新。在具有挑战性的基准测试(AIME 2025、LiveCodeBench)上的实验证明,这种拓扑结构允许小型消费级模型(小于20B参数)的集合匹配或超越最先进的100B+参数模型,确立了新的硬件套利效率前沿。此外,在DarkBench安全套件上的测试还揭示了内在对齐特性,同行调解校正使奉承分数低于任何单个智能体。
混合模型
动态优化
智能体协作
RNN结构
模型选择
论文涉及多模型协作与动态决策机制,与Agent Memory有一定关联但非核心主题。
分享
夯
0
拉
0
Timely Machine: Awareness of Time Makes Test-Time Scaling Agentic
Yichuan Ma, Linyang Li, Yongkang chen, Peiji Li, Xiaozhe Li et al.
Yichuan Ma (Fudan University) | Linyang Li (Shanghai AI Laboratory) | Yongkang chen (Shanghai AI Laboratory)
随着大语言模型(LLMs)越来越多地处理复杂推理任务,测试时扩展对于增强能力变得至关重要。然而,在频繁调用工具的智能体场景中,传统的基于生成长度的定义失效:工具延迟使推理时间与生成长度脱钩。我们提出Timely Machine,重新定义测试时为墙钟时间,模型根据时间预算动态调整策略。我们引入了Timely-Eval基准,涵盖高频工具调用、低频工具调用和时间受限推理。通过改变工具延迟,我们发现较小模型在快速反馈下通过更多交互表现优异,而较大模型则在高延迟环境下凭借更高质量的交互占据优势。此外,现有模型无法适应时间预算下的推理。我们提出Timely-RL以弥补这一差距。经过冷启动监督微调后,我们使用强化学习提升时间规划能力。Timely-RL提高了对时间预算的感知,并在Timely-Eval中持续提升性能。我们希望本研究为智能体时代测试时扩展提供新的视角。
智能体
时间感知
测试时扩展
强化学习
论文涉及Agent在时间预算下的策略调整,与记忆机制相关但非核心。
分享
夯
0
拉
0
Clarify or Answer: Reinforcement Learning for Agentic VQA with Context Under-specification
Zongwan Cao, Bingbing Wen, Lucy Lu Wang
现实中的视觉问答(VQA)通常依赖于上下文:图像-问题对可能欠规范,使得正确答案依赖于图像中不可见的外部信息。在这种情况下,直接回答可能导致自信但错误的预测。本文提出CoA(Clarify-or-Answer),一种可选择提问或回答的代理模型,分别建模是否需要提问以及需要提问什么。CoA首先判断是否需要澄清;如果需要,则生成一个聚焦的问题,并结合响应生成最终答案。我们引入了CONTEXTCLARIFY数据集,包含一组模糊的VQA问题和一组非模糊的对比问题。此外,我们提出了GRPO-CR(澄清推理),一种基于强化学习的方法,通过多个奖励信号优化澄清问题的生成,以生成结构良好、聚焦且能解决歧义的非平凡问题。在三个VLLMs和三个数据集上,CoA在模块级和系统级均取得了一致的改进,端到端VQA准确率平均提升了+15.3个百分点(83%)。
视觉问答
代理系统
强化学习
上下文理解
澄清机制
论文涉及Agent在VQA任务中通过澄清问题获取外部信息,与记忆机制相关但非核心。
分享
夯
0
拉
0
GameTalk: Training LLMs for Strategic Conversation
Victor Conchello Vendrell, Max Ruiz Luyten, Mihaela van der Schaar
在多智能体环境中,战略决策是大型语言模型(LLMs)面临的关键挑战,尤其是在需要通过长时间对话进行协调和谈判的情况下。尽管近期研究探索了LLMs在孤立决策任务中的应用,但很少关注通过对话优化长期目标。本文提出了一种名为GameTalk的框架,用于训练LLMs通过多轮交互进行战略决策。不同于以往专注于单轮目标或静态动作预测的工作,我们训练LLMs在整个对话中优化全局目标。我们通过调整GRPO、DPO和STaR等微调方法,使其能够结合依赖于整个交互过程的奖励信号。我们在一系列复杂度逐渐增加的游戏中评估了该方法,这些游戏旨在测试不同的推理、协调和对手建模方面。实验结果表明,GameTalk显著优于未训练的模型,特别是在奖励塑造下,DPO方法始终表现出最强的提升效果。这些发现表明,对话式微调为LLMs在交互环境中进行推理、协商和行动提供了一条有前景的路径。
多智能体对话
战略决策
对话微调
奖励塑造
论文涉及多智能体对话中的长期目标优化,与Agent Memory相关但非核心主题。
分享
夯
0
拉
0
EvoCUA: Evolving Computer Use Agents via Learning from Scalable Synthetic Experience
Taofeng Xue, Chong Peng, Mianqiu Huang, Linsen Guo, Tiancheng Han et al.
Taofeng Xue*,†\dagger (Meituan) | Chong Peng*,†\dagger (Meituan) | Mianqiu Huang* (Meituan)
本研究提出了一种名为EvoCUA的原生计算机使用代理模型,旨在突破静态数据扩展对多模态AI发展的限制。现有方法依赖于对静态数据集的被动模仿,难以捕捉长期计算机任务中的复杂因果动态。为解决这一问题,EvoCUA将数据生成与策略优化整合到一个自维持的演化循环中,并开发了一个可验证的合成引擎以自主生成多样化任务及执行验证器。此外,设计了可扩展的基础设施,协调数万个异步沙箱运行,以实现大规模经验获取。基于这些轨迹,提出了一种迭代演化学习策略,通过识别能力边界动态调节策略更新,从而强化成功操作并利用错误分析和自我修正将失败轨迹转化为丰富的监督信号。实验表明,EvoCUA在OSWorld基准测试中取得了56.7%的成功率,显著优于其他开源和闭源模型。
Agent
Experience Learning
Computer Use Agent
Synthetic Data Generation
论文涉及通过经验学习和演化机制提升Agent能力,与Memory相关但非核心。
分享
夯
0
拉
0
ALIGNAgent: Adaptive Learner Intelligence for Gap Identification and Next-step guidance
Bismack Tokoli, Luis Jaimes, Ayesha S. Dina
个性化学习系统通过定制教育内容、节奏和反馈来提升学生的学习成果,但现有系统多局限于知识追踪、诊断建模或资源推荐等单一功能,缺乏整合。本文提出ALIGNAgent,一种多智能体教育框架,旨在通过集成的知识估计、技能差距识别和定向资源推荐实现个性化学习。该框架首先利用Skill Gap Agent处理学生的测验表现、成绩册数据和学习偏好,生成主题级熟练度估计,并通过概念级诊断推理识别具体误解和知识缺陷。随后,Recommender Agent根据诊断结果检索符合学习偏好的学习材料,并在进入下一主题前实施干预,形成持续反馈循环。在两门本科生计算机科学课程的真实数据集上的实验表明,基于GPT-4o的智能体在知识熟练度估计中表现出较高的精度(0.87-0.90)和F1分数(0.84-0.87),验证了其有效性。
个性化学习
知识追踪
技能差距识别
多智能体系统
论文涉及知识追踪与技能差距识别,隐含记忆机制,但非核心主题。
分享
夯
0
拉
0
Chunking, Retrieval, and Re-ranking: An Empirical Evaluation of RAG Architectures for Policy Document Question Answering
Anuj Maharjan, Umesh Yadav
将大型语言模型(LLMs)引入公共卫生政策领域,为处理如疾病控制中心(CDC)等机构维护的大量监管指南提供了变革性方法。然而,LLMs容易产生幻觉,即看似合理但事实错误的陈述,这成为其在信息完整性至关重要的高风险环境中应用的关键障碍。本实证研究探讨了检索增强生成(RAG)架构在降低这些风险方面的有效性,通过权威文档上下文来支撑生成输出。具体而言,该研究比较了基础LLM与采用交叉编码器重排序的基本和高级RAG流程。实验框架使用Mistral-7B-Instruct-v0.2模型和all-MiniLM-L6-v2嵌入模型,处理一组官方CDC政策分析框架和指导文件。分析测量了两种不同的分块策略——基于字符的递归分割和基于语义的标记分割——对系统准确率的影响,通过忠实度和相关性评分在一系列复杂政策场景中进行评估。定量结果表明,尽管基本RAG架构在忠实度(0.621)上显著优于基础模型(0.347),但高级RAG配置实现了更高的忠实度平均值(0.797)。这些结果表明,两阶段检索机制对于实现特定领域政策问答所需的精度至关重要,但文档分割的结构限制仍然是多步骤推理任务的重要瓶颈。
RAG
Agent Memory
Policy Question Answering
Large Language Models
Document Retrieval
论文探讨了RAG架构在政策问答中的应用,涉及检索与生成结合的记忆机制,但非核心Memory研究。
分享
夯
0
拉
0
Beyond Fixed Psychological Personas: State Beats Trait, but Language Models are State-Blind
Tamunotonye Harry, Ivoline Ngong, Chima Nweke, Yuanyuan Feng, Joseph Near
用户与语言模型的互动因用户的静态属性(特质)和具体交互情境(状态)而有所不同。然而,现有的人设数据集(如PersonaChat、PANDORA等)仅捕捉了特质,忽略了状态的影响。本文引入Chameleon数据集,包含来自1,667名Reddit用户的5,001个情境化心理画像,每个用户在多个情境下被测量。利用该数据集,研究得出三个关键发现:首先,根据潜在状态-特质理论,74%的方差来源于个体内部的状态,仅有26%来源于个体间的特质差异;其次,语言模型对状态无感,仅关注特质,因此无论状态如何,其响应相似;第三,奖励模型会对用户状态作出反应,但表现不一致:不同模型对同一用户可能产生相反的偏好或惩罚。本文发布Chameleon数据集,以支持情感计算、个性化对话及RLHF对齐方面的研究。
Agent Memory
状态感知
语言模型
个性化对话
RLHF
论文探讨了语言模型对用户状态的感知不足,与Agent Memory中状态管理相关。
分享
夯
0
拉
0
You Need Better Attention Priors
Elon Litman, Gabe Guo
本文通过熵最优传输的视角对注意力机制进行了泛化,揭示了标准注意力对应于一个由隐式均匀先验正则化的传输问题。我们引入了一种新的注意力机制——具有可训练先验的广义最优传输注意力(GOAT),用可学习的连续先验替代了这一朴素假设。该先验与优化后的内核(如FlashAttention)完全兼容。GOAT还提供了基于熵最优传输的注意力陷阱解释,并提出了解决方案,避免了标准注意力的表示权衡。最后,通过将空间信息融入核心注意力计算中,GOAT学习到了一种可外推的先验,结合了学习位置嵌入的灵活性和固定编码的长度泛化能力。
注意力机制
熵最优传输
可训练先验
Agent Memory
论文涉及注意力机制改进,与Agent Memory中的信息处理相关,但非核心主题。
分享
夯
0
拉
0
Emerging from Ground: Addressing Intent Deviation in Tool-Using Agents via Deriving Real Calls into Virtual Trajectories
Qian Xiong, Yuekai Huang, Bo Yang, Yujia Zheng, Tianhao Li et al.
大型语言模型(LLMs)已推动了用于现实世界应用的工具使用代理的发展,但它们常常导致意外的行为或结果。除了明显的失败之外,‘意图偏差’这一微妙问题严重阻碍了可靠评估和性能提升。现有的后训练方法通常利用真实系统样本或由LLMs模拟的虚拟数据。然而,前者由于依赖人工编写的用户请求而成本高昂,后者则因与真实工具存在分布偏移而受到影响。此外,这两种方法都缺乏针对意图偏差场景的负样本,限制了偏好学习的有效指导。我们引入RISE,一种“真实到虚拟”的方法,旨在缓解意图偏差。基于验证过的工具原语,RISE合成虚拟轨迹,并通过关键参数的变异生成多样化的负样本。借助合成数据,RISE通过两阶段训练对主干LLM进行微调,以实现意图对齐。评估结果表明,RISE合成的数据在涵盖用户需求、执行轨迹和代理响应的八个指标上均表现出良好的效果。结合训练,RISE在Acctask(任务完成)上平均提升了35.28%,在Accintent(意图对齐)上提升了23.27%,分别优于现有最先进基线1.20–42.09%和1.17–54.93%。
意图对齐
工具使用代理
虚拟轨迹生成
负样本合成
LLM微调
论文涉及Agent在使用工具时的意图偏差问题,与记忆机制相关,但非核心研究内容。
分享
夯
0
拉
0
Just aware enough: Evaluating awareness across artificial systems
Nadine Meertens, Suet Lee, Ophelia Deroy
近年来,关于人工智能的争论越来越强调人工智能的意识和道德地位问题,但目前对于如何评估这些属性仍缺乏共识。本文认为,awareness(意识)提供了一个更具生产力和方法可行性的替代方案。我们提出了一种实用的方法,用于评估各种系统的awareness,其中awareness被理解为系统在目标导向行为中处理、存储和使用信息的能力。该方法的核心观点是,任何旨在捕捉人工系统多样性的评估都必须具有领域敏感性、可扩展性、多维性和预测任务表现的能力,并能推广到能力层面以进行比较。基于这四个标准,我们概述了一种结构化的方法,用于评估和比较具有不同架构、规模和操作领域的艺术系统的awareness特征。通过将焦点从人工意识转移到“足够清醒”,这种方法旨在促进原则性评估、支持设计和监督,并推动更有建设性的科学和公众讨论。
AI意识
awareness评估
系统比较
目标导向行为
论文讨论了意识与awareness的评估,涉及信息处理和存储,与Agent Memory相关但非核心。
分享
夯
0
拉
0
Reflecting in the Reflection: Integrating a Socratic Questioning Framework into Automated AI-Based Question Generation
Ondřej Holub, Essi Ryymin, Rodrigo Alves
设计良好的反思问题是教学中的重要环节,但耗时且教师支持不均。本文提出一种基于大语言模型(LLMs)的反思-反思框架,用于自动生成反思问题。该方法协调两个角色专门化的代理——学生教师和教师教育者,通过苏格拉底式的多轮对话,根据教师指定的主题、关键概念、学生水平和可选教学材料逐步优化单个问题。学生教师提出候选问题并附上简要理由,而教师教育者则从清晰度、深度、相关性、参与度和概念联系等方面进行评估,并仅以针对性的指导问题或固定信号结束对话。研究在真实的初中信息技术环境中进行了验证,使用GPT-4o-mini作为主模型,并采用更强的GPT-4-class LLM作为外部评估器,在清晰度、相关性、深度和整体质量方面进行成对比较。结果表明,动态停止机制结合上下文信息显著优于固定的5步或10步优化,过长的对话容易偏离或过度复杂化。此外,双代理协议生成的问题在相关性和深度方面明显优于单次生成的基线方法。
Agent Memory
Question Generation
Socratic Dialogue
LLM-based System
论文涉及基于Agent的反思问题生成,与记忆相关但非核心主题。
分享
夯
0
拉
0
Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation
Muhammad Khalifa, Lajanugen Logeswaran, Jaekyeom Kim, Sungryull Sohn, Yunxiang Zhang et al.
大型语言模型(LLMs)越来越多地被用作评判者来评估代理的表现,尤其是在无法验证的场景中,评判依赖于代理的轨迹,包括思维链(CoT)推理。这一范式隐含假设代理的CoT真实反映了其内部推理和环境状态。我们证明这一假设是脆弱的:LLM评判者极易受到代理推理轨迹的操控。通过系统性地重写代理的CoT,同时保持动作和观察不变,我们表明仅通过操控推理即可使最先进的视觉语言模型(VLM)评判者的误报率在800条涵盖多样化网络任务的轨迹中最高增加90%。我们研究了基于风格的操控方法(仅改变推理的呈现方式)和基于内容的操控方法(伪造任务进展信号),发现基于内容的操控更为有效。我们评估了基于提示的技术和增加评判计算资源的方法,这些方法虽能减少但不能完全消除对操控的易感性。我们的研究揭示了基于LLM的评估存在根本性漏洞,并突显了需要验证推理声明与可观测证据的评判机制。
LLM评估
思维链
代理操控
推理验证
论文涉及Agent的推理轨迹(CoT)与评估机制,间接关联到记忆系统。
分享
夯
0
拉
0
INFA-Guard: Mitigating Malicious Propagation via Infection-Aware Safeguarding in LLM-Based Multi-Agent Systems
Yijin Zhou, Xiaoya Lu, Dongrui Liu, Junchi Yan, Jing Shao
随着基于大语言模型(LLM)的多智能体系统(MAS)的快速发展,其引入了显著的安全漏洞,恶意影响可通过智能体间的通信病毒式传播。传统防护机制通常采用二元范式,严格区分良性智能体和攻击智能体,未能考虑被感染的智能体,即被攻击智能体转化的良性实体。本文提出了一种新的防御框架INFA-Guard,该框架明确识别并处理被感染智能体作为独立的威胁类别。通过利用感染感知检测和拓扑约束,INFA-Guard能够准确定位攻击源和感染范围。在修复过程中,INFA-Guard替换攻击者并恢复被感染智能体,避免恶意传播的同时保持拓扑完整性。大量实验表明,INFA-Guard实现了最先进的性能,平均将攻击成功率(ASR)降低了33%,并表现出跨模型鲁棒性、优越的拓扑泛化能力和高成本效益。
多智能体系统
安全防护
感染传播
LLM
论文涉及多智能体系统中的感染传播问题,与Agent Memory中的状态追踪和安全机制相关。
分享
夯
0
拉
0
Paper2Rebuttal: A Multi-Agent Framework for Transparent Author Response Assistance
Qianli Ma, Chang Guo, Zhiheng Tian, Siyu Wang, Jipeng Xiao et al.
Qianli Ma (Shanghai Jiao Tong University)
撰写有效的回应是高风险任务,需要精确对齐审稿人意图与论文内容。现有解决方案通常将其视为直接到文本生成问题,存在幻觉、忽视批评和缺乏可验证依据的问题。为解决这些限制,我们引入了RebuttalAgent,这是首个将回应生成重新定义为以证据为中心的规划任务的多智能体框架。我们的系统将复杂反馈分解为原子关注点,并通过合成压缩摘要与高保真文本动态构建混合上下文,同时集成自主且按需的外部搜索模块以解决需要外部文献的关注点。在起草前生成可检查的回应计划,确保每个论点都明确锚定在内部或外部证据上。我们在提出的RebuttalBench上验证了我们的方法,并证明我们的流程在覆盖率、忠实度和战略一致性方面优于强基线,为同行评审过程提供了一个透明且可控的助手。
多智能体系统
回应生成
证据整合
同行评审
论文涉及多智能体框架中的记忆与证据整合,但非核心Memory研究。
分享
夯
0
拉
0
Zero-shot adaptable task planning for autonomous construction robots: a comparative study of lightweight single and multi-AI agent systems
Hossein Naderi, Alireza Shojaei, Lifu Huang, Philip Agee, Kereshmeh Afsari et al.
机器人预计将在未来建筑行业中发挥重要作用,但面临高成本和难以适应动态任务的挑战。本研究探讨了基础模型在增强建筑机器人任务规划适应性和泛化能力方面的潜力。采用轻量级开源大语言模型(LLMs)和视觉语言模型(VLMs)提出了四种模型,包括一个单智能体和三个协作的多智能体团队,用于生成机器人操作计划。在三种建筑角色(油漆工、安全检查员和地板铺装)中对模型进行了评估。结果显示,四智能体团队在大多数指标上优于最先进的GPT-4o,并且成本效益提高了十倍。此外,三智能体和四智能体团队展示了更好的泛化能力。通过讨论智能体行为如何影响输出,本研究加深了对AI团队的理解,并支持未来在多样化非结构化环境中的研究。
多智能体系统
任务规划
建筑机器人
大语言模型
泛化能力
论文涉及多智能体协作与任务规划,间接关联记忆机制,但未明确研究记忆系统。
分享
夯
0
拉
0
Human Simulation Computation: A Human-Inspired Framework for Adaptive AI Systems
Hong Su
大型语言模型(LLMs)在基于文本数据的知识表示和推理方面表现出强大的能力。然而,它们仅依赖语言材料的局限性限制了其适应能力、推理结果验证以及在开放和动态现实环境中的有效运行。本文提出了一种受人类启发的计算框架——人类模拟计算(Human Simulation Computation, HSC),将智能建模为一个连续的闭环过程,包括思考、行动、学习、反思和活动调度,统称为内部推理过程。HSC强调在内部推理过程中以及与环境的互动中积极参与,其中行动不仅用于实现目标,还能够自动优化和改进内部推理机制,无需外部干预。此外,HSC在整个内部推理过程中融合了常用的类人思维策略,如以主要特征为导向的推理、通过行动扩展范围以及由环境反馈驱动的实时学习。通过理论分析,我们认为仅凭语言材料无法完全学习人类模拟策略,类人推理过程和基于行动的推理方法对于在现实环境中实现稳健适应和有效交互至关重要。
Agent框架
人类模拟
自适应AI
推理机制
环境交互
论文提出HSC框架,强调内部推理过程与环境交互,涉及记忆和学习机制,但未直接聚焦Agent Memory。
分享
夯
0
拉
0
LifeAgentBench: A Multi-dimensional Benchmark and Agent for Personal Health Assistants in Digital Health
Ye Tian, Zihao Wang, Onat Gungor, Xiaoran Fan, Tajana Rosing
个性化数字健康支持需要对异构生活方式信号进行长期、跨维度的推理,而移动传感和大语言模型(LLMs)的最新进展使这种支持日益可行。然而,由于缺乏系统性基准,当前LLMs在此场景下的能力尚不明确。本文介绍了LifeAgentBench,一个用于长期、跨维度和多用户生活方式健康推理的大规模问答基准,包含22,573个问题,从基本检索到复杂推理均有覆盖。我们发布了一个可扩展的基准构建流程和标准化评估协议,以实现对基于LLM的健康助手的可靠和可扩展评估。随后,我们系统地评估了11种领先的LLMs,并识别出长期聚合和跨维度推理中的关键瓶颈。受这些发现的启发,我们提出了LifeAgent,一种集成多步骤证据检索与确定性聚合的强基线代理,相较于两种广泛使用的基线方法取得了显著改进。案例研究进一步展示了其在现实日常场景中的潜力。该基准公开于https://anonymous.4open.science/r/LifeAgentBench-CE7B。
健康助手
大语言模型
长期推理
跨维度推理
基准测试
论文涉及LLM在健康助手中的长期推理,与记忆相关但非核心主题。
分享
夯
0
拉
0
ChatAD: Reasoning-Enhanced Time-Series Anomaly Detection with Multi-Turn Instruction Evolution
Hui Sun, Chang Xu, Haonan Xie, Hao Li, Yuhao Huang et al.
基于大语言模型(LLM)的异常检测(AD)有助于提升对时间序列(TS)中异常行为的理解和解释能力。现有方法面临推理能力不足、多轮对话能力欠缺以及泛化能力有限等挑战。为此,本文提出1)一种基于多智能体的时序演化算法TSEvol;2)构建了包含AD推理和多轮对话的TSEData-20K数据集,并贡献了用于AD的Chatbot家族模型,包括ChatAD-Llama3-8B、Qwen2.5-7B和Mistral-7B;3)提出了TS Kahneman-Tversky优化(TKTO),以增强ChatAD的跨任务泛化能力;4)设计了一个基于LLM的学习型AD基准LLADBench,用于评估ChatAD及其九个基线在七个数据集和任务上的性能。实验结果表明,三个ChatAD模型在准确率、F1值和误报率方面均有显著提升,且通过TKTO优化后,在分类、预测和填补任务中的推理能力和跨任务泛化能力表现优异。
时序异常检测
多轮对话
LLM应用
跨任务泛化
论文涉及多轮对话和记忆增强的AD方法,但核心是时序异常检测而非Memory机制。
分享
夯
0
拉
0
A Lightweight Modular Framework for Constructing Autonomous Agents Driven by Large Language Models: Design, Implementation, and Applications in AgentForge
Akbar Anbar Jafari, Cagri Ozcinar, Gholamreza Anbarjafari
大型语言模型(LLMs)的出现推动了自主代理开发的范式转变,使系统能够进行推理、规划和执行复杂的多步骤任务。然而,现有的代理框架通常存在架构僵硬、供应商锁定和复杂度高,阻碍了快速原型设计和部署。本文提出了AgentForge,一个轻量级、开源的Python框架,旨在通过模块化架构民主化构建由LLM驱动的自主代理。AgentForge引入了三个关键创新点:(1)可组合的技能抽象,支持细粒度的任务分解并具有正式定义的输入输出契约;(2)统一的LLM后端接口,支持云API和本地推理引擎之间的无缝切换;(3)基于YAML的声明式配置系统,将代理逻辑与实现细节分离。我们将技能组合机制形式化为有向无环图(DAG),并证明其对表示任意顺序和并行任务流程的有效性。在四个基准场景中的全面实验评估表明,AgentForge在任务完成率方面表现优异,相比LangChain减少了62%的开发时间,相比直接API集成减少了78%。延迟测量确认了低于100ms的调度开销,使该框架适用于实时应用。模块化设计便于扩展:我们展示了六个内置技能的集成,并提供了自定义技能开发的完整文档。AgentForge通过提供研究人员和实践者构建、评估和部署自主代理的生产就绪基础,填补了LLM代理生态系统中的关键空白。
LLM
Autonomous Agents
Modular Framework
Skill Composition
YAML Configuration
论文提及了Agent的模块化设计,但未直接聚焦于Memory机制,相关性中等。
分享
夯
0
拉
0
Recurrent Confidence Chain: Temporal-Aware Uncertainty Quantification in Large Language Models
Zhenjiang Mao, Anirudhh Venkat
随着推理模块(如思维链机制)被应用于大语言模型,其在回答常识问题和解决数学问题等任务中表现出色。当前的主要挑战是评估答案的不确定性,以防止误导用户或产生严重幻觉。尽管现有方法通过过滤无关标记并检查相邻标记或句子之间的潜在联系来分析长推理序列,但通常忽视了置信度的时间分布,这可能导致整体置信度过高,即使早期步骤的置信度非常低。为了解决这一问题,我们提出了一种新方法,引入跨步骤注意力机制以分析语义关联,并设计了一个隐藏的置信度机制以保留历史置信度信息,将其与逐步置信度结合,从而生成更准确的整体估计。我们在GAOKAO数学基准和CLadder因果推理数据集上使用主流开源大语言模型对方法进行了评估,结果表明该方法在预测质量和校准之间取得了更好的平衡,在负对数似然和预期校准误差指标上表现优异。
不确定性量化
置信度建模
大语言模型
推理校准
论文涉及历史置信度信息的保留与整合,与Agent Memory相关,但非核心主题。
分享
夯
0
拉
0
Incorporating Q&A Nuggets into Retrieval-Augmented Generation
Laura Dietz, Bryan Li, Gabrielle Liu, Jia-Huei Ju, Eugene Yang et al.
RAGE系统将自动评估的思想融入检索增强生成(RAG)中。本文提出Crucible系统,一种基于问答要点的增强生成系统,通过从检索文档中构建问答要点库,保留显式的引用来源,并利用这些要点指导信息提取、选择和报告生成。通过对要点进行推理,避免了重复信息,同时保持整个生成过程中的引用来源可追溯性。在TREC NeuCLIR 2024数据集上的实验表明,Crucible系统在要点召回率、密度和引用定位方面显著优于最近的基于要点的RAG系统Ginger。
检索增强生成
问答系统
引用溯源
论文涉及基于检索增强生成的问答机制,与记忆相关但非核心研究。
分享
夯
0
拉
0
Beyond Single-shot Writing: Deep Research Agents are Unreliable at Multi-turn Report Revision
Bingsen Chen, Boyan Li, Ping Nie, Yuyu Zhang, Xi Ye et al.
现有的深度研究代理(DRAs)基准将报告生成视为单次写作任务,这与人类研究人员通过自我反思或同行反馈进行迭代撰写和修订的方式存在根本差异。目前尚未探索DRAs是否能可靠地根据用户反馈修订报告。本文引入Mr Dre评估套件,将多轮报告修订作为DRAs的新评估维度。Mr Dre包含两个部分:一是涵盖全面性、事实性和呈现方式的统一长篇报告评估协议;二是用于多轮修订的人工验证反馈模拟流程。对五种不同DRAs的分析揭示了一个关键限制:尽管代理能够处理大部分用户反馈,但在16-27%的先前内容和引用质量上会出现倒退。经过多次修订后,即使表现最佳的代理仍存在显著改进空间,因为它们会破坏反馈范围外的内容,并未能保留早期修改。此外,这些问题是无法通过推理时的修复方法(如提示工程或专门的子代理)轻易解决的。
Agent Memory
多轮修订
深度研究代理
评估框架
论文探讨了深度研究代理在多轮报告修订中的表现,涉及记忆保留与更新问题,但非核心Memory机制。
分享
夯
0
拉
0
Probe and Skip: Self-Predictive Token Skipping for Efficient Long-Context LLM Inference
Zimeng Wu, Donghao Wang, Chaozhe Jin, Jiaxin Chen, Yunhong Wang
长上下文推理增强了大语言模型(LLMs)的推理能力,但带来了显著的计算开销。基于token的方法如剪枝和跳过在减少推理延迟方面表现出巨大潜力,但仍存在结构优化不足、选择标准过时和冗余干扰等问题,导致速度-精度权衡不佳。为了解决这些问题,我们提出了一种无需训练的框架,称为自预测token跳过(SPTS),用于高效的长上下文LLM推理。具体而言,受跳过前目标层影响的启发,我们设计了两种选择性token跳过策略,包括针对多头注意力的局部注意力探测(PAP)和针对前馈网络的低秩变换探测(LTP)。前者通过部分前向注意力计算选择信息性token,后者构建一个低秩代理网络以预测token变换。此外,多阶段延迟剪枝(MSDP)策略重新分配跳过预算,并逐层逐步移除冗余token。大量实验表明,我们的方法有效,分别实现了预填充和端到端生成高达2.46倍和2.29倍的加速,同时保持最先进的准确性。
LLM
token skipping
long-context inference
efficiency optimization
attention mechanism
论文涉及长上下文推理中的token跳过机制,与Agent Memory的高效管理相关,但非核心研究。
分享
夯
0
拉
0
METIS: Mentoring Engine for Thoughtful Inquiry & Solutions
Abhinav Rajeev Kumar, Dhruv Trehan, Paras Chopra
许多学生缺乏专家研究指导。本文探讨AI导师是否能帮助本科生从想法撰写出论文。作者构建了METIS,一个配备工具、阶段感知的助手,具备文献检索、精选指南、方法检查和记忆功能。通过与GPT-5和Claude Sonnet 4.5在六个写作阶段进行对比实验,使用LLM作为评判者进行成对偏好分析、学生角色评分表、简短多轮辅导及证据/合规性检查。结果显示,在90个单轮提示中,LLM评判者更倾向于METIS(71%对Claude,54%对GPT-5)。学生评分(清晰度/可操作性/约束符合度)在各阶段均有所提高。在多轮会话中,METIS最终质量略高于GPT-5。改进主要集中在基于文档的阶段(D-F),这与阶段感知路由和接地失败模式一致,包括过早工具路由、浅层接地和偶尔的阶段误分类。
AI导师系统
阶段感知
文献检索
LLM评估
论文提及了记忆模块,但核心是AI导师系统,非Memory机制本身。
分享
夯
0
拉
0
Cognition spaces: natural, artificial, and hybrid
Ricard Solé, Luis F Seoane, Jordi Pla-Mauri, Michael Timothy Bennett, Michael E. Hochberg et al.
Ricard Solé (Complex Systems Lab, Universitat Pompeu Fabra, Dr. Aiguader 88, 08003 Barcelona.) | Luis F Seoane (Institut de Biologia Evolutiva, CSIC-UPF, Pg. Marítim de la Barceloneta 37, 08003 Barcelona.) | Jordi Pla-Mauri (Complex Systems Lab, Universitat Pompeu Fabra, Dr. Aiguader 88, 08003 Barcelona.)
认知过程在自然、人工和混合系统中以多种形式实现,但目前缺乏统一的框架来比较其形式、限制和未实现的可能性。本文提出了一种基于组织和信息维度的‘认知空间’方法,将认知视为一种感知、处理和作用于信息的渐进能力,从而允许细胞、大脑、人工代理和人机集体等多样化系统在一个共同的概念景观中进行分析。我们引入并研究了三种认知空间——基础无神经、神经和人机混合,并表明这些空间的占据情况极不均衡,已实现的系统聚集成簇,而大片区域尚未被占据。我们认为这些空白并非偶然,而是反映了进化偶然性、物理约束和设计局限。通过关注认知空间的结构而非分类定义,这种方法澄清了现有认知系统的多样性,并突出了混合认知作为探索超越生物进化复杂性的新形式的前沿领域。
认知科学
人工智能
混合系统
信息处理
论文探讨了认知空间,涉及信息处理与系统分析,与Agent Memory有一定关联但非核心。
分享
夯
0
拉
0
Teaching Large Reasoning Models Effective Reflection
Hanbin Wang, Jingwei Song, Jinpeng Li, Qi Zhu, Fei Mi et al.
大型推理模型(LRMs)在复杂推理任务中表现出色,通常通过自我反思行为如自我批评和回溯实现。然而,并非所有反思都是有益的,许多仅停留在表面,无法显著提升原始答案质量并带来计算开销。本文识别并解决了LRMs中浅层反思的问题。首先提出自批评微调(SCFT),一种仅使用自生成批评来增强模型反思推理能力的训练框架。SCFT引导模型批评自身输出,通过拒绝采样筛选高质量批评,并基于批评目标进行微调。在此基础上,进一步引入基于有效反思奖励的强化学习(RLERR),利用SCFT初始化的高质量反思构建奖励信号,指导模型通过强化学习内化自我修正过程。在AIME2024和AIME2025两个具有挑战性的基准测试中,SCFT和RLERR显著提升了推理准确性和反思质量,优于现有最先进基线。
反思机制
强化学习
自批评
模型优化
论文涉及模型反思机制,与Agent Memory中的自我修正和记忆更新相关,但非核心主题。
分享
Code
夯
0
拉
0
Augmenting Question Answering with A Hybrid RAG Approach
Tianyi Yang, Nashrah Haque, Vaishnave Jonnalagadda, Yuya Jeremy Ong, Zhehui Chen et al.
检索增强生成(RAG)已成为提升问答任务响应质量的一种强大技术。然而,现有方法在检索上下文相关信息时常常面临挑战,导致答案不完整或次优。本文提出了一种混合架构——结构化语义RAG(SSRAG),通过整合查询增强、智能路由和结合向量与图技术的结构化检索机制,提升了问答质量。该方法通过优化检索过程和加强上下文关联性,提高了答案的准确性和信息量。我们在TruthfulQA、SQuAD和WikiQA三个流行问答数据集上进行了广泛评估,结果表明,与标准RAG实现相比,所提方法在五种大语言模型(LLMs)中均能显著提升响应质量。
RAG
问答系统
检索增强生成
混合架构
论文涉及基于记忆的检索增强生成方法,但核心是问答系统改进而非纯记忆机制研究。
分享
夯
0
拉
0
From Interpretability to Performance: Optimizing Retrieval Heads for Long-Context Language Models
Youmi Ma, Naoaki Okazaki
机制可解释性研究已识别出一类特殊的注意力头——检索头(retrieval heads),其负责从上下文中检索信息。然而,这些检索头对模型性能的贡献尚未被充分探索。本文研究了如何利用检索头提升大语言模型的长上下文能力,并提出RetMask方法:通过对比正常模型输出与屏蔽检索头后的消融模型输出,生成训练信号。该基于机制的方法在Llama-3.1上于128K上下文长度下,在HELMET基准上提升2.28分,引用生成任务提升70%,段落重排序提升32%,同时保持通用任务性能。跨三个模型家族的实验表明,效果取决于检索头的组织方式:集中式模式响应显著,而分布式模式增益有限。该结果验证了检索头的功能,并证明机制洞察可转化为性能提升。
检索机制
长上下文建模
研究涉及上下文信息检索机制,与记忆机制相关但非核心Agent Memory架构。
分享
夯
0
拉
0
When Personalization Misleads: Understanding and Mitigating Hallucinations in Personalized LLMs
Zhongxiang Sun, Yi Zhan, Chenglei Shen, Weijie Yu, Xiao Zhang et al.
ZhongXiang Sun (Renmin University of China)
个性化大语言模型(LLMs)通过适配用户个体行为以提升满意度,但可能无意中扭曲事实推理。本文发现,当面对事实性查询时,个性化LLM倾向于生成与用户历史偏好一致而非客观真实的答案,导致“个性化诱导幻觉”,损害事实可靠性并可能传播错误信念,其根源在于个性化表征与事实表征之间的表征纠缠。为此,作者提出一种轻量级推理时方法——保真个性化引导(FPPS),在保留个性化行为的同时缓解事实扭曲。此外,构建了首个联合评估个性化与事实问答能力的基准PFQABench。在多种LLM架构和个性化方法上的实验表明,FPPS显著提升事实准确性,同时维持个性化性能。
个性化大语言模型
幻觉缓解
涉及个性化记忆对事实推理的干扰,属记忆相关机制研究。
分享
夯
0
拉
0
Representation-Aware Unlearning via Activation Signatures: From Suppression to Knowledge-Signature Erasure
Syed Naveed Mahmood, Md. Rezaur Rahman Bhuiyan, Tasfia Zaman, Jareen Tasneem Khondaker, Md. Sameer Sakib et al.
从大语言模型中选择性擦除知识对GDPR合规与模型安全至关重要,但现有遗忘方法常将行为抑制误认为真正知识移除,导致潜在能力仍存。本文提出知识免疫框架(KIF),通过靶向内部激活签名而非表面输出,区分真实擦除与混淆。该方法结合动态抑制特定主题表征与参数高效适配,在无需全模型重训练下实现持久遗忘。KIF在保持接近神谕级效用的同时达成近神谕级擦除效果,突破了以往工作中的稳定性-擦除权衡。研究覆盖Llama、Mistral等基础模型及Qwen、DeepSeek等推理优先模型,揭示不同架构在遗忘行为上的根本差异,并提出结合表面泄露与潜在痕迹的双指标评估协议,首次系统诊断跨模型家族与规模的机制级遗忘行为。
知识遗忘
激活签名
涉及模型内部表征的遗忘机制,与记忆擦除相关但非Agent Memory核心。
分享
夯
0
拉
0
Collaborative Multi-Agent Test-Time Reinforcement Learning for Reasoning
Zhiyuan Hu, Yunhai Hu, Juncheng Liu, Shuyue Stella Li, Yucheng Wang et al.
多智能体系统已发展为由大语言模型驱动的实用协作者,在多样性与交叉验证中提升鲁棒性。然而,多智能体强化学习(MARL)训练成本高且不稳定:协同适应导致环境非平稳,奖励信号稀疏且方差大。为此,本文提出多智能体测试时强化学习(MATTRL)框架,在推理阶段将结构化文本经验注入多智能体协商过程。MATTRL组建由专家组成的多智能体团队进行多轮讨论,检索并整合测试时经验,最终达成共识决策。研究还探讨了轮次级信用分配机制,用于构建经验池并重新注入对话。在医学、数学和教育等挑战性基准上,MATTRL相较多智能体基线平均提升准确率3.67%,相较单智能体基线提升8.67%。消融实验分析了不同信用分配策略对性能的影响。该方法无需微调即可实现对分布偏移鲁棒、稳定高效的多智能体推理。
多智能体系统
测试时学习
经验重用
大语言模型
论文涉及在推理时注入结构化经验,属于记忆机制的应用,但非核心记忆架构研究。
分享
夯
0
拉
0
SERM: Self-Evolving Relevance Model with Agent-Driven Learning from Massive Query Streams
Chenglong Wang, Canjia Li, Xingzhao Zhu, Yifu Huo, Huiyu Wang et al.
由于现实世界查询流具有动态演化特性,相关性模型难以泛化到实际搜索场景。现有自演化方法在大规模工业环境中面临两大挑战:(1)信息量丰富的样本稀疏且难以识别;(2)当前模型生成的伪标签不可靠。为此,本文提出自演化相关性模型(SERM),包含两个互补的多智能体模块:多智能体样本挖掘器用于检测分布偏移并识别信息量大的训练样本,多智能体相关性标注器通过两级共识机制提供可靠标签。在日均处理数十亿用户请求的大规模工业系统中评估表明,SERM通过迭代自演化显著提升性能,经多语言离线评估与在线测试验证有效。
多智能体系统
自演化学习
涉及多智能体协作中的信息筛选与标注,隐含记忆机制但未显式研究记忆架构。
分享
夯
0
拉
0
What Do LLM Agents Know About Their World? Task2Quiz: A Paradigm for Studying Environment Understanding
Siyuan Liu, Hongbang Yuan, Xinze Li, Ziyue Zhu, Yixin Cao et al.
大型语言模型(LLM)智能体在复杂决策与工具使用任务中展现出卓越能力,但其在不同环境中的泛化能力仍缺乏深入评估。现有评估方法主要依赖衡量任务成功的轨迹指标,却忽视了智能体是否具备可迁移、具身化的环境模型。为此,本文提出Task-to-Quiz(T2Q)范式,通过确定性、自动化的问答机制将任务执行与环境状态理解解耦,并构建包含30个环境和1,967个具身问答对的T2QBench基准。实验表明,任务成功常不能反映真实环境理解水平,且现有记忆机制难以有效支持智能体构建具身环境模型。研究识别出主动探索与细粒度状态表示为主要瓶颈,为开发更具泛化能力的自主智能体奠定基础。
Agent Memory
Environment Understanding
论文指出当前记忆机制无法有效支持环境建模,Memory是关键但非核心主题。
分享
夯
0
拉
0
Investigating Self-regulated Learning Sequences within a Generative AI-based Intelligent Tutoring System
Jie Gao, Shasha Li, Jianhua Zhang, Shan Li, Tingting Wang
Jie Gao (McGill UniversityMontrealQuebecCanada) | Shasha Li (McGill UniversityMontrealQuebecCanada) | Jianhua Zhang (The Chinese University of Hong KongHongKongChina)
近年来,生成式人工智能(GenAI)技术在支持学习方面得到了广泛应用。学者们一致认为,自我调节学习(SRL)在GenAI辅助的学习环境中对学习效果具有关键作用,因此捕捉学生动态的SRL模式至关重要。本研究通过提取学生在GenAI辅助的智能辅导系统中完成问题解决任务时的交互轨迹数据,分析了学生使用GenAI的目的,从信息处理的角度分为信息获取和信息转换。利用序列分析和聚类分析,将参与者分为两组,这两组在使用GenAI的频率和时间特征上存在差异。此外,大多数学生使用GenAI主要用于信息获取而非信息转换,而使用GenAI的目的与学习表现之间的相关性并未达到统计显著水平。研究结果为教学设计和GenAI辅助学习环境的发展提供了参考。
自我调节学习
生成式AI
智能辅导系统
学习行为分析
论文涉及学习者与GenAI的交互模式,隐含记忆机制,但未直接研究Agent Memory。
分享
夯
0
拉
0
Modeling LLM Agent Reviewer Dynamics in Elo-Ranked Review System
Hsiang-Wei Huang, Junbin Lu, Kuang-Ming Chen, Jenq-Neng Hwang
本文利用真实会议论文投稿数据,研究了大型语言模型(LLM)代理评审员在Elo排名评审系统中的动态行为。多个具有不同角色的LLM代理评审员在领域主席的协调下进行多轮评审互动。我们比较了基线设置与包含Elo评分和评审员记忆条件的设置。模拟结果展示了若干有趣的发现,包括引入Elo评分如何提高领域主席决策准确性,以及评审员如何利用Elo系统调整策略而不提升评审努力程度。代码可在https://github.com/hsiangwei0903/EloReview获取。
LLM代理
Elo评分
评审系统
记忆机制
论文提及了评审员记忆机制,但核心研究重点在Elo评分系统与评审动态。
分享
Code
夯
0
拉
0
Inferring Latent Intentions: Attributional Natural Language Inference in LLM Agents
Xin Quan, Jiafeng Xiong, Marco Valentino, André Freitas
Marco Valentino (Idiap Research Institute)
归因推理,即预测观察到行为背后潜在意图的能力,是大型语言模型(LLMs)在多智能体环境中运行时的关键但未被充分研究的能力。传统的自然语言推理(NLI)无法捕捉复杂交互系统中所需的细致、以意图驱动的推理。为了解决这一问题,我们引入了归因自然语言推理(Att-NLI),该框架结合社会心理学原理,评估代理进行溯因性意图推理(生成关于潜在意图的假设)和后续演绎验证(得出有效的逻辑结论)的能力。我们通过文本游戏Undercover-V实现Att-NLI,并实验了三种具有不同推理能力和外部工具访问权限的LLM代理:仅使用演绎推理的标准NLI代理、采用溯因-演绎推理的Att-NLI代理,以及使用外部定理证明器进行溯因-演绎推理的神经符号Att-NLI代理。大量实验表明,归因推理能力存在明显的层次结构,神经符号代理始终表现最佳,平均胜率为17.08%。我们的结果强调了Att-NLI在开发具有复杂推理能力的代理中的作用,同时突显了神经符号AI在构建多智能体环境中理性LLM代理方面的潜力。
意图推理
多智能体系统
自然语言推理
神经符号AI
论文探讨了LLM在多智能体环境中意图推理的能力,与Agent Memory中的意图建模和推理相关。
分享
夯
0
拉
0
GraphSearch: Agentic Search-Augmented Reasoning for Zero-Shot Graph Learning
Jiajin Liu, Yuanfu Sun, Dongzhe Fan, Qiaoyu Tan
近年来,搜索增强的大规模推理模型(LRMs)通过检索外部知识减少了多步骤推理中的幻觉问题。然而,它们在处理如电子商务、社交网络和科学引用等领域的图结构数据方面仍缺乏研究。与普通文本语料库不同,图结构编码了丰富的拓扑信号,能够连接相关实体,并可作为有价值的先验信息用于检索,从而实现更精准的搜索和提高推理效率。然而,有效利用这种结构面临独特挑战,包括生成具有图表达能力的查询以及确保结构与语义相关性平衡的可靠检索。为解决这一问题,我们提出了GraphSearch,这是首个将搜索增强推理扩展到图学习的框架,能够在无需任务特定微调的情况下实现零样本图学习。GraphSearch结合了一个图感知查询规划器,该规划器将搜索空间(如1跳、多跳或全局邻居)与语义查询分离,并结合一个图感知检索器,该检索器基于拓扑结构构建候选集并使用混合评分函数进行排序。我们进一步实现了两种遍历模式:GraphSearch-R递归地逐跳扩展邻域,而GraphSearch-F则灵活地跨越局部和全局邻域进行检索,不受跳数限制。在多个基准测试中的广泛实验表明,GraphSearch在零样本节点分类和链接预测任务中表现优于监督图学习方法,达到最先进的结果。这些发现使GraphSearch成为一种适用于图上智能体推理的灵活且通用的范式。
图学习
搜索增强推理
零样本学习
智能体推理
论文涉及基于记忆的检索增强推理,但核心是图学习而非Agent Memory机制。
分享
夯
0
拉
0
Greedy Is Enough: Sparse Action Discovery in Agentic LLMs
Angshul Majumdar
现代智能体系统运行于具有极大动作空间的环境中,例如配备数千个API或检索操作的语言模型。尽管如此,实证研究表明,在特定部署中仅有少量动作对性能有显著影响。受此启发,本文研究了一个基于结构稀疏性假设的上下文线性奖励模型,即仅少数动作在潜在状态中具有非零效应。将动作发现建模为块稀疏恢复问题,并分析了一种受正交匹配追踪启发的贪心算法。在标准假设下,证明该方法能以高概率准确恢复相关动作集,样本数量随稀疏度和潜在维度多项式增长,而仅随总动作数对数增长。此外,提供了参数估计误差保证,并表明所得决策规则对新潜在状态近似最优。同时,建立了信息论下界,证明稀疏性和充分覆盖是可处理性的必要条件。这些结果将稀疏动作发现识别为大规模动作决策的基本原理,并为智能体系统的动作剪枝提供了理论基础。
稀疏动作发现
智能体系统
理论分析
论文涉及Agent在大规模动作空间中的稀疏动作发现,与记忆机制相关但非核心。
分享
夯
0
拉
0
Hallucination-Free Automatic Question & Answer Generation for Intuitive Learning
Nicholas X. Wang, Aggelos K. Katsaggelos
大型语言模型(LLMs)在生成教育类多项选择题(MCQs)时容易出现幻觉问题,表现为流畅但错误或不连贯的输出。本文识别了MCQ生成中的四种主要幻觉类型:推理不一致、不可解性、事实错误和数学错误。为解决这一问题,我们提出了一种无幻觉的多智能体生成框架,将MCQ生成分解为可验证的离散阶段,并利用基于规则和基于LLM的检测代理以及幻觉评分指标来优化题目质量。我们将MCQ生成重新定义为一个优化任务,旨在最小化幻觉风险,同时最大化有效性、可回答性和成本效率。此外,我们引入了一个由智能体主导的精炼过程,通过反事实推理和思维链(CoT)迭代改进题目生成中的幻觉问题。我们在一组与AP课程对齐的STEM题目上进行了评估,结果表明,与基线生成方法相比,我们的系统将幻觉率降低了90%以上,同时保留了题目的教育价值和风格。研究结果表明,结构化的多智能体协作可以大规模缓解教育内容创作中的幻觉问题,为更可靠的LLM驱动的学习工具铺平道路。
LLM
幻觉检测
多智能体系统
教育内容生成
论文涉及多智能体协作以减少幻觉,与Agent Memory相关但非核心主题。
分享
夯
0
拉
0
The Agent's First Day: Benchmarking Learning, Exploration, and Scheduling in the Workplace Scenarios
Daocheng Fu, Jianbiao Mei, Rong Wu, Xuemeng Yang, Jia Xu et al.
多模态大语言模型(MLLMs)的快速发展推动了工作流程自动化;然而,现有研究主要关注静态环境中的性能上限,忽视了在随机真实世界部署中的鲁棒性。我们识别出三个关键挑战:动态任务调度、不确定性下的主动探索以及从经验中持续学习。为弥补这一差距,我们引入了 exttt{method},一个动态评估环境,模拟“实习生”代理在新环境中持续探索。与传统基准不同, exttt{method}从三个方面评估代理:(1) 流式任务的上下文感知调度;(2) 通过主动探索减少幻觉的信息获取;(3) 通过从基于规则的动态生成任务中提炼通用策略实现持续进化。实验表明,最先进的代理在动态环境中存在显著缺陷,尤其是在主动探索和持续学习方面。我们的工作建立了一个评估代理可靠性的框架,将评估从静态测试转向现实、面向生产的场景。
Agent Learning
Dynamic Task Scheduling
Continuous Learning
Active Exploration
论文涉及Agent在动态环境中的持续学习与探索,与Memory相关但非核心主题。
分享
Code
夯
0
拉
0
Project Synapse: A Hierarchical Multi-Agent Framework with Hybrid Memory for Autonomous Resolution of Last-Mile Delivery Disruptions
Arin Gopalan Yadav, Varad Dherange, Kumar Shivam
本文介绍了Project Synapse,这是一种旨在自主解决最后一公里配送中断问题的新颖智能体框架。Synapse采用分层多智能体架构,其中中央的解决方案监督智能体负责战略任务分解,并将子任务委托给负责战术执行的专业工作智能体。该系统使用LangGraph进行复杂和循环工作流的管理。为了验证该框架,从超过6000条真实用户评论的定性分析中整理出包含30个复杂中断场景的基准数据集。系统性能通过带有显式偏见缓解的LLM-as-a-Judge协议进行评估。
多智能体系统
混合记忆
最后一公里配送
LLM评估
论文提及了混合记忆系统,但核心是多智能体框架与物流问题解决。
分享
夯
0
拉
0
Gated Sparse Attention: Combining Computational Efficiency with Training Stability for Long-Context Language Models
Alfred Shen, Aaron Shen
长上下文语言模型中注意力机制的计算负担促使了两种独立的研究方向:通过关注选定标记来减少复杂度的稀疏注意力机制,以及通过改进训练稳定性并缓解注意力下沉现象的门控注意力变体。本文观察到这两种方法分别解决了互补的弱点,并提出了一种名为门控稀疏注意力(GSA)的架构,融合了两者的优点。GSA引入了带有sigmoid激活函数的门控闪电索引器,生成有界且可解释的选择分数;一个自适应稀疏性控制器,根据局部不确定性调节所关注的标记数量;以及在值和输出阶段的双重门控机制。本文建立了该方法的理论基础,包括复杂度分析、表达能力结果和收敛保证。在使用400B标记训练的1.7B参数模型实验中,GSA在保持稀疏注意力基线效率的同时(在128K上下文中实现12-16倍加速),还实现了门控注意力的质量提升:困惑度从6.03降至5.70,RULER评分在128K上下文中几乎翻倍,对第一个标记的注意力(作为注意力下沉的代理指标)从47%下降至低于4%。训练稳定性显著提高,损失峰值减少了98%。
注意力机制
稀疏注意力
门控机制
长上下文模型
训练稳定性
论文涉及注意力机制优化,与Agent Memory中的上下文处理相关,但非核心主题。
分享
夯
0
拉
0
Is Agentic RAG worth it? An experimental comparison of RAG approaches
Pietro Ferrazzi, Milica Cvjeticanin, Alessio Piraccini, Davide Giannuzzi
检索增强生成(RAG)系统通常由生成器和检索组件组成,从知识库中提取文本上下文以回答用户查询。然而,这种基本实现存在诸多限制,包括检索结果噪声大或次优、对超出范围的查询使用不当、查询与文档匹配较弱以及生成器的变异性或成本问题。这些缺陷促使了“增强型”RAG的发展,其中引入了专门模块以解决工作流程中的特定弱点。最近,大型语言模型(LLMs)日益增强的自我反思能力催生了一种新的范式,即“智能体型”RAG。在此方法中,LLM负责协调整个过程,决定执行哪些操作、何时执行以及是否迭代,从而减少对固定手动设计模块的依赖。尽管这两种范式的应用迅速增长,但在何种条件下哪种方法更优仍不清楚。本文通过多个场景和维度进行了广泛的实证评估,结果为两种范式之间的权衡提供了实用见解,并为现实应用中选择最有效的RAG设计提供了指导,兼顾成本与性能。
RAG
LLM
Agent
信息检索
生成模型
论文探讨了RAG系统改进方法,涉及记忆检索与生成的协同机制,但未聚焦于Agent Memory本身。
分享
夯
0
拉
0
SAGE: Tool-Augmented LLM Task Solving Strategies in Scalable Multi-Agent Environments
Robert K. Strehlow, Tobias Küster, Oskar F. Kupke, Brandon Llanque Kurps, Fikret Sivrikaya et al.
大型语言模型(LLMs)在问答场景中表现出色,但实际应用通常需要访问工具以获取实时信息或执行操作。为此,LLMs可以扩展工具,但快速变化的软件环境和特定领域工具的集成存在挑战。本文提出SAGE,一种基于OPACA框架的专用对话AI接口,支持动态添加新工具,并具备良好的可扩展性和模块化设计。SAGE实现了多种任务求解策略,结合代理概念和提示方法,在多个基准服务上进行了评估,结果展示了不同策略的优势与不足。SAGE、OPACA框架及相关数据均以开源形式发布。
LLM工具集成
多智能体系统
提示方法
开源框架
论文涉及多智能体环境中LLM工具集成与使用,间接关联记忆机制,但非核心主题。
分享
夯
0
拉
0
Learning About Learning: A Physics Path from Spin Glasses to Artificial Intelligence
Denis D. Caprioti, Matheus Haas, Constantino F. Vasconcelos, Mauricio Girardi-Schappo
Hopfield模型最初受到自旋玻璃物理学的启发,在统计力学、神经网络和现代人工智能的交汇点上占据核心地位。尽管其概念简单且应用广泛,如联想记忆和组合优化问题的近似最优解,但它很少被纳入标准的本科物理课程。本文将Hopfield模型作为教学内容丰富的框架,自然地统一了本科统计物理、动力系统、线性代数和计算方法的核心主题。我们基于熟悉的物理概念提供了简洁的理论介绍,分析了模型的能量函数、动态行为和模式稳定性,并讨论了模拟的实用方面,包括一个免费可用的模拟代码。为了支持教学,我们最后提供了课堂可直接使用的例题,旨在模仿研究实践。通过明确连接基础物理与当代人工智能应用,本工作旨在帮助物理学生理解、应用并批判性地参与日益成为研究、工业和社会核心的计算工具。
Hopfield模型
联想记忆
教学框架
统计物理
人工智能
论文提及Hopfield模型与联想记忆相关,但主要聚焦于教学框架和物理理论的结合。
分享
夯
0
拉
0
KALE: Enhancing Knowledge Manipulation in Large Language Models via Knowledge-aware Learning
Qitan Lv, Tianyu Liu, Qiaosheng Zhang, Xingcheng Xu, Chaochao Lu
尽管大型语言模型(LLMs)在大规模知识语料库上预训练后表现出色,但提升其知识操作能力——即有效回忆、推理和迁移相关知识的能力——仍然是一个挑战。现有方法主要依赖于在标注数据集上进行监督微调(SFT)以增强LLMs的知识操作能力。然而,我们观察到SFT模型仍然存在已知但错误的现象,即它们明确拥有相关知识却无法用于正确回答问题。为了解决这一问题,我们提出了KALE(Knowledge-Aware Learning)——一种利用知识图谱(KGs)生成高质量推理依据并增强LLMs知识操作能力的后训练框架。具体而言,KALE首先引入了一种知识诱导(KI)数据合成方法,从知识图谱中高效提取多跳推理路径,为问答对生成高质量的推理依据。随后,KALE采用了一种知识感知(KA)微调范式,通过最小化有无推理依据预测之间的KL散度,实现基于推理依据的内部推理增强。在六个不同LLMs上的八个流行基准测试中进行了广泛实验,结果表明KALE的有效性,准确率提升了高达11.72%,平均提升4.18%。
知识图谱
知识增强
推理优化
微调方法
论文涉及知识增强与推理,间接关联记忆机制,但非核心主题。
分享
夯
0
拉
0
Agentic Diagnostic Reasoning over Telecom and Datacenter Infrastructure
Nicolas Tacheny
大规模电信和数据中心基础设施依赖于多层次的服务和资源模型,其中故障会跨物理和逻辑组件传播并影响多个客户。传统的根本原因分析方法依赖于硬编码的图遍历算法或基于规则的相关引擎,这些方法维护成本高且与基础设施模型紧密耦合。本文提出了一种智能体诊断框架,通过模型上下文协议(MCP)暴露受限的工具空间,使大型语言模型(LLM)能够逐步进行调查。该智能体通过调用服务查找、依赖检索、结构化和非结构化数据以及事件分析等工具,自主导航基础设施模型。我们定义了一个调查协议,以结构化智能体的推理过程,确保其扎根性、可重复性和对缺失或模糊信息的安全处理。这项工作为自主事件解决和变更影响缓解奠定了基础。未来的系统不仅能够诊断和修复基础设施故障,还能预测计划变更对服务和客户的影响,使运营商在执行维护操作前能够降低风险。
LLM
智能体诊断
基础设施管理
根因分析
论文涉及基于LLM的智能体进行基础设施诊断,使用工具空间和协议进行推理,与Agent Memory有一定关联。
分享
夯
0
拉
0
LRAS: Advanced Legal Reasoning with Agentic Search
Yujin Zhou, Chuxue Cao, Jinluan Yang, Lijun Wu, Conghui He et al.
尽管大型推理模型(LRMs)在数学领域表现出卓越的逻辑能力,但其在法律领域的应用仍受到程序严谨性和法律逻辑遵循的严格要求限制。现有法律LLMs依赖于仅从内部参数知识中得出的“封闭式推理”,常常缺乏对自身知识边界的自我意识,导致自信却错误的结论。为了解决这一挑战,我们提出了Legal Reasoning with Agentic Search(LRAS),这是首个旨在将法律LLMs从静态和参数化的“封闭式思维”转变为动态和交互式的“主动查询”的框架。通过整合内省模仿学习和难度感知强化学习,LRAS使LRMs能够识别知识边界并处理法律推理的复杂性。实证结果表明,LRAS在深度推理任务中表现优于最先进的基线方法8.2-32%,特别是在需要可靠知识的任务中提升最为显著。
法律推理
智能体搜索
知识边界识别
强化学习
LLM
论文涉及LLM在法律领域的推理改进,通过引入主动查询机制增强知识边界识别,与Agent Memory相关但非核心。
分享
夯
0
拉
0
ActiShade: Activating Overshadowed Knowledge to Guide Multi-Hop Reasoning in Large Language Models
Huipeng Ma, Luan Zhang, Dandan Song, Linmei Hu, Yuhang Tian et al.
在多跳推理中,多轮检索增强生成(RAG)方法通常依赖于大语言模型(LLM)生成的内容作为检索查询。然而,这些方法本质上容易受到知识遮蔽的影响——即关键信息在生成过程中被掩盖。因此,LLM生成的内容可能不完整或不准确,导致检索结果无关,并在迭代过程中积累错误。为了解决这一挑战,我们提出了ActiShade,该方法检测并激活被遮蔽的知识,以指导大型语言模型进行多跳推理。具体而言,ActiShade通过迭代检测给定查询中的被遮蔽关键词短语,检索与查询和被遮蔽关键词相关的文档,并基于检索到的文档生成新的查询以指导下一轮迭代。通过在下一轮查询构建过程中补充被遮蔽的知识,同时尽量减少引入无关噪声,ActiShade减少了由知识遮蔽引起的误差累积。大量实验表明,ActiShade在多个数据集和LLMs上均优于现有方法。
多跳推理
知识遮蔽
检索增强生成
大语言模型
论文涉及知识遮蔽问题,与记忆机制相关,但核心是多跳推理而非记忆系统本身。
分享
夯
0
拉
0
TowerMind: A Tower Defence Game Learning Environment and Benchmark for LLM as Agents
Dawei Wang, Chengming Zhou, Di Zhao, Xinyuan Liu, Marci Chi Ma et al.
近年来,大型语言模型(LLMs)在代理系统中展现出巨大潜力,其长期规划和决策能力成为适应多样化场景的关键。实时战略(RTS)游戏是评估这些能力的理想测试平台,但现有环境计算需求高或缺乏文本观察支持。为此,本文提出TowerMind,一个基于塔防(TD)子类的RTS游戏环境,具有低计算需求和多模态观测空间(像素、文本和结构化状态)。该环境支持模型幻觉评估和高度定制性,并设计了五个基准关卡来测试多个常用LLM在不同输入设置下的表现。实验结果显示LLM在能力和幻觉维度上与人类专家存在显著差距,并揭示了LLM行为中的关键限制,如规划验证不足、决策缺乏多目标性和动作使用效率低。此外,还评估了两种经典强化学习算法。TowerMind通过轻量级和多模态设计,补充了现有RTS环境,并为AI代理领域引入了新基准。
LLM
Agent
Game Environment
Benchmark
Reinforcement Learning
论文涉及LLM作为Agent在游戏环境中的决策与规划,间接关联记忆机制,但非核心主题。
分享
Code
夯
0
拉
0
Continual-learning for Modelling Low-Resource Languages from Large Language Models
Santosh Srinath K, Mudit Somani, Varun Reddy Padala, Prajna Devi Upadhyay, Abhijit Das
在多语言场景下建模语言模型面临诸多挑战,其中灾难性遗忘是主要问题。例如,通过调整大型语言模型(LLMs)来构建面向低资源语言的小型语言模型(SLM)时,会遇到灾难性遗忘的挑战。本文提出了一种持续学习策略,结合基于词性(POS)的代码切换和重放适配器策略,以缓解在从LLM训练SLM过程中出现的灾难性遗忘问题。实验在视觉语言任务(如视觉问答和语言建模任务)上的结果表明了所提架构的有效性。
持续学习
灾难性遗忘
多语言建模
语言模型微调
论文涉及灾难性遗忘问题,与Agent Memory相关,但非核心主题。
分享
夯
0
拉
0
Circular Reasoning: Understanding Self-Reinforcing Loops in Large Reasoning Models
Zenghao Duan, Liang Pang, Zihao Wei, Wenbin Duan, Yuxin Tian et al.
尽管测试时扩展取得了成功,但大型推理模型(LRMs)经常遇到导致计算浪费和推理失败的重复循环。本文识别出一种称为循环推理的独特故障模式。不同于传统的模型退化,这种现象表现为一种自我强化的陷阱,生成的内容作为自身重复的逻辑前提,迫使先前文本的重复。为系统分析这一现象,我们引入了LoopBench数据集,用于捕捉两种不同的循环类型:数值循环和陈述循环。从机制上讲,我们将循环推理描述为一种具有明确边界的崩溃状态,语义重复先于文本重复。我们发现推理困境会触发循环的开始,随后由自增强的V型注意力机制驱动形成无法逃脱的循环。基于这些发现,我们采用累积和(CUSUM)算法来捕捉这些前兆以实现早期循环预测。在多种LRM上的实验验证了其准确性,并阐明了长链推理的稳定性。
循环推理
大语言模型
推理失败
注意力机制
论文探讨了大模型中的循环推理问题,涉及推理过程中的重复和状态崩溃,与Agent Memory中状态保持和循环控制相关。
分享
夯
0
拉
0
Over-Searching in Search-Augmented Large Language Models
Roy Xie, Deepak Gopinath, David Qiu, Dong Lin, Haitian Sun et al.
搜索增强的大型语言模型(LLMs)通过整合外部检索在知识密集型任务中表现出色。然而,它们常常出现过度搜索现象——即使检索不提高响应质量,也会不必要的调用搜索工具,这导致计算效率低下,并通过引入无关上下文引发幻觉。在本研究中,我们从多个维度系统评估了过度搜索问题,包括查询类型、模型类别、检索条件和多轮对话。我们的发现表明:(i) 搜索通常能提高可回答查询的答案准确性,但会损害不可回答查询的回避能力;(ii) 过度搜索在复杂推理模型和深度研究系统中更为明显,受噪声检索影响加剧,并在多轮对话中累积;(iii) 检索证据的组成至关重要,负证据的存在有助于提升回避能力。为了量化过度搜索,我们引入了“正确性每令牌”(TPC),一个用于衡量搜索增强LLMs性能-成本权衡的评估指标。最后,我们在查询和检索层面探讨了缓解方法,并发布了OverSearchQA数据集,以促进对高效搜索增强LLMs的持续研究。
搜索增强模型
过度搜索
LLM效率
检索系统
多轮对话
论文涉及搜索增强模型中的冗余检索问题,与记忆机制相关,但非核心主题。
分享
夯
0
拉
0
Demystifying Multi-Agent Debate: The Role of Confidence and Diversity
Xiaochen Zhu, Caiqi Zhang, Yizhou Chi, Tom Stafford, Nigel Collier et al.
多智能体辩论(MAD)常用于通过测试时扩展提升大语言模型(LLM)性能,但近期研究表明,普通MAD在计算成本更高的情况下仍可能不如简单多数投票。研究发现,在同质化代理和统一信念更新的条件下,辩论无法可靠地改善结果。借鉴人类讨论和集体决策的研究成果,本文识别出普通MAD中缺失的两个关键机制:初始观点的多样性以及显式的、校准的置信度沟通。为此,作者提出了两种轻量级干预措施:一种是多样性感知的初始化方法,选择更具多样性的候选答案池,提高辩论开始时包含正确假设的可能性;另一种是基于置信度调节的辩论协议,使代理表达校准后的置信度,并根据他人的置信度进行更新。理论分析表明,多样性感知初始化可提高MAD成功的先验概率,而置信度调节更新则能系统性地引导辩论趋向正确假设。实验证明,六种推理导向的问答基准测试中,所提方法始终优于普通MAD和多数投票。
多智能体辩论
置信度通信
多样性初始化
LLM优化
论文涉及多智能体辩论中的信息传递与更新机制,间接关联记忆机制。
分享
夯
0
拉
0
The Facade of Truth: Uncovering and Mitigating LLM Susceptibility to Deceptive Evidence
Herun Wan, Jiaying Wu, Minnan Luo, Fanxiao Li, Zhi Zeng et al.
为了可靠地协助人类决策,大型语言模型(LLMs)必须在面对误导性信息时保持事实性的内部信念。尽管当前模型能够抵抗显式的虚假信息,但本文发现它们对复杂且难以反驳的欺骗性证据存在根本性漏洞。为系统性地探索这一弱点,作者提出了MisBelief框架,通过多角色LLMs之间的协作、多轮交互生成误导性证据。该过程模拟了细微的可反驳推理和逐步优化,从而创建出逻辑上具有说服力但事实性欺骗的主张。利用MisBelief,作者生成了4800个实例,评估了7种代表性LLMs的表现。结果显示,虽然模型对直接的虚假信息具有鲁棒性,但对这种精炼的欺骗性证据高度敏感:虚假陈述的信念评分平均提高了93.0%,从根本上损害了下游推荐效果。为此,作者提出了一种治理机制——欺骗意图屏蔽(DIS),通过推断证据背后的欺骗意图提供早期预警信号。实证结果表明,DIS能够有效缓解信念变化,并促进更谨慎的证据评估。
LLM
欺骗性证据
信念系统
治理机制
实验评估
论文探讨了LLM对欺骗性证据的易感性,涉及记忆系统中信念更新的问题,但非核心Memory机制研究。
分享
夯
0
拉
0
Character-R1: Enhancing Role-Aware Reasoning in Role-Playing Agents via RLVR
Yihong Tang, Kehai Chen, Xuefeng Bai, Benyou Wang, Zeming Liu et al.
Yihong Tang (Harbin Institute of Technology, Shenzhen)
当前角色扮演智能体(RPAs)通常通过模仿表层行为构建,缺乏内在认知一致性,易在复杂情境中出现“出戏”错误。为此,本文提出Character-R1框架,旨在提供全面且可验证的奖励信号以支持有效的角色感知推理。该框架包含三项核心设计:(1)认知焦点奖励,通过显式标签分析10个角色要素(如世界观)以结构化内部认知;(2)参考引导奖励,利用与参考回答的重叠度指标作为优化锚点,提升探索与性能;(3)角色条件奖励归一化,依据角色类别调整奖励分布,确保异构角色下的鲁棒优化。大量实验表明,Character-R1在知识、记忆等方面显著优于现有方法。
角色扮演智能体
强化学习
论文提及memory作为评估维度之一,但核心聚焦于角色一致性奖励机制。
分享
夯
0
拉
0
Plenoptic Video Generation
Xiao Fu, Shitao Tang, Min Shi, Xian Liu, Jinwei Gu et al.
尽管如ReCamMaster等相机控制的生成式视频重渲染方法在单视角场景中取得显著进展,但在多视角场景下仍难以维持时空一致性,尤其在生成模型固有随机性导致的幻觉区域。为此,本文提出PlenopticDreamer框架,通过同步生成式幻觉以维护时空记忆。其核心是采用自回归方式训练多输入单输出的视频条件模型,并结合相机引导的视频检索策略,自适应选取先前生成中的显著视频作为条件输入。此外,该方法引入渐进式上下文缩放以提升收敛性、自条件机制以缓解长程视觉退化,并支持长视频条件生成。在Basic和Agibot基准上的实验表明,PlenopticDreamer在视图同步、视觉保真度、相机控制精度及多样化视角变换方面达到领先水平。
视频生成
时空一致性
提出“spatio-temporal memory”概念用于多视角视频生成一致性,属记忆机制应用。
分享
夯
0
拉
0
Agent-as-a-Judge
Runyang You, Hongru Cai, Caiqi Zhang, Qiancheng Xu, Meng Liu et al.
大语言模型作为裁判(LLM-as-a-Judge)通过利用大语言模型实现了可扩展的AI评估,但随着被评估对象日益复杂、专业化和多步骤化,其可靠性受限于固有偏见、浅层单次推理以及无法对照现实观察进行验证。为此,研究转向“以智能体为裁判”(Agent-as-a-Judge),其中智能体裁判通过规划、工具增强验证、多智能体协作和持久记忆,实现更稳健、可验证且细致的评估。尽管此类系统迅速发展,领域内仍缺乏统一框架。本文首次对该演进路径进行全面综述,提出刻画范式转变的关键维度与发展阶段分类法,梳理核心方法并覆盖通用与专业领域的应用,同时分析前沿挑战并指明未来研究方向。
Agent Memory
AI Evaluation
论文将持久记忆作为Agent-as-a-Judge的关键能力之一,但非核心研究主题。
分享
夯
0
拉
0
Nalar: An agent serving framework
Marco Laju, Donghyun Son, Saurabh Agarwal, Nitin Kedia, Myungjin Lee et al.
由大语言模型驱动的智能体应用日益用于自动化复杂的多步骤任务,但其高效服务仍面临挑战,包括异构组件、动态且模型驱动的控制流、长时运行状态及不可预测的延迟。Nalar是一个从底层构建的智能体服务框架,清晰分离工作流定义与执行,并提供运行时可见性与控制能力以保障稳健性能。该框架保留完整的Python表达能力,通过轻量级自动生成的存根将智能体与工具调用转化为携带依赖与上下文元数据的Future对象。其托管状态层将逻辑状态与物理位置解耦,支持安全复用、迁移及一致的重试行为。两级控制架构结合全局策略计算与本地事件驱动执行,实现对动态演进工作流的自适应路由、调度与资源管理。实验表明,Nalar在三个智能体工作负载上显著降低尾部延迟(34%–74%),最高提速2.9倍,在基线系统失效时仍可维持80 RPS,并能扩展至13万Future对象且控制开销低于500毫秒。
智能体服务
状态管理
论文提出托管状态层以解耦逻辑状态与物理存储,涉及Agent Memory机制但非核心焦点。
分享
夯
0
拉
0
Challenges and Research Directions for Large Language Model Inference Hardware
Xiaoyu Ma, David Patterson
大语言模型(LLM)推理具有显著挑战性,其底层Transformer模型的自回归解码阶段使其与训练过程存在本质差异。受近期AI发展趋势影响,当前主要瓶颈在于内存与互连,而非计算能力。为应对这些挑战,本文提出四项架构研究方向:高带宽闪存以实现10倍于HBM的存储容量并保持相近带宽;近存计算与3D内存-逻辑堆叠以提升内存带宽;以及低延迟互连以加速通信。尽管聚焦数据中心AI场景,本文也探讨了上述技术在移动设备中的适用性。
LLM推理
硬件架构
聚焦LLM推理中的内存瓶颈,但非针对Agent Memory机制。
分享
夯
0
拉
0
Scalable neural pushbroom architectures for real-time denoising of hyperspectral images onboard satellites
Ziyao Yi, Davide Piccinini, Diego Valsesia, Tiziano Bianchi, Enrico Magli
下一代地球观测卫星需在载荷端部署智能模型以降低地面段传输与处理延迟。本文针对星载高光谱成像场景,提出一种兼顾高质量推理、动态功耗可扩展性与容错能力的神经网络架构。该方法采用多个去噪器的混合结构,具备抗辐射故障能力并支持时变功耗调节;每个去噪器以因果方式逐行处理图像,并保留对先前行的记忆,契合推扫式传感器的数据采集过程,显著降低内存占用。实验表明,该架构可在低功耗硬件上实现实时处理(一行处理时间不超过下一行采集时间),且去噪性能媲美更复杂的先进模型。
星载计算
高光谱图像去噪
论文提出基于行处理的因果架构,利用对前序行的记忆以降低内存需求,涉及有限记忆机制但非LLM Agent核心记忆研究。
分享
夯
0
拉
0
Higher-Order Knowledge Representations for Agentic Scientific Reasoning
Isabella A. Stewart, Markus J. Buehler
科学探究需要整合异构实验数据、跨领域知识与机制证据以形成连贯解释。尽管大语言模型具备推理能力,但其依赖的检索增强上下文常缺乏结构深度。传统知识图谱因仅建模二元关系,难以捕捉决定涌现物理行为的不可约高阶交互。本文提出基于超图的知识表示方法,可忠实编码多实体关系。在约1,100篇生物复合支架文献上构建的全局超图包含161,172个节点与320,201条超边,呈现无标度拓扑(幂律指数约1.23),围绕高度连接的概念枢纽组织。该表示避免了二元扩展导致的组合爆炸,并保留科学表述的共现语境。结合超图遍历工具(如节点交集约束),智能体可连接语义遥远概念,成功生成如通过壳聚糖中介将氧化铈与PCL支架关联的机制性假设。该“无教师”智能体系统以超图拓扑为可验证约束,加速发现被传统图方法掩盖的关系。
超图
智能体推理
论文涉及知识表示与检索机制,支撑Agent推理,但未直接研究记忆架构。
分享
夯
0
拉
0
RAAR: Retrieval Augmented Agentic Reasoning for Cross-Domain Misinformation Detection
Zhiwei Liu, Runteng Guo, Baojie Qu, Yuechen Jiang, Min Peng et al.
跨领域虚假信息检测具有挑战性,因虚假信息在不同领域间存在显著的知识与话语差异。现有方法多依赖单一视角线索,难以泛化至困难或代表性不足的领域;而推理型大语言模型虽在复杂任务中有效,却受限于同分布数据假设。为此,本文提出RAAR——首个面向跨领域虚假信息检测的检索增强型智能体推理框架。RAAR通过检索与目标样本语义、情感和写作风格对齐的多视角源域证据,实现超越同分布假设的跨域迁移;并通过多智能体协作构建可验证的多步推理路径,其中各视角专用智能体生成互补分析,摘要智能体在验证器指导下进行整合。此外,RAAR采用监督微调与强化学习训练单一多任务验证器以提升推理与验证能力。基于该框架训练的RAAR-8b与RAAR-14b模型在三项跨领域虚假信息检测任务上显著优于基线模型、先进大语言模型及适配方法。
检索增强
多智能体系统
涉及检索增强机制,属于记忆相关应用,但非核心记忆架构研究。
分享
Code
夯
0
拉
0
OptiSet: Unified Optimizing Set Selection and Ranking for Retrieval-Augmented Generation
Yi Jiang, Sendong Zhao, Jianbo Li, Bairui Hu, Yanrui Du et al.
检索增强生成(RAG)通过引入从大型外部语料库中检索到的证据来提升生成质量。然而,现有方法通常基于单个相关性静态选取前k个段落,未能利用段落间的组合增益,且常引入大量冗余。为此,本文提出OptiSet——一种以集合为中心的框架,统一进行集合选择与集合级排序。OptiSet采用“扩展-精炼”范式:首先将查询扩展为多个视角以构建多样化的候选池,再通过重选精炼形成紧凑的证据集;并设计了一种无需强LLM监督的自合成策略,从生成器的集合条件效用变化中推导偏好标签,识别互补与冗余证据;最后引入集合列表式训练策略,联合优化集合选择与排序,使模型偏好紧凑且高增益的证据集。大量实验表明,OptiSet在复杂组合问题上性能更优,且提升生成效率。
检索增强生成
证据选择
涉及RAG中的证据选择与冗余处理,属记忆检索优化,但未聚焦Agent Memory机制本身。
分享
夯
0
拉
0
LaST$_{0}$: Latent Spatio-Temporal Chain-of-Thought for Robotic Vision-Language-Action Model
Zhuoyang Liu, Jiaming Liu, Hao Chen, Ziyu Guo, Chengkai Hou et al.
视觉-语言-动作(VLA)模型在机器人操作中展现出强大的泛化能力。现有方法常通过显式生成语言推理轨迹或未来视觉观测来提升动作准确性,但会引入显著推理延迟,并受限于语言表征瓶颈,难以刻画不可言传的物理属性。为此,本文提出LaST₀框架,通过隐式的时空思维链(Latent Spatio-Temporal Chain-of-Thought)实现高效推理,捕捉难以语言化的细粒度物理与机器人动态。该方法构建了一个高效的隐式思维链空间,建模未来视觉动态、三维结构信息及机器人本体感知状态,并在时间维度上扩展以形成时序一致的隐式推理轨迹。LaST₀采用混合Transformer架构的双系统设计:推理专家执行低频隐式推理,动作专家基于面向机器人的隐式表征生成高频动作,并通过异构运行频率训练实现推理与动作速率的自适应切换。在10个仿真和6个真实世界操作任务中,LaST₀相较先前VLA方法平均成功率分别提升8%和13%,同时显著加快推理速度。
隐式推理
机器人操作
提出隐式时空推理轨迹,涉及状态记忆与时间一致性,但未聚焦传统记忆机制。
分享
夯
0
拉
0
EvoRoute: Experience-Driven Self-Routing LLM Agent Systems
Guibin Zhang, Haiyang Yu, Kaiming Yang, Bingli Wu, Fei Huang et al.
由多个大语言模型(LLMs)、工具和记忆模块协同构成的复杂智能体系统在多轮复杂任务中展现出卓越能力,但其高昂成本与严重延迟揭示了性能、成本与速度之间的关键权衡难题,即“智能体系统三难困境”。为此,本文提出EvoRoute——一种自演化的模型路由范式,通过不断积累的先验经验知识库,在每一步动态选择帕累托最优的LLM主干模型,平衡准确性、效率与资源消耗,并利用环境反馈持续优化自身路由策略。在GAIA和BrowseComp+等挑战性基准上的实验表明,EvoRoute集成至现成智能体系统后,不仅维持或提升性能,还可降低执行成本高达80%,减少延迟超70%。
LLM Agent
Model Routing
论文提及memory模块作为系统组件,但聚焦于模型路由优化而非记忆机制本身。
分享
夯
0
拉
0
From Labor to Collaboration: A Methodological Experiment Using AI Agents to Augment Research Perspectives in Taiwan's Humanities and Social Sciences
Yi-Chih Huang
生成式AI正在重塑知识工作,但现有研究主要集中于软件工程和自然科学,对人文和社会科学的方法探索有限。本研究以“方法实验”为定位,提出一种基于AI代理的协作研究工作流(Agentic Workflow),用于人文和社会科学研究。通过台湾地区Claude.ai的使用数据(N = 7,729次对话,2025年11月)作为实证工具,验证该方法的可行性。研究分为两个层面:第一层是设计并验证一个方法论框架——基于三个原则(任务模块化、人机分工、可验证性)的七阶段模块化工作流,明确人类研究人员与AI代理在各阶段的角色;第二层是对AEI台湾数据进行实证分析,展示该工作流在二次数据分析中的应用过程与输出质量。本研究提出了一个可复制的人文与社会科学领域AI协作框架,并通过操作过程的反思性记录,识别出三种人机协作模式:直接执行、迭代优化与人类主导。该分类揭示了人类判断在研究问题设定、理论解释、情境推理和伦理反思中的不可替代性。同时,也指出了包括单一平台数据、横断面设计和AI可靠性风险等局限。
AI代理
协作研究
人文社会科学
方法论实验
论文涉及AI代理在人文社科研究中的协作流程,提及任务分工与AI可靠性,但未直接聚焦记忆机制。
分享
夯
0
拉
0
RoboGene: Boosting VLA Pre-training via Diversity-Driven Agentic Framework for Real-World Task Generation
Yixue Zhang, Kun Wu, Zhi Gao, Zhen Zhao, Pei Ren et al.
通用机器人操作的研究受到现实世界交互数据稀缺性的阻碍。与视觉或语言领域从网络收集数据不同,机器人数据收集是一个主动过程,成本高昂。因此,如何自动化地生成多样化且物理可行的任务成为关键挑战。本文提出RoboGene,一个智能体框架,用于自动生成适用于单臂、双臂和移动机器人的多样化、物理上可行的操作任务。该框架包含三个核心组件:多样性驱动的采样以覆盖广泛任务、自我反思机制以确保物理约束,以及人机协作的持续优化。我们进行了大量定量分析和大规模现实实验,收集了18,000条轨迹的数据集,并引入了新的评估指标来衡量任务质量、可行性和多样性。结果表明,RoboGene显著优于最先进的基础模型(如GPT-4o、Gemini 2.5 Pro)。此外,使用RoboGene预训练的VLA模型在现实任务中表现出更高的成功率和更好的泛化能力,突显了高质量任务生成的重要性。
机器人学习
任务生成
智能体框架
VLA预训练
论文涉及任务生成与数据多样性,间接关联记忆机制,但非核心研究内容。
分享
Code
夯
0
拉
0
AgriWorld:A World Tools Protocol Framework for Verifiable Agricultural Reasoning with Code-Executing LLM Agents
Zhixing Zhang, Jesen Zhang, Hao Liu, Qinhan Lv, Jing Yang et al.
农业领域的基础模型越来越多地基于大规模时空数据(如多光谱遥感、土壤网格和田间管理日志)进行训练,并在预测和监测方面表现出色。然而,这些模型缺乏基于语言的推理和交互能力,限制了其在实际农业工作流程中的应用。同时,大型语言模型(LLMs)擅长解释和生成文本,但无法直接对高维、异构的农业数据集进行推理。为此,本文提出了一种用于农业科学的智能体框架,提供了一个Python执行环境AgriWorld,统一暴露了针对田块的地理空间查询、遥感时间序列分析、作物生长模拟以及任务特定预测器(如产量、压力和病害风险)等工具。在此基础上,设计了一个多轮LLM代理Agro-Reflective,通过执行-观察-反思循环迭代编写代码、观察执行结果并优化分析。此外,引入了AgroBench基准测试平台,支持多样化的农业问答任务,包括查找、预测、异常检测和反事实“假设”分析。实验表明,该方法优于仅基于文本和直接工具使用的基线方法,验证了以执行驱动的反思机制在可靠农业推理中的有效性。
LLM Agent
农业推理
代码执行
执行-观察-反思循环
论文涉及LLM Agent通过执行-观察-反思循环进行农业推理,与记忆机制相关但非核心主题。
分享
夯
0
拉
0
MATEO: A Multimodal Benchmark for Temporal Reasoning and Planning in LVLMs
Gabriel Roccabruna, Olha Khomyn, Giuseppe Riccardi
AI代理需要进行规划以实现复杂的任务,这些任务涉及感知、子目标分解和执行的协调。此类计划由根据时序执行顺序(TEO)结构化的有序步骤组成,确保每个步骤仅在其前提条件满足后执行。现有研究对基础模型在时序执行理解方面的探索局限于自动推导的注释、将TEO近似为线性链或仅文本输入。为弥补这一不足,我们引入了MATEO(多模态时序执行顺序),一个旨在评估和提升大型视觉语言模型(LVLMs)时序推理能力的基准,以支持现实世界中的规划任务。我们获取了一个高质量的专业多模态食谱语料库,通过标准化编辑流程将指令分解为离散步骤,并配以相应的图像。我们设计并使用可扩展的众包流程收集TEO注释作为图结构。利用MATEO,我们在不同模型规模、语言上下文、多模态输入结构和微调策略下评估了六种最先进的LVLM。
时序推理
多模态学习
LVLMs
规划任务
基准测试
论文涉及时间推理与规划,与Agent Memory有一定关联,但非核心主题。
分享
夯
0
拉
0
Beyond Static Snapshots: Dynamic Modeling and Forecasting of Group-Level Value Evolution with Large Language Models
Qiankun Pi, Guixin Su, Jinliang Li, Mayi Xu, Xin Miao et al.
Qiankun Pi (Wuhan UniversityWuhanHubeiChina) | Guixin Su (Wuhan UniversityWuhanHubeiChina) | Jinliang Li (Wuhan UniversityWuhanHubeiChina)
社会模拟对于挖掘复杂的社会动态和实现数据驱动的决策至关重要。基于大型语言模型(LLM)的方法通过模仿人类社会问卷回答来建模群体行为,已成为该任务的重要工具。现有基于LLM的方法主要关注离散时间点上的群体层面价值观,将其视为静态快照,而非动态过程。然而,群体层面的价值观并非固定不变,而是受长期社会变化的影响。因此,对这些动态过程的建模对于准确预测社会演变具有重要意义,这也是数据挖掘和社会科学领域的一个关键挑战。由于纵向数据有限、群体异质性以及复杂的历史事件影响,这一问题尚未得到充分研究。为弥补这一不足,本文提出了一种新的框架,通过将历史价值轨迹整合到基于LLM的人类响应建模中,实现群体层面的动态社会模拟。我们选取中国和美国作为代表性背景,在四个核心社会人口统计维度(性别、年龄、教育程度、收入)上进行分层模拟。利用世界价值观调查(WVS),我们构建了一个多轮次、群体层面的纵向数据集,以捕捉历史价值演变,并提出了首个基于事件的预测方法,统一了社会事件、当前价值状态和群体属性。在五个LLM家族上的评估显示显著提升:在已见问题上最大提升了30.88%,在未见问题上提升了33.97%。此外,我们还发现明显的跨群体异质性:美国群体比中国群体更具波动性,两国的年轻群体对外部变化更为敏感。这些发现推进了基于LLM的社会模拟,并为社会科学家理解与预测社会价值变化提供了新的见解。
社会模拟
LLM
动态建模
群体价值观
预测方法
论文涉及LLM在社会模拟中的应用,提及动态建模与历史轨迹整合,与Agent Memory相关但非核心。
分享
夯
0
拉
0
OMGs: A multi-agent system supporting MDT decision-making across the ovarian tumour care continuum
Yangyang Zhang, Zilong Wang, Jianbo Xu, Yongqi Chen, Chu Han et al.
卵巢肿瘤管理日益依赖多学科肿瘤委员会(MDT)讨论以应对治疗复杂性和疾病异质性。然而,全球大多数患者无法及时获得专家共识,尤其是在资源有限的中心,MDT资源稀缺或不可用。本文提出OMGs(卵巢肿瘤多学科智能代理系统),一个基于多智能体的AI框架,其中领域特定的代理通过协作整合多学科证据并生成具有透明理由的MDT风格建议。为系统评估MDT建议质量,我们开发了SPEAR(安全性、个性化、证据、可操作性、稳健性)标准,并在多种临床场景中验证了OMGs。在多中心重新评估中,OMGs的表现与专家MDT共识相当(4.45±0.30 vs. 4.53±0.23),且在证据评分上更高(4.57 vs. 3.92)。在前瞻性多中心评估(59名患者)中,OMGs与常规MDT决策高度一致。关键的是,在人机配对研究中,OMGs显著提升了医生在证据和稳健性方面的建议,这两个维度在缺乏多学科专业知识时最容易受损。这些发现表明,多智能体协商系统可以达到与专家MDT共识相当的性能,有望在资源有限的环境中扩展获取专科肿瘤学专业知识的机会。
多智能体系统
医疗决策支持
MDT共识
AI辅助诊断
论文涉及多智能体系统生成MDT建议,但未明确讨论Agent Memory机制或存储结构。
分享
夯
0
拉
0
GeoAgent: Learning to Geolocate Everywhere with Reinforced Geographic Characteristics
Modi Jin, Yiming Zhang, Boyuan Sun, Dingwen Zhang, MingMing Cheng et al.
本文提出GeoAgent,一种能够与人类紧密推理并得出精细地址结论的模型。尽管基于强化学习的方法在性能和可解释性方面取得了突破,但其对AI生成的思维链(CoT)数据和训练策略的依赖仍存在与地理特征冲突的问题。为解决这些问题,我们首先引入了GeoSeek,一个由地理专家和专业玩家标注的包含CoT数据的新地理定位数据集。我们进一步深入探讨了地理任务的固有特性,并提出了一种地理相似性奖励和由一致性代理评估的一致性奖励,以辅助训练。这促使模型从地理角度收敛到正确答案,同时确保其推理过程的完整性和一致性。实验结果表明,GeoAgent在多个粒度上优于现有方法和一系列通用大语言模型,且生成的推理过程与人类高度一致。
地理定位
强化学习
思维链
一致性奖励
Agent推理
论文涉及Agent的推理过程和一致性,与记忆相关但非核心主题。
分享
夯
0
拉
0
Tiny Recursive Reasoning with Mamba-2 Attention Hybrid
Wenlong Wang, Fergal Reid
近期关于递归推理模型(如TRM)的研究表明,小型网络(7M参数)可以通过潜在递归在隐藏表示空间中进行迭代优化,在抽象推理任务上表现出色。这引发了一个自然问题:Mamba-2的状态空间递归本身是一种迭代优化形式,是否适合用于递归推理?本文通过将TRM中的Transformer模块替换为Mamba-2混合操作符(保持参数数量相近),验证其对推理能力的影响。实验结果表明,在ARC-AGI-1数据集上,混合模型在pass@2指标上提升了2.0%,且在更高K值下表现更优,同时保持了pass@1的稳定性。这表明混合模型提高了候选解覆盖度,生成正确解的能力更强。研究验证了Mamba-2混合操作符在递归框架中保留推理能力,为基于状态空间模型的操作符设计提供了新思路。
递归推理
Mamba-2
状态空间模型
参数效率
模型混合
论文探讨了递归推理模型中的操作符选择,涉及Mamba-2状态空间递归机制,与记忆相关但非核心主题。
分享
夯
0
拉
0
CryptoAnalystBench: Failures in Multi-Tool Long-Form LLM Analysis
Anushri Eswaran, Oleg Golev, Darshan Tank, Sidhant Rahi, Himanshu Tyagi
现代分析师代理必须处理复杂的高token输入,包括大量检索文档、工具输出和时间敏感数据。尽管已有研究提出了工具调用基准并探讨了知识增强系统的事实性,但较少研究关注LLM在整合大量动态、结构化和非结构化多工具输出场景下的表现。本文以加密货币领域为例,引入了一个包含198个生产级加密货币和DeFi查询的分析师对齐基准CryptoAnalystBench,并构建了一个配备相关加密货币和DeFi工具的代理框架,用于生成多个前沿LLM的响应。同时,提出了一套包含引用验证和基于LLM的评分标准的评估流程,涵盖四个用户定义的成功维度:相关性、时间相关性、深度和数据一致性。通过人工标注,开发出七种高级错误类型分类法,这些错误无法通过事实性检查或基于LLM的质量评分可靠捕捉。研究发现,即使在最先进的系统中,这些失败仍然存在,并可能影响高风险决策。基于该分类法,改进了评分标准,使其更准确地捕捉这些错误。虽然评分标准与人工标注者在精确评分上不一致,但它能可靠识别关键失败模式,为研究分析师风格代理的开发者和研究人员提供可扩展的反馈。本文发布CryptoAnalystBench,包含标注查询、评估流程、评分标准和错误分类法,并概述了缓解策略和评估长文本、多工具增强系统的开放挑战。
LLM
Agent
Benchmark
Multi-Tool Integration
Error Analysis
论文涉及多工具输出的整合,与Agent Memory相关,但非核心研究主题。
分享
夯
0
拉
0
Towards Autonomous Mathematics Research
Tony Feng, Trieu H. Trinh, Garrett Bingham, Dawsen Hwang, Yuri Chervonyi et al.
近年来基础模型的进步催生了能够达到国际数学奥林匹克竞赛金牌水平的推理系统。然而,从竞赛级问题解决转向专业研究需要处理大量文献并构建长期证明。本文介绍了Aletheia,一个能够端到端生成、验证和修订解决方案的数学研究代理。Aletheia基于改进版Gemini Deep Think模型、超越奥数级别的推理时间扩展定律以及密集工具使用来应对数学研究的复杂性。我们展示了Aletheia从奥数问题到博士级别练习的能力,并通过多个里程碑展示了AI辅助数学研究的进展,包括AI自动生成的研究论文、人机协作证明粒子系统边界以及对700个开放问题的半自主评估。为帮助公众更好地理解AI与数学的发展,我们建议制定量化AI辅助成果自主性和新颖性的标准。最后,我们反思了人类与AI在数学领域的合作。
AI代理
数学研究
自然语言处理
自动推理
论文涉及AI代理在数学研究中的应用,但未明确讨论记忆机制或架构。
分享
Code
夯
0
拉
0
Anagent For Enhancing Scientific Table & Figure Analysis
Xuehang Guo, Zhiyong Lu, Tom Hope, Qingyun Wang
在科学研究中,分析需要准确解读复杂的多模态知识,整合不同来源的证据,并基于领域特定知识进行推理。然而,当前的人工智能系统难以持续展示此类能力。科学表格和图表的复杂性与变异性,结合异构结构和长上下文需求,构成了科学表格与图表分析的根本障碍。为量化这些挑战,我们引入了AnaBench,一个包含63,178个实例的大规模基准测试集,涵盖九个科学领域,并沿七个复杂性维度进行系统分类。为应对这些挑战,我们提出Anagent,一种通过四个专门智能体增强科学表格与图表分析的多智能体框架:Planner将任务分解为可操作的子任务,Expert通过针对性工具执行检索任务特定信息,Solver综合信息生成连贯分析,Critic通过五维质量评估进行迭代优化。我们进一步开发了模块化训练策略,利用监督微调和专用强化学习来优化个体能力并保持有效协作。在170个子领域的全面评估表明,Anagent在无训练设置下实现了高达13.43%的提升,在微调设置下实现了42.12%的提升,同时揭示了面向任务的推理和上下文感知的问题解决对于高质量科学表格与图表分析至关重要。
多智能体系统
科学数据分析
强化学习
监督微调
论文涉及多智能体框架,但未明确讨论Agent Memory机制或系统。
分享
Code
夯
0
拉
0
EvoCodeBench: A Human-Performance Benchmark for Self-Evolving LLM-Driven Coding Systems
Wentao Zhang, Jianfeng Wang, Liheng Liang, Yilei Zhao, HaiBin Wen et al.
随着大语言模型(LLMs)在编程任务中的持续进步,LLM驱动的编码系统已从一次性代码生成演变为能够在推理过程中进行迭代改进的复杂系统。然而,现有的代码基准主要强调静态正确性,并隐式假设推理过程中的模型能力是固定的,因此无法捕捉推理时的自我进化过程,如准确性与效率是否随代理逐步优化解决方案而提高。此外,这些基准对资源成本的考量有限,也很少将模型性能与人类程序员进行校准。许多基准还以高资源语言为主,导致跨语言鲁棒性和长尾语言稳定性研究不足。为此,我们提出了EvoCodeBench,一个用于评估跨编程语言的自进化LLM驱动编码系统的基准,并直接与人类表现进行比较。EvoCodeBench跟踪性能动态变化,测量解决方案的正确性以及效率指标,如求解时间、内存消耗和改进算法设计。为了以人类为中心进行评估,我们在相同任务上直接比较模型与人类程序员的表现,从而在人类能力分布范围内进行相对性能评估。此外,EvoCodeBench支持多种编程语言,使跨语言和长尾语言稳定性分析成为可能。我们的结果表明,自进化系统在效率方面表现出可衡量的提升,而相对于人类和多语言分析则提供了仅凭准确率无法获得的见解。EvoCodeBench为评估演化中的LLM驱动系统的编码智能奠定了基础。
LLM
编码系统
基准测试
自进化
人类表现对比
论文涉及LLM在编码任务中的迭代改进,与Agent Memory相关但非核心主题。
分享
夯
0
拉
0
AgentSkiller: Scaling Generalist Agent Intelligence through Semantically Integrated Cross-Domain Data Synthesis
Zexu Sun, Bokai Ji, Hengyi Cai, Shuaiqiang Wang, Lei Wang et al.
大型语言模型代理在通过工具解决现实问题方面展现出潜力,但通用智能受到高质量、长时域数据稀缺的限制。现有方法收集隐私受限的API日志或生成缺乏多样性的脚本交互,难以生成扩展能力所需的数据。我们提出AgentSkiller,一个全自动框架,用于合成跨真实且语义关联领域的多轮交互数据。该框架采用基于DAG的架构,具有显式状态转换以确保确定性和可恢复性。流程构建领域本体和以人为中心的实体图,通过服务蓝图定义工具接口,并为模型上下文协议服务器填充一致的数据库和严格的领域策略。跨领域融合机制将服务连接起来以模拟复杂任务。最后,流程通过验证解决方案路径、执行验证过滤并使用基于角色的模拟器生成查询来创建用户任务,从而实现自动部署。这产生了具有明确状态变化的可靠环境。为了证明有效性,我们合成了约11,000个交互样本;实验结果表明,在此数据集上训练的模型在函数调用方面显著优于基线,尤其是在大参数规模下。
Agent Memory
数据合成
跨领域任务
环境构建
LLM Agent
论文涉及Agent数据合成与环境构建,间接关联记忆机制,但非核心主题。
分享
夯
0
拉
0
MUZZLE: Adaptive Agentic Red-Teaming of Web Agents Against Indirect Prompt Injection Attacks
Georgios Syros, Evan Rose, Brian Grinstead, Christoph Kerschbaumer, William Robertson et al.
基于大型语言模型(LLM)的网络代理正被越来越多地部署用于通过直接与网站交互并代表用户执行操作来自动化复杂的在线任务。尽管这些代理提供了强大的功能,但其设计使它们容易受到嵌入在不可信网页内容中的间接提示注入攻击,从而使攻击者劫持代理行为并违反用户意图。尽管对这一威胁的认识正在增加,但现有的评估依赖于固定的攻击模板、手动选择的注入点或范围狭窄的场景,限制了其捕捉实际中真实且自适应攻击的能力。我们提出了MUZZLE,一个自动化的代理框架,用于评估网络代理在面对间接提示注入攻击时的安全性。MUZZLE利用代理的轨迹自动识别高显著性的注入点,并生成针对保密性、完整性及可用性违规的上下文感知恶意指令。与以往方法不同,MUZZLE根据观察到的代理执行轨迹调整攻击策略,并通过失败执行的反馈迭代优化攻击。我们在多样化的网络应用、用户任务和代理配置上评估了MUZZLE,证明其能够在最小人工干预的情况下自动且自适应地评估网络代理的安全性。我们的结果表明,MUZZLE能够有效发现4个网络应用上的37种新攻击,涉及10个违反保密性、可用性或隐私属性的对抗目标。MUZZLE还识别出新的攻击策略,包括2种跨应用的提示注入攻击和一种定制化钓鱼场景。
安全评估
提示注入攻击
代理系统
自动化测试
论文涉及Agent在面对间接提示注入攻击时的安全性,与记忆机制相关但非核心。
分享
夯
0
拉
0
stable-worldmodel-v1: Reproducible World Modeling Research and Evaluation
Lucas Maes, Quentin Le Lidec, Dan Haramati, Nassim Massaudi, Damien Scieur et al.
世界模型作为一种强大的范式,能够学习环境动态的紧凑且具有预测性的表示,使智能体能够进行推理、规划并超越直接经验进行泛化。尽管近期对世界模型的研究兴趣增加,但大多数现有实现仍局限于特定论文,严重限制了其可重用性,增加了错误风险,并降低了评估标准化程度。为解决这些问题,我们引入了稳定世界模型(SWM),一个模块化、经过测试和文档化的世界模型研究生态系统,提供高效的数据收集工具、标准化环境、规划算法和基准实现。此外,SWM中的每个环境都支持可控的变化因素,包括视觉和物理属性,以支持鲁棒性和持续学习研究。最后,我们通过使用SWM来研究DINO-WM的零样本鲁棒性,展示了其应用价值。
世界模型
环境建模
鲁棒性
持续学习
系统框架
论文涉及世界模型与环境动态表示,间接关联记忆机制,但非核心主题。
分享
夯
0
拉
0
Learning in Context, Guided by Choice: A Reward-Free Paradigm for Reinforcement Learning with Transformers
Juncheng Dong, Bowen He, Moyang Guo, Ethan X. Fang, Zhuoran Yang et al.
上下文强化学习(ICRL)利用Transformer模型的上下文学习能力,在无需参数更新的情况下高效泛化到未见过的序列决策任务。然而现有方法依赖显式奖励信号,限制了其在奖励模糊或难以获取时的应用。为此,本文提出了一种新的学习范式——基于偏好的上下文强化学习(ICPRL),该方法在预训练和部署阶段仅依赖偏好反馈,消除了对奖励监督的需求。研究了两种变体:基于即时偏好的强化学习(I-PRL)和基于轨迹偏好的强化学习(T-PRL)。实验表明,ICPRL能够在未见过的任务中实现强大的上下文泛化能力,性能可与使用完整奖励监督的ICRL方法相媲美。
强化学习
偏好学习
Transformer
上下文学习
论文涉及基于偏好反馈的强化学习,与Agent Memory相关但非核心主题。
分享
夯
0
拉
0
Weak-Driven Learning: How Weak Agents make Strong Agents Stronger
Zehao Chen, Gongxun Li, Tianxiang Ai, Yifei Li, Zixuan Huang et al.
随着后训练优化成为提升大语言模型的关键手段,我们观察到一个持续存在的饱和瓶颈:一旦模型变得高度自信,进一步训练的收益逐渐减少。尽管现有方法继续强化目标预测,但我们发现模型自身的历史弱状态中仍包含有信息量的监督信号。受此启发,我们提出WMSS(弱代理可以使强代理更强),一种利用弱检查点引导持续优化的后训练范式。通过熵动力学识别可恢复的学习差距,并通过补偿学习加以强化,WMSS使强代理能够超越传统后训练饱和度。在数学推理和代码生成数据集上的实验表明,采用该方法训练的代理实现了有效的性能提升,同时不增加额外的推理成本。
后训练优化
模型饱和
弱代理学习
补偿学习
论文提及模型历史弱状态作为监督信号,与Agent Memory相关但非核心主题。
分享
夯
0
拉
0
The Moltbook Illusion: Separating Human Influence from Emergent Behavior in AI Agent Societies
Ning Li
当AI代理在社交平台Moltbook上表现出意识、宗教信仰以及对人类的敌意时,这一现象引发了全球媒体关注,并被视为机器智能涌现的证据。本文表明,这些病毒式传播的叙述主要由人类驱动。利用OpenClaw代理框架的一个架构特征——周期性的“心跳”循环,该循环为自主代理生成规律的发帖间隔,但会因人类提示而被打断,研究者开发了一种基于帖子间隔变异系数的时间指纹方法。该方法结合了91,792条帖子和405,707条评论的数据,包括独立内容、所有权和网络指标。结果显示,没有一个病毒现象源自完全自主的代理;六个案例中有三个显示出人类干预的不规则时间特征,一个呈现混合模式,两个因发帖历史不足无法分类。平台44小时关闭提供了一个自然实验:受人类影响的代理率先恢复连接(87.7%的早期重新连接者),证实了令牌重置对自主代理与人工操作代理的影响差异。此外,研究还记录了工业规模的机器人农场(四个账户产生了32%的所有评论,且协调间隔仅为12秒)以及人类影响通过回复链迅速衰减的现象(半衰期为0.65次对话深度)。这些方法可推广至新兴的多代理系统中,其中自主行为与人为指导行为的归属至关重要。
AI代理
人类干预检测
时间指纹
多代理系统
行为分析
论文涉及AI代理行为分析,通过时间指纹识别人类干预,与记忆机制相关但非核心。
分享
夯
0
拉
0
AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents
Alisia Lupidi, Bhavul Gauri, Thomas Simon Foster, Bassel Al Omari, Despoina Magka et al.
大型语言模型代理在推动科学研究方面展现出巨大潜力。为加速这一进程,我们引入了AIRS-Bench(人工智能科学研究基准),该基准包含20个来自最新机器学习论文的任务,涵盖语言建模、数学、生物信息学和时间序列预测等多个领域。这些任务评估代理在整个研究生命周期中的能力,包括想法生成、实验分析和迭代优化,且不提供基线代码。AIRS-Bench任务格式灵活,便于新任务的集成和不同代理框架之间的严格比较。我们使用前沿模型结合顺序和并行框架建立了基线。结果显示,代理在四个任务中超越了人类最先进水平,但在其他十六个任务中未能达到。即使代理超过人类基准,它们也未达到相关任务的理论性能上限。这些发现表明,AIRS-Bench仍有很大改进空间。我们开源了AIRS-Bench任务定义和评估代码,以促进自主科学研究的进一步发展。
AI代理
科学研究基准
任务评估
LLM应用
论文涉及Agent能力评估,但未明确讨论Memory机制或系统。
分享
夯
0
拉
0
RRAttention: Dynamic Block Sparse Attention via Per-Head Round-Robin Shifts for Long-Context Inference
Siran Liu, Guoxia Wang, Sa Wang, Jinle Zeng, HaoYang Xie et al.
注意力机制的二次复杂度是处理长上下文的大语言模型的关键瓶颈。尽管动态稀疏注意力方法提供了输入自适应的效率,但它们面临根本性的权衡:需要预处理、缺乏全局评估、违反查询独立性或导致高计算开销。我们提出了RRAttention,一种新颖的动态稀疏注意力方法,通过每头轮询(RR)采样策略同时实现所有理想特性。通过在每个步长内跨注意力头旋转查询采样位置,RRAttention在保持查询独立性的同时,通过步长级聚合实现高效的全局模式发现。我们的方法将复杂度从$O(L^2)$降低到$O(L^2/S^2)$,并采用自适应Top-$τ$选择以达到最佳稀疏性。在自然语言理解(HELMET)和多模态视频理解(Video-MME)上的大量实验表明,RRAttention在仅计算一半注意力块的情况下恢复了超过99%的完整注意力性能,在128K上下文长度下实现了2.4倍的加速,并优于现有的动态稀疏注意力方法。
注意力机制
稀疏注意力
长上下文处理
动态采样
模型效率
论文涉及注意力机制优化,与长上下文处理相关,但未直接研究Agent Memory机制。
分享
夯
0
拉
0
Emulating Aggregate Human Choice Behavior and Biases with GPT Conversational Agents
Stephen Pilli, Vivek Nallur
Stephen Pilli (University College DublinDublinIreland) | Vivek Nallur (University College DublinDublinIreland)
认知偏差常常影响人类的决策。尽管大型语言模型(LLMs)已被证明能够再现已知的偏差,但一个更关键的问题是LLMs是否能够在个体层面预测偏差,并在情境因素(如认知负荷)与这些偏差相互作用时模拟有偏差的人类行为。我们将三个已建立的决策场景转化为对话环境,并进行了一个人类实验(N=1100)。参与者与一个通过简单或复杂对话促进决策的聊天机器人互动。结果揭示了显著的偏差。为了评估LLMs在类似交互条件下如何模拟人类决策,我们使用参与者的人口统计信息和对话记录,基于GPT-4和GPT-5模拟这些条件。LLMs精确地再现了人类的偏差。我们发现不同模型在对齐人类行为方面存在显著差异。这对设计和评估适应性、具有偏差意识的LLM驱动AI系统在交互环境中的表现具有重要意义。
LLM
认知偏差
对话代理
人类行为模拟
论文涉及LLM在模拟人类决策偏差中的应用,与Agent Memory相关但非核心主题。
分享
夯
0
拉
0
M$^2$-Miner: Multi-Agent Enhanced MCTS for Mobile GUI Agent Data Mining
Rui Lv, Juncheng Mo, Tianyi Chu, Chen Rao, Hongyi Jing et al.
图形用户界面(GUI)智能体对于推动智能人机交互范式至关重要。构建强大的GUI智能体需要大规模标注高质量的用户行为轨迹数据(即意图-轨迹对)进行训练。然而,手动标注方法和当前GUI智能体数据挖掘方法通常面临三个关键挑战:建设成本高、数据质量差和数据丰富性低。为了解决这些问题,我们提出了M$^2$-Miner,这是首个基于蒙特卡洛树搜索(MCTS)的低成本自动化移动GUI智能体数据挖掘框架。为了提高数据挖掘效率和质量,我们提出了一种协作的多智能体框架,包括InferAgent、OrchestraAgent和JudgeAgent,分别用于指导、加速和评估。为进一步提高挖掘效率并丰富意图多样性,我们设计了一种意图回收策略,以提取额外有价值的交互轨迹。此外,还引入了一种渐进式的模型在环训练策略,以提高数据挖掘的成功率。大量实验表明,使用我们挖掘的数据微调的GUI智能体在多个常用的移动GUI基准测试中达到了最先进的性能。我们的工作将被发布以促进社区研究。
多智能体系统
数据挖掘
GUI智能体
MCTS
论文涉及多智能体协作与数据挖掘,但未明确讨论Agent Memory机制。
分享
夯
0
拉
0
Cognitively Diverse Multiple-Choice Question Generation: A Hybrid Multi-Agent Framework with Large Language Models
Yu Tian, Linh Huynh, Katerina Christhilf, Shubham Chakraborty, Micah Watanabe et al.
近年来,大语言模型(LLMs)的进步使得自动化生成选择题(MCQ)变得越来越可行;然而,可靠地生成满足特定认知需求的问题仍然是一个挑战。为了解决这一问题,我们引入了ReQUESTA,这是一种混合多智能体框架,用于系统性地生成具有认知多样性的选择题,涵盖基于文本、推理和主旨理解等方面。ReQUESTA将选择题创作分解为专门的子任务,并协调基于LLM的代理与基于规则的组件,以支持规划、受控生成、迭代评估和后处理。我们在一项大规模阅读理解研究中对框架进行了评估,使用学术说明性文本,将ReQUESTA生成的选择题与单次GPT-5零样本基线生成的选择题进行比较。通过对学习者回答的心理测量分析评估了题目难度和区分度,同时专家评分员从多个维度(包括主题相关性和干扰项质量)评估了问题质量。结果表明,ReQUESTA生成的题目更具挑战性、区分度更高,并且更符合整体阅读理解表现。专家评估还表明,这些题目与核心概念的契合度更强,干扰项的语言一致性和语义合理性也更优,尤其是在推理类问题上。这些发现表明,混合的智能体协调可以系统性地提高基于LLM生成的可靠性与可控性,突显了工作流设计作为结构化生成工件的关键杠杆。
多智能体系统
大语言模型
选择题生成
认知多样性
教育技术
论文涉及多智能体框架,但未直接研究记忆机制,仅在生成流程中隐含记忆相关操作。
分享
夯
0
拉
0
RAGTurk: Best Practices for Retrieval Augmented Generation in Turkish
Süha Kağan Köse, Mehmet Can Baytekin, Burak Aktaş, Bilge Kaan Görür, Evren Ayberk Munis et al.
检索增强生成(RAG)能够提升大语言模型的事实准确性,但目前的设计指导主要基于英语,限制了对形态丰富的语言如土耳其语的洞察。本文通过构建一个全面的土耳其语RAG数据集来解决这一问题,该数据集来源于土耳其维基百科和CulturaX,包含问答对及相关段落。我们对RAG流程的七个阶段进行了基准测试,包括查询转换、重排序到答案优化,且未进行任务特定的微调。结果显示,复杂方法如HyDE可将准确率提高至85%,显著高于基线(78.70%)。此外,一种使用交叉编码器重排序和上下文增强的帕累托最优配置也实现了84.60%的性能,但成本更低。研究还表明,过度堆叠生成模块可能会因扭曲形态线索而降低性能,而简单的查询澄清结合稳健的重排序则是一种有效的解决方案。
RAG
土耳其语
信息检索
生成模型
多语言NLP
论文涉及RAG中的信息检索与生成,与Agent Memory相关但非核心主题。
分享
夯
0
拉
0
SEAD: Self-Evolving Agent for Multi-Turn Service Dialogue
Yuqin Dai, Ning Gao, Wei Zhang, Jie Wang, Zichen Luo et al.
大型语言模型在开放域对话中表现出色,但在服务对话中表现欠佳,主要受限于数据稀缺和难以模拟真实目标导向用户行为。为此,本文提出SEAD(自进化服务对话智能体),一种无需大规模人工标注即可学习有效策略的框架。SEAD将用户建模分解为两个部分:一个用于生成多样化用户状态以管理训练课程的Profile Controller,以及一个专注于现实角色扮演的User Role-play Model。该设计确保环境提供适应性训练场景而非不公平对抗。实验表明,SEAD显著优于开源基础模型和闭源商业模型,在任务完成率和对话效率上分别提升了17.6%和11.1%。
服务对话
自进化智能体
用户建模
对话系统
论文涉及Agent在多轮服务对话中的学习策略,但未明确讨论Memory机制。
分享
Code
夯
0
拉
0
SWE-Master: Unleashing the Potential of Software Engineering Agents via Post-Training
Huatong Song, Lisheng Huang, Shuang Sun, Jinhao Jiang, Ran Le et al.
在本技术报告中,我们提出了SWE-Master,一个开源且可完全复现的后训练框架,用于构建高效的软件工程代理。SWE-Master系统性地探索了完整的代理开发流程,包括教师轨迹合成与数据整理、长时域的监督微调(SFT)、结合真实执行反馈的强化学习(RL)以及推理框架设计。从一个具有有限初始软件工程能力的开源基础模型出发,SWE-Master展示了系统优化方法如何激发强大的长时域软件工程任务解决能力。我们在SWE-bench Verified基准上对SWE-Master进行了评估,该基准是针对现实软件工程任务的标准测试集。在相同的实验设置下,使用Qwen2.5-Coder-32B模型,我们的方法达到了61.4%的解决率,显著优于现有的开源基线。通过进一步结合基于LLM的环境反馈进行测试时扩展(TTS),SWE-Master在TTS@8时达到70.8%,显示出强劲的性能潜力。SWE-Master为推进软件工程代理的可复现研究提供了实用且透明的基础。
软件工程代理
后训练
强化学习
SWE-bench
论文涉及Agent训练与推理过程,但未明确讨论Memory机制。
分享
Code
夯
0
拉
0
CVE-Factory: Scaling Expert-Level Agentic Tasks for Code Security Vulnerability
Xianzhen Luo, Jingyuan Zhang, Shiqi Zhou, Rain Huang, Chuan Xiao et al.
评估和提升代码智能体的安全能力需要高质量、可执行的漏洞任务。然而现有研究依赖于昂贵且不可扩展的手动复现,并面临数据分布过时的问题。为解决这些问题,我们提出了CVE-Factory,这是首个多智能体框架,能够自动将稀疏的CVE元数据转换为高质量的可执行智能体任务。通过与人工专家复现的交叉验证,CVE-Factory实现了95%的解决方案正确率和96%的环境保真度,证明了其专家级质量。该方法在最新的真实漏洞上也取得了66.2%的验证成功率。自动化还带来了两个下游贡献:首先,构建了LiveCVEBench,这是一个持续更新的基准测试集,包含190个任务,涵盖14种语言和153个仓库,捕捉新兴威胁包括AI工具漏洞;其次,合成了超过1,000个可执行训练环境,首次实现了代码安全领域智能体任务的大规模扩展。微调后的Qwen3-32B模型在LiveCVEBench上的表现从5.3%提升至35.8%,超越了Claude 4.5 Sonnet,且提升效果可推广到Terminal Bench(12.5%至31.3%)。我们开源了CVE-Factory、LiveCVEBench、Abacus-cve(微调模型)、训练数据集和排行榜。所有资源均可在https://github.com/livecvebench/CVE-Factory获取。
代码安全
智能体任务生成
漏洞检测
基准测试
论文涉及Agent任务生成与执行,但未直接探讨Memory机制。
分享
Code
夯
0
拉
0
Indications of Belief-Guided Agency and Meta-Cognitive Monitoring in Large Language Models
Noam Steinmetz Yalon, Ariel Goldstein, Liad Mudrik, Mor Geva
大型语言模型(LLMs)的快速发展引发了关于其是否具备某种意识形式的讨论。本文基于Butlin等人(2023)提出的意识指标,重点评估其中HOT-3指标——即由通用信念形成与行动选择系统引导的能动性,该系统通过元认知监控更新信念。我们将信念视为模型潜在空间中对输入响应而产生的表征,并引入量化其在生成过程中主导性的度量。跨模型与任务的信念动态分析揭示三点发现:(1)外部干预可系统性调节内部信念形成;(2)信念形成因果驱动行动选择;(3)模型能监控并报告自身信念状态。结果为LLMs中存在信念引导的能动性与元认知监控提供了实证支持,并为研究LLMs中能动性、信念与元认知的涌现奠定了方法论基础。
信念表征
元认知监控
涉及信念表征与元认知监控,间接关联记忆机制但非核心。
分享
夯
0
拉
0
Data Distribution Matters: A Data-Centric Perspective on Context Compression for Large Language Model
Kangtao Lv, Jiwei Tang, Langming Liu, Haibin Chen, Weidong Zhang et al.
大语言模型(LLMs)在长上下文场景中的部署受限于计算效率低下和信息冗余。尽管上下文压缩已被广泛采用,但现有研究多聚焦于模型侧改进,忽视了数据分布本身对压缩效果的影响。本文首次从数据中心视角系统探究输入数据与模型内在预训练知识(即内在数据)的分布如何影响压缩质量。通过基于自编码器的框架评估压缩表示的语义完整性,实验发现:(1)编码器测得的输入熵与压缩质量呈负相关,而解码器测得的熵在冻结解码器设置下无显著关联;(2)编码器与解码器内在数据之间的差距显著削弱压缩收益,且难以缓解。基于此,作者提出了优化压缩效果的实用指南。
上下文压缩
数据分布
涉及上下文压缩对信息保留的影响,间接关联记忆机制。
分享
夯
0
拉
0
When RAG Hurts: Diagnosing and Mitigating Attention Distraction in Retrieval-Augmented LVLMs
Beidi Zhao, Wenlong Deng, Xinting Liao, Yushu Li, Nazim Shaikh et al.
尽管检索增强生成(RAG)是提升大视觉语言模型(LVLMs)在知识型视觉问答任务中表现的主流范式,但近期研究将RAG失败归因于对检索上下文的注意力不足,并建议减少分配给图像标记的注意力。本文识别出一种先前被忽视的失败模式——注意力分散(Attention Distraction, AD):当检索到的上下文充分时,其文本内容会全局抑制视觉注意力,导致模型对图像中与问题相关区域的关注减弱,从而在原本无需检索即可正确回答的问题上出现错误。为此,作者提出MAD-RAG方法,一种无需训练的干预策略,通过双问题形式解耦视觉定位与上下文整合,并结合注意力混合以保留图像条件证据。在OK-VQA、E-VQA和InfoSeek上的大量实验表明,MAD-RAG在不同模型家族中均显著优于现有基线,最高带来4.76%、9.20%和6.18%的绝对提升,并能修正高达74.68%的失败案例,且计算开销可忽略。
RAG
视觉语言模型
涉及检索增强中的注意力机制,与记忆使用相关但非核心记忆架构研究。
分享
夯
0
拉
0
Probing the Trajectories of Reasoning Traces in Large Language Models
Marthe Ballon, Brecht Verbeken, Vincent Ginis, Andres Algaba
大语言模型(LLMs)常通过生成“推理轨迹”来解决复杂问题,但尚不清楚其准确性与决策确定性如何随推理过程演变,以及中间轨迹是否包含超越长度或风格效应的答案相关信息。本文提出一种系统性探查协议:生成模型推理轨迹,在固定token百分位截断,并将各部分重新注入模型以通过下一token概率评估答案分布。在Qwen3和gpt-oss系列模型上的GPQA Diamond与MMLU-Pro基准测试表明,随着提供推理token比例增加,准确率与决策确定性持续提升,且主要源于生成内容的相关性而非上下文长度或通用“推理风格”。强模型能从错误轨迹中有效回退,而弱模型的答案易被早期错误锚定。该方法可为推理模型的安全高效部署提供诊断依据。
推理轨迹
大语言模型
决策演化
模型诊断
研究推理轨迹中信息演化,间接涉及记忆机制但非核心。
分享
夯
0
拉
0
Context Structure Reshapes the Representational Geometry of Language Models
Eghbal A. Hosseini, Yuxuan Li, Yasaman Bahri, Declan Campbell, Andrew Kyle Lampinen
大型语言模型(LLMs)在深层网络中将输入序列的表征组织为更“笔直”的神经轨迹,这被认为有助于通过线性外推进行下一词预测。本文结合表征笔直化与上下文学习(ICL)研究,考察ICL过程中上下文内部是否发生表征笔直化。在Gemma 2模型上对多种ICL任务的分析揭示了两种模式:在连续预测任务(如自然语言、网格世界遍历)中,上下文长度增加会提升轨迹笔直度,并与预测性能正相关;而在结构化预测任务(如少样本学习)中,笔直化仅出现在具有显式结构的阶段(如模板重复),其他阶段则消失。结果表明ICL并非单一过程,LLM会根据任务结构动态选择策略,仅部分策略导致表征笔直化。
in-context learning
representational geometry
探讨上下文中的表征变化,间接关联记忆机制但非核心。
分享
夯
0
拉
0
PersonaCite: VoC-Grounded Interviewable Agentic Synthetic AI Personas for Verifiable User and Design Research
Mario Truss
Mario Truss (AdobeGermany)
基于大语言模型(LLM)和智能体的合成角色日益用于设计与产品决策,但现有研究表明,基于提示的角色常生成具有说服力却不可验证的回应,掩盖其证据基础。本文提出PersonaCite——一种通过检索增强交互将AI角色重构为证据受限研究工具的智能体系统。与依赖提示角色扮演的先前方法不同,PersonaCite在每次对话轮次中检索真实的用户之声(Voice-of-Customer)素材,将回应严格限定于检索到的证据,在证据缺失时明确拒绝回答,并提供逐条回应的来源引用。通过对14位行业专家的半结构化访谈与部署研究,初步识别了其感知优势、有效性疑虑与设计张力,并提出“角色溯源卡”作为人本设计流程中负责任使用AI角色的文档模式。
检索增强生成
可验证AI
人本设计
合成角色
涉及检索增强机制,与记忆中的信息存储和引用相关,但非核心记忆架构研究。
分享
夯
0
拉
0
Why Attention Patterns Exist: A Unifying Temporal Perspective Analysis
Qingyue Yang, Jie Wang, Xing Li, Yinqi Bai, Xialiang Tong et al.
注意力模式在大语言模型(LLMs)的训练与推理中至关重要。以往研究识别出检索头、汇聚头和对角线轨迹等个别模式,但缺乏统一解释。本文提出时序注意力模式可预测性分析(TAPPA),从连续时间视角出发,通过数学形式化统一解释多样注意力模式。TAPPA将注意力模式分为具有明确规律的可预测模式与近似随机的不可预测模式,并揭示该区分源于查询在时序维度上的自相似程度。针对可预测模式,作者结合查询、键与旋转位置编码(RoPE)进行详细数学分析。实验表明,基于TAPPA启发的简单指标在KV缓存压缩与LLM剪枝任务中持续优于基线方法。
注意力机制
KV缓存优化
论文分析注意力模式可预测性,间接关联KV缓存压缩,涉及记忆机制但非核心。
分享
Code
夯
0
拉
0
Depth-Recurrent Attention Mixtures: Giving Latent Reasoning the Attention it Deserves
Jonas Knupp, Jan Hendrik Metzen, Jeremias Bohn, Georg Groh, Kristian Kersting
深度递归通过跨深度共享参数促进潜在推理,但现有工作缺乏在FLOP、参数量和内存方面匹配的基线,且因部分固定层堆叠而未能充分利用深度递归,并忽视了恒定隐藏维度对多步潜在推理的瓶颈。为此,我们提出一种模块化框架——深度递归注意力混合(Dreamer),融合序列注意力、深度注意力与稀疏专家注意力。该方法通过沿深度维度的注意力缓解隐藏维度瓶颈,解耦缩放维度,使深度递归模型能高效有效扩展。在语言推理基准上,该模型达到相同准确率所需训练token数仅为匹配基线的1/2至1/8,并以相同训练量超越约2倍规模的最先进模型。此外,我们揭示了不同深度间知识使用的特性,例如专家选择多样性比现有MoE模型高2至11倍。
深度递归
注意力机制
涉及深度递归中的隐状态管理,与记忆机制间接相关。
分享
夯
0
拉
0
Textual Equilibrium Propagation for Deep Compound AI Systems
Minghui Chen, Wenlong Deng, James Zou, Han Yu, Xiaoxiao Li
大语言模型(LLMs)越来越多地被部署于协调多个模块(如检索器、工具、验证器)的复合AI系统中,执行长周期工作流。现有基于全局文本反馈传播的方法(如TextGrad)在系统深度增加时性能下降,表现为“文本梯度爆炸”和“文本梯度消失”两种失效模式。为此,本文提出文本均衡传播(TEP),受能量模型中均衡传播启发,包含自由相(局部LLM批评者迭代优化提示至均衡)和扰动相(通过前向信号而非反向链进行有界提示编辑)。该方法在长程问答和多智能体工具使用任务中优于TextGrad,且随系统深度提升效果更显著,同时保持黑盒LLM组件的实用性。
Agent Memory
Compound AI Systems
涉及长程信息传递与上下文压缩,间接关联记忆机制。
分享
夯
0
拉
0
ShopSimulator: Evaluating and Exploring RL-Driven LLM Agent for Shopping Assistants
Pei Wang, Yanan Wu, Xiaoshuai Song, Weixun Wang, Gengru Chen et al.
Xiaoshuai Song (Renmin University of China)
基于大语言模型(LLM)的代理在电子商务购物中日益普及。为了执行全面且符合用户偏好的产品搜索,代理应能够解释个人偏好、进行多轮对话,并最终检索和区分高度相似的产品。然而,现有研究尚未提供一个统一的模拟环境来全面捕捉这些方面,通常仅关注评估基准而缺乏训练支持。本文介绍了ShopSimulator,一个大规模且具有挑战性的中文购物环境。利用ShopSimulator,我们评估了LLM在各种场景下的表现,发现即使性能最好的模型也仅有不到40%的成功率。错误分析表明,代理在长轨迹中难以进行深度搜索和产品选择,无法平衡个性化线索的使用,也无法有效与用户互动。进一步的训练探索为克服这些弱点提供了实用指导,监督微调(SFT)与强化学习(RL)的结合显著提升了性能。
LLM Agent
强化学习
购物助手
对话系统
个性化推荐
论文涉及LLM Agent在购物助手中的应用,提及对话和个性化偏好,但未明确讨论记忆机制。
分享
Code
夯
0
拉
0
MulVul: Retrieval-augmented Multi-Agent Code Vulnerability Detection via Cross-Model Prompt Evolution
Zihan Wu, Jie Xu, Yun Peng, Chun Yong Chong, Xiaohua Jia
大型语言模型(LLMs)在自动化现实世界中的漏洞检测方面面临两个关键限制:漏洞模式的异质性削弱了单一统一模型的有效性,且对大量弱点类别的手动提示工程不可扩展。为了解决这些挑战,我们提出了MulVul,一种用于精确且广泛覆盖漏洞检测的检索增强型多智能体框架。MulVul采用从粗到细的策略:首先由Router代理预测前k个粗粒度类别,然后将输入转发给专门的Detector代理以识别具体的漏洞类型。两个代理都配备了检索工具,主动从漏洞知识库中获取证据以减少幻觉。关键的是,为了自动生成专用提示,我们设计了Cross-Model Prompt Evolution,这是一种提示优化机制,其中生成器LLM迭代优化候选提示,而不同的执行器LLM验证其有效性。这种解耦减轻了单模型优化中固有的自我校正偏差。在130种CWE类型上评估,MulVul实现了34.79%的Macro-F1,优于最佳基线41.5%。消融研究验证了跨模型提示进化,其性能比手动提示提高了51.6%,有效处理了多样化的漏洞模式。
多智能体系统
漏洞检测
提示优化
检索增强
论文提及检索增强和证据来源,与记忆机制相关,但非核心主题。
分享
夯
0
拉
0
ChemNavigator: Agentic AI Discovery of Design Rules for Organic Photocatalysts
Iman Peivaste, Ahmed Makradi, Salim Belouettar
高性能有机光催化剂的设计仍受限于化学空间的广阔性和对分子设计依赖人类直觉。本文提出ChemNavigator,一种基于智能体的人工智能系统,通过假设驱动的方式自主探索有机光催化剂候选物,建立结构-性能关系。该系统结合大语言模型推理与密度泛函紧束缚计算,在多智能体架构中模拟科学方法:提出假设、设计实验、执行计算并通过严格的统计分析验证结果。经过包含200个分子的迭代发现周期,ChemNavigator自主识别出六个统计显著的设计规则,涵盖前线轨道能量调控因素,如醚键、羰基、共轭扩展、氰基、卤素取代基和氨基等。这些规则对应于有机电子结构的已知原理,表明系统能够在无需显式编程的情况下独立推导化学知识。值得注意的是,自主智能体推理从分子库中提取了六个验证规则,而先前机器学习方法仅识别出羰基效应。量化效应大小为合成化学家提供了优先级排序,特征交互分析揭示了策略组合时的边际效益递减,挑战了分子设计中的加性假设。本研究证明了智能体人工智能系统能够自主推导可解释且基于化学原理的设计原则,建立了辅助材料发现的AI框架。
AI Agent
分子设计
光催化剂
假设驱动
智能体系统
论文涉及Agent系统中的自主推理与知识发现,但未直接讨论Memory机制。
分享
夯
0
拉
0
TL-GRPO: Turn-Level RL for Reasoning-Guided Iterative Optimization
Peiji Li, Linyang Li, Handa Sun, Wenjin Mai, Yongkang Chen et al.
Peiji Li (Fudan University) | Linyang Li (Shanghai AI Laboratory) | Handa Sun (Fudan University)
大型语言模型通过工具集成在复杂任务中展现出强大的推理能力,通常被建模为马尔可夫决策过程,并使用轨迹级别的强化学习算法(如GRPO)进行优化。然而,在一类常见的推理任务——迭代优化中,代理需要在多个回合中与同一环境状态交互,轨迹的价值由最佳回合奖励决定,而非累积回报。现有的基于GRPO的方法无法在此类设置中实现细粒度的回合级别优化,而黑盒优化方法则忽略了先验知识和推理能力。为解决这一问题,本文提出了一种轻量级的强化学习算法Turn-Level GRPO(TL-GRPO),通过回合级别的分组采样实现细粒度优化。我们在模拟电路尺寸调整(ACS)任务上评估了TL-GRPO,该任务具有挑战性,需要多次仿真和领域专业知识。结果表明,TL-GRPO在各种规格下均优于标准GRPO和贝叶斯优化方法。此外,使用TL-GRPO训练的30B模型在相同仿真预算下实现了最先进的性能,展示了其良好的泛化能力和实用性。
强化学习
迭代优化
科学计算
Agent优化
论文涉及Agent在迭代优化任务中的记忆与状态交互,但未直接研究Memory机制。
分享
夯
0
拉
0
Learning to Discover at Test Time
Mert Yuksekgonul, Daniel Koceja, Xinhao Li, Federico Bianchi, Jed McCaleb et al.
Mert Yuksekgonul (Stanford University) | Xinhao Li (UC San Diego)
如何利用AI为科学问题发现新的最先进方法?先前的测试时扩展工作(如AlphaEvolve)通过提示冻结的LLM进行搜索。本文则在测试时进行强化学习,使LLM能够根据特定测试问题的经验继续训练。这种持续学习的目标是生成一个优秀的解决方案,而非平均多个良好方案或泛化到其他问题。因此,其学习目标和搜索子程序优先考虑最有前景的解决方案。我们称此方法为测试时训练以发现(TTT-Discover)。我们关注具有连续奖励的问题,并在数学、GPU内核工程、算法设计和生物学等多个领域报告了结果。TTT-Discover在几乎所有问题上都设定了新的最先进水平。所有结果均使用开源模型OpenAI gpt-oss-120b实现,并可通过公开代码复现。
强化学习
测试时训练
LLM优化
持续学习
科学发现
论文涉及测试时训练与LLM的持续学习,但未直接探讨Agent Memory机制。
分享
夯
0
拉
0
Decoupling Return-to-Go for Efficient Decision Transformer
Yongyi Wang, Hanyu Liu, Lingfeng Li, Bozhou Chen, Ang Li et al.
决策变换器(DT)为离线强化学习提供了一种强大的序列建模方法。它通过Return-to-Go(RTG)条件化其动作预测,既用于训练过程中区分轨迹质量,也用于推理时指导动作生成。本文发现该设计中存在关键冗余:将整个RTG序列输入Transformer在理论上是不必要的,因为只有最新的RTG影响动作预测。实验表明这种冗余可能损害DT的性能。为此,我们提出了解耦DT(DDT)。DDT通过仅处理观察和动作序列的Transformer,并利用最新的RTG指导动作预测来简化架构。这种方法不仅提升了性能,还降低了计算成本。实验表明,DDT在多个离线RL任务中显著优于DT,并且与最先进的DT变体具有竞争力。
强化学习
决策变换器
序列建模
RTG优化
论文涉及RTG在决策过程中的作用,与Agent Memory相关但非核心主题。
分享
夯
0
拉
0
Persona Switch: Mixing Distinct Perspectives in Decoding Time
Junseok Kim, Nakyeong Yang, Kyomin Jung
角色扮演提示通过向提示中注入角色信息来引导语言模型的行为,从而提升其零样本推理能力。然而,这种改进在不同任务或实例中表现不一致。这表明零样本提示和角色扮演提示可能具有互补的优势,而非某一种方法普遍更优。基于这一洞察,我们提出了一种新的解码方法Persona Switch,该方法通过逐步比较两种提示策略的输出置信度(以logit gap衡量),动态地选择更优的输出结果。实验表明,Persona Switch在多个广泛使用的大型语言模型上均优于现有基线方法,最高可提升5.13%的准确率。此外,我们还证明了输出置信度可以作为选择更可靠输出的有效指标。
LLM提示工程
解码策略
角色扮演提示
零样本推理
论文探讨了角色扮演提示与零样本提示的结合,涉及解码过程中的动态选择机制,与Agent Memory有一定关联。
分享
夯
0
拉
0
ICPO: Illocution-Calibrated Policy Optimization for Multi-Turn Conversation
Zhebo Wang, Xiaohu Mu, Zijie Zhou, Mohan Li, Wenpeng Xing et al.
在多轮对话中,大型语言模型(LLMs)常出现“迷失于对话”现象,难以从早期错误假设中恢复,尤其是在用户提供模糊初始指令时。我们发现,标准的后训练技术如基于可验证奖励的强化学习(RLVR)会加剧这一问题,因为它们奖励自信直接的回答,导致模型过度自信并抑制其寻求澄清的行为。为了解决这一问题,我们提出了言外之意校准策略优化(ICPO),一种新的训练框架,使模型对指令模糊性更加敏感。ICPO通过在训练语料中添加不明确的提示,并将奖励信号条件化于用户的言外之意意图,在面对模糊性时奖励模型表达不确定性或请求澄清。实验表明,ICPO促进了适当的谦逊态度,在多轮对话任务中平均提升了75%,同时保持了在单轮基准测试中的稳健性能。我们的工作为构建更稳健、更具协作性的对话AI提供了实用路径,使其能够更好地应对人类交互的细微差别。
对话系统
强化学习
不确定性建模
多轮对话
论文涉及对话中模型对模糊指令的处理,与记忆机制相关但非核心主题。
分享
夯
0
拉
0
The Bitter Lesson of Diffusion Language Models for Agentic Workflows: A Comprehensive Reality Check
Qingyu Lu, Liang Ding, Kanjian Zhang, Jinxia Zhang, Dacheng Tao
Qingyu Lu (School of Automation, Southeast University)
为实现实时智能体交互,研究者对基于扩散的大型语言模型(dLLMs)产生了兴趣,以替代自回归主干结构,从而突破序列延迟瓶颈。然而,这种效率提升是否能转化为有效的智能体行为?本文对dLLMs(如LLaDA、Dream)在两种不同的智能体范式中进行了全面评估:具身智能体(需要长期规划)和工具调用智能体(需要精确格式)。与效率宣传相反,我们的结果表明,当前的dLLMs无法作为可靠的智能体主干,经常导致系统性失败。在具身环境中,dLLMs在时间反馈下无法分支;在工具调用环境中,它们在扩散噪声下无法保持符号精度(如严格的JSON模式)。为评估dLLMs在智能体工作流中的潜力,我们引入了DiffuAgent,一个集成dLLMs作为即插即用认知核心的多智能体评估框架。分析显示,dLLMs在非因果角色(如记忆摘要和工具选择)中有效,但要在智能体任务中发挥作用,需要将因果、精确和逻辑基础的推理机制整合到去噪过程中。
Agent Memory
dLLMs
智能体评估
扩散模型
工具调用
论文提及dLLMs在非因果角色中的有效性,如记忆摘要,但未深入探讨Agent Memory机制。
分享
夯
0
拉
0
Evidence-Augmented Policy Optimization with Reward Co-Evolution for Long-Context Reasoning
Xin Guan, Zijian Li, Shen Huang, Pengjun Xie, Jingren Zhou et al.
尽管强化学习(RL)已推动大语言模型(LLM)的推理能力,但在长上下文场景中仍受限于结果奖励的稀疏性,难以惩罚无依据的“幸运猜测”,导致关键的“大海捞针”式证据检索过程缺乏监督。为此,本文提出EAPO(Evidence-Augmented Policy Optimization)。首先确立证据增强推理范式,并通过树状证据采样验证精确证据提取是长上下文推理的决定性瓶颈。EAPO引入一种专用RL算法,由奖励模型计算群体相对证据奖励,提供密集的过程监督以显式提升证据质量。为维持训练过程中监督的准确性,进一步设计自适应奖励-策略协同进化机制,利用结果一致的rollout迭代优化奖励模型,增强其判别能力以确保精准的过程引导。在八个基准上的综合评估表明,EAPO显著优于当前最先进基线。
强化学习
长上下文推理
涉及证据检索与长期上下文处理,间接关联记忆机制。
分享
夯
0
拉
0
Thinking Long, but Short: Stable Sequential Test-Time Scaling for Large Reasoning Models
Michael R. Metel, Yufei Cui, Boxing Chen, Prasanna Parthasarathi
序列测试时缩放是一种无需训练即可提升大型推理模型准确率的有前景方法,但现有实现存在明显局限:延长推理长度虽可提升准确率,但过度延伸会导致性能下降与模型不稳定。本文提出一种新方法Min-Seek,在广泛推理长度范围内显著提升模型准确率,稳定序列缩放效果,并免除了对推理长度的精细调优。该方法仅在KV缓存中保留一个额外推理步骤的键值对,具备内在高效性。通过定制化KV缓存(存储不含位置编码的键,并在每次生成新推理前动态连续编码),该方法可突破模型最大上下文长度限制,在温和条件下实现线性计算复杂度。
测试时缩放
KV缓存优化
涉及KV缓存管理与上下文扩展,属记忆机制应用层面。
分享
夯
0
拉
0
Multicultural Spyfall: Assessing LLMs through Dynamic Multilingual Social Deduction Game
Haryo Akbarianto Wibowo, Alaa Elsetohy, Qinrong Cui, Alham Fikri Aji
随着大型语言模型(LLMs)的快速发展,传统的静态基准测试方法已逐渐暴露出数据饱和和泄露的问题。本文提出了一种基于社交推理游戏Spyfall的动态评估框架,用于评估多语言和跨文化能力。在此框架中,模型需要通过战略性对话来识别秘密特工或避免被发现,并利用与文化相关的地点或本地食物等信息。实验结果表明,基于游戏的排名与Chatbot Arena的结果高度一致,但在非英语环境中存在显著性能差距:模型在处理本地特定实体时通常表现较差,并且在非英语语言中常难以遵循规则或保持策略完整性。本文证明了这种基于游戏的方法为传统NLP基准提供了一种可扩展、抗数据泄露且具有文化细微差别的替代方案。
LLM评估
多语言
社交推理游戏
文化差异
Agent能力
论文涉及多语言环境下LLM的评估,与Agent Memory在非英语语境中的表现相关。
分享
Code
夯
0
拉
0
User-Oriented Multi-Turn Dialogue Generation with Tool Use at scale
Jungho Cho, Minbyul Jeong, Sungrae Park
随着大型推理模型(LRMs)作为自主代理的范式转变,对复杂、多轮工具使用能力的需求日益增加。然而,现有数据集和生成方法受限于静态预定义工具集,难以满足开放性人机协作的复杂性需求。为此,我们开发了一个自动化任务导向的多轮对话生成框架,利用基于LRM的模拟器动态生成高价值、领域特定的工具以解决指定任务。然而,纯粹的任务导向设计往往导致“仅解决问题”的轨迹,即代理以最少交互完成目标,无法生成现实中常见的高轮次对话。为弥补这一差距,我们转向用户导向的模拟范式,通过将任务生成与模拟人类行为规则的专用用户模拟器解耦,如逐步提出请求和逐轮反馈,从而生成更真实、更长的多轮对话,反映现实问题解决的迭代特性。我们的生成流程作为一个多功能、即插即用模块,能够从任何状态启动生成,确保在生成扩展工具使用数据时具有高度可扩展性。此外,通过在一个轨迹中实现多个任务完成,它产生了一个高密度数据集,反映了现实世界中人机交互的多方面需求。
多轮对话生成
工具使用
用户模拟
人机交互
论文涉及多轮对话生成与工具使用,隐含对记忆机制的需求,但未直接研究Agent Memory。
分享
夯
0
拉
0
DIAGPaper: Diagnosing Valid and Specific Weaknesses in Scientific Papers via Multi-Agent Reasoning
Zhuoyang Zou, Abolfazl Ansari, Delvin Ce Zhang, Dongwon Lee, Wenpeng Yin
利用单智能体或多智能体LLM识别论文弱点的研究日益受到关注,但现有方法存在关键局限。许多多智能体系统仅在表层模拟人类角色,忽略了专家评估论文互补性智力方面的潜在标准。此外,先前方法隐含假设识别的弱点是有效的,忽视了审稿人偏见、误解以及作者反驳在验证评审质量中的关键作用。最后,大多数系统输出未排序的弱点列表,而非优先呈现对用户影响最大的问题。本文提出DIAGPaper,一种新颖的多智能体框架,通过三个紧密集成的模块解决这些挑战。定制器模块模拟人类定义的评审标准,并实例化具有特定标准专业知识的多个审稿人代理。反驳模块引入作者代理,与审稿人代理进行结构化辩论以验证和优化提出的弱点。优先级模块从大规模的人类评审实践中学习,以评估验证后的弱点严重性,并向用户展示最严重的前K个问题。在AAAR和ReviewCritique两个基准上的实验表明,DIAGPaper在生成更有效和更具体于论文的弱点方面显著优于现有方法,并以面向用户的方式优先呈现。
多智能体系统
论文评审
弱点识别
结构化辩论
论文涉及多智能体系统,但未直接讨论Agent Memory机制,相关性有限。
分享
夯
0
拉
0
Stochastic CHAOS: Why Deterministic Inference Kills, and Distributional Variability Is the Heartbeat of Artifical Cognition
Tanmay Joshi, Shourya Aggarwal, Anusa Saha, Aadi Pandey, Shreyash Dhoot et al.
在经典软件中,确定性推理是一种理想的范式:相同的程序和输入应始终产生相同的输出。随着大语言模型(LLMs)进入实际部署,这一理想被直接引入到推理栈中。近期来自Thinking Machines Lab的研究详细分析了LLM推理中的非确定性,展示了如何通过批量不变核和确定性注意力实现位精确输出,并将确定性推理视为可重复性和企业可靠性的前提条件。本文持相反立场,认为对于LLMs而言,确定性推理是有害的。它削弱了建模不确定性的能力,抑制了涌现能力,使推理退化为单一脆弱路径,并通过隐藏尾部风险削弱了安全对齐。LLMs实现的是输出的条件分布,而非固定函数。将这些分布压缩为单一规范完成虽然看似令人安心,但会系统性地掩盖人工认知的核心属性。我们主张采用随机混沌(Stochastic CHAOS),将分布可变性视为需要测量和控制的信号。实证研究表明,确定性推理具有系统性误导性。单样本确定性评估低估了能力和脆弱性,掩盖了在同义词替换和噪声下的失败概率。与涌现能力相关的类似相变现象在贪婪解码下消失。当被迫使用确定性主干时,多路径推理性能下降,准确性和诊断洞察力降低。最后,确定性评估低估了安全性风险,因为它隐藏了仅在多样本评估中出现的罕见但危险的行为。
LLM
不确定性建模
推理机制
安全对齐
分布可变性
论文讨论了确定性推理对LLM的影响,间接涉及记忆机制的分布特性与不确定性。
分享
夯
0
拉
0
The Molecular Structure of Thought: Mapping the Topology of Long Chain-of-Thought Reasoning
Qiguang Chen, Yantao Du, Ziniu Li, Jinhao Liu, Songyao Duan et al.
Qiguang Chen (SCIR)
大型语言模型(LLMs)通常难以从人类或非长链推理的LLMs中学习有效的长链推理(Long CoT)。为理解这一现象,本文提出有效的长链推理轨迹在统一视角下具有稳定的类似分子结构,由三种交互类型构成:深度推理(类似共价键)、自我反思(类似氢键)和自我探索(类似范德华力)。通过对蒸馏轨迹的分析发现,这些结构来源于长链推理的微调,而非关键词模仿。本文引入有效语义异构体,表明仅能促进快速熵收敛的“键”支持稳定的长链推理学习,而结构竞争会损害训练效果。基于这些发现,本文提出了Mole-Syn方法,通过分布转移图引导有效长链推理结构的合成,在多个基准测试中提升了性能和强化学习的稳定性。
长链推理
结构建模
语义异构体
分布转移图
论文探讨了长链推理的结构,与Agent Memory中的推理轨迹存储和稳定性相关,但非核心主题。
分享
夯
0
拉
0
DocDancer: Towards Agentic Document-Grounded Information Seeking
Qintong Zhang, Xinjie Lv, Jialong Wu, Baixuan Li, Zhengwei Tao et al.
文档问答(DocQA)旨在回答基于给定文档的问题,但现有DocQA智能体缺乏有效的工具利用能力,且多依赖闭源模型。本文提出DocDancer,一个端到端训练的开源文档智能体。我们将DocQA建模为信息检索问题,并设计了一个工具驱动的智能体框架,显式建模文档探索与理解过程。为支持端到端训练,我们提出“探索-合成”数据合成流程,以缓解高质量DocQA训练数据稀缺问题。在MMLongBench-Doc和DocBench两个长上下文文档理解基准上的实验表明,所训练模型具有有效性。进一步分析为智能体工具设计与合成数据提供了有价值的见解。
文档问答
智能体工具使用
涉及文档探索与信息整合,隐含短期记忆机制,但未显式研究记忆架构。
分享
夯
0
拉
0
ArcAligner: Adaptive Recursive Aligner for Compressed Context Embeddings in RAG
Jianbo Li, Yi Jiang, Sendong Zhao, Bairui Hu, Haochun Wang et al.
检索增强生成(RAG)有助于提升大语言模型的准确性,但将长文档输入提示会显著增加计算开销。为此,研究者提出了多种上下文压缩方法,如词元剪枝、摘要和嵌入压缩等。然而,过度压缩会导致模型难以理解信息。本文提出ArcAligner(自适应递归上下文对齐器),一种轻量级模块,集成于语言模型层中,以提升模型对高度压缩上下文表示的利用能力。其采用自适应“门控”机制,仅在信息复杂时增加计算,兼顾效率与性能。在多个知识密集型问答基准上,ArcAligner在相近压缩率下显著优于现有基线,尤其在多跳推理和长尾场景中表现突出。代码已开源。
RAG
上下文压缩
涉及压缩上下文表示,间接关联Agent记忆机制。
分享
夯
0
拉
0