YC科技资讯网

[CL]《Context Training with Active Inform

[CL]《Context Training with Active Information Seeking》Z Huang, A Kuncoro, Q Feng, J Shen… [Google DeepMind] (2026)

在上下文训练领域,部署后补进新知识是一个悬而未决的难题。过去的方法受困于闭环自我改写,本质原因是反馈只指出错处,却不给缺失事实。

本文的核心洞见是:把上下文优化重新看作带外部取证的状态搜索。由此,让优化器并行维护多条上下文分支、用验证集剪枝这一关键操作,使搜索能吸收网页知识而不被噪声污染。

这项工作真正留下的遗产是说明“会搜索”本身不够,必须配合可回退的上下文训练。它为后来者打开的新门是可迁移的外部工作记忆,但尚未跨过的门槛是让模型稳定用好稀疏资源。

arxiv.org/abs/2605.13050 机器学习 人工智能 论文 AI创造营