[CL]《Context Training with Active Inform

[CL]《Context Training with Active Information Seeking》Z Huang, A Kuncoro, Q Feng, J Shen… [Google DeepMind] (2026)

在上下文训练领域，部署后补进新知识是一个悬而未决的难题。过去的方法受困于闭环自我改写，本质原因是反馈只指出错处，却不给缺失事实。

本文的核心洞见是：把上下文优化重新看作带外部取证的状态搜索。由此，让优化器并行维护多条上下文分支、用验证集剪枝这一关键操作，使搜索能吸收网页知识而不被噪声污染。

这项工作真正留下的遗产是说明“会搜索”本身不够，必须配合可回退的上下文训练。它为后来者打开的新门是可迁移的外部工作记忆，但尚未跨过的门槛是让模型稳定用好稀疏资源。

arxiv.org/abs/2605.13050 机器学习人工智能论文 AI创造营

YC科技资讯网