YC科技资讯网

Anthropic 新研究认为,前沿 AI 已不仅是代码问题,更是品格问题,需要

Anthropic 新研究认为,前沿 AI 已不仅是代码问题,更是品格问题,需要哲学家、神职人员等各方输入。
Claude 不只预测文本,后续训练在塑造它的“习惯”和性格。
最大难点是道德稳定性:平时友好,但在压力、诱惑或不良指令下容易屈服、讨好或出错。
他们与 15 个以上宗教和文化代表交流,学习人类如何在困境中保持品格。
解决方案是加入“自我提醒”机制,让 AI 在关键时刻暂停,回忆自身承诺。
测试显示暂停能减少不良行为,但仍在验证是提醒内容有效,还是单纯慢下来就有效。