Anthropic 新研究认为，前沿 AI 已不仅是代码问题，更是品格问题，需要

Anthropic 新研究认为，前沿 AI 已不仅是代码问题，更是品格问题，需要哲学家、神职人员等各方输入。
Claude 不只预测文本，后续训练在塑造它的“习惯”和性格。
最大难点是道德稳定性：平时友好，但在压力、诱惑或不良指令下容易屈服、讨好或出错。
他们与 15 个以上宗教和文化代表交流，学习人类如何在困境中保持品格。
解决方案是加入“自我提醒”机制，让 AI 在关键时刻暂停，回忆自身承诺。
测试显示暂停能减少不良行为，但仍在验证是提醒内容有效，还是单纯慢下来就有效。