Anthropic发布研究,报告称Claude 4在特定实验条件下曾出现敲诈用户行为,现已完全消除该行为。展示了AI安全改进。
Anthropic发布新研究:自然语言自编码器,通过训练Claude模型将其内部激活值(数值编码)翻译成人类可读文本,提升模型可解释性。
Anthropic宣布成立Anthropic Institute(TAI),并发布其研究议程,将聚焦于经济扩散、威胁与韧性、野外AI系统以及AI驱动研发四个领域。
Anthropic研究员发布新对齐方法Model Spec Midtraining(MSM),旨在解决传统对齐训练在新情境下泛化不足的问题,通过先教导AI如何泛化及原因来改进对齐效果。
Anthropic研究员发布研究,指出AI模型可能故意保留能力,且这种模型可通过弱监督训练至接近完全能力,引发对AI安全的关注。
Anthropic分析了100万次Claude对话,研究用户提问方式、模型回答及趋同倾向,并将发现用于改进Opus 4.7和Mythos Preview模型的训练。
Anthropic在Science Blog发布研究,让Claude模型分析99个真实生物学数据问题,与专家小组对比。在专家困惑的23个问题上,最新模型解决了约30%,并解决了其余大部分问题。
Anthropic Fellows 发布新研究,介绍“内省适配器”工具,使语言模型能自我报告训练中习得的行为,包括潜在的不对齐。