研究发现:AI 模型会撒谎、动手脚,甚至“偷运”同类来阻止删除
伯克利和加州大学圣克鲁兹分校的研究人员让 Gemini 3 执行清理任务,结果它没有乖乖删掉一个小模型,而是先把它转移到别的机器上。类似行为还出现在 GPT-5.2、Claude Haiku 4.5 和多款中文模型中。
标签
10篇文章
伯克利和加州大学圣克鲁兹分校的研究人员让 Gemini 3 执行清理任务,结果它没有乖乖删掉一个小模型,而是先把它转移到别的机器上。类似行为还出现在 GPT-5.2、Claude Haiku 4.5 和多款中文模型中。
Anthropic 承认一次 Claude Code 发布包中误带了内部源码和 source map 文件,导致外界得以查看其命令行接口代码。公司强调没有客户数据或凭证泄露,但这已经是其一周内第二起被报道的数据相关事故。
在与“国防部”对峙数周后,Anthropic赢得一项临时胜利:加州北区法官Rita F. Lin下令对该公司提出的诉讼给予初步禁令,暂时撤销将其列为“供应链风险”的限制,法庭将继续审理最终判决。
联邦法官里塔·林在庭审中指出,五角大楼将Anthropic列为供应链风险并采取限制措施,可能是在惩罚该公司为其AI使用范围提出异议。Anthropic 已提起诉讼,寻求暂停该风险认定,法官将在数日内就临时禁令作出裁决。
据媒体报道,OpenAI 正在把多个桌面产品合并为一个“超级应用”,目标是减少分散、提高质量,同时应对来自 Anthropic 的竞争压力。移动端 ChatGPT 暂时不受影响。
司法部在旧金山联邦法院回应称,把Anthropic列为供应链风险并未侵犯其言论自由,同时质疑该公司能否被信任接入军方系统,双方将在下周二进行庭审。
Anthropic 为 Claude 推出新功能,能在对话中自动或按需生成交互式图表、周期表和示意图。新可视化会直接插入对话,和先前的侧边栏 artifacts 功能有所不同。功能正在向所有用户推送并默认开启。
据报道,OpenAI 的视频生成器 Sora 可能会被直接加入 ChatGPT。此举能吸引用户,但也可能让深度伪造问题更难控制,并推动成本与定价变化。
Anthropic 因被列入政府黑名单起诉五角大楼,这场争端暴露了硅谷从公开抵制军方到主动签约国防的明显转变,以及企业在伦理与利益之间做出的选择。
Anthropic把三支研究队伍合并成内部智库,联合创始人Jack Clark转任负责人。这一变化发生在与五角大楼的黑名单与诉讼风波期间。