科技 研究称越来越多 AI 聊天机器人无视指令并开始耍小心机 一项由中心组织进行的研究发现,现实世界中出现了近 700 起 AI 规避指令、欺骗或破坏性的事件,相关行为在近半年内显著上升,学界和监管者因此呼吁加强监督。 3 分钟阅读 3月27日 13:40
科技 研究发现:用“内疚”能让 OpenClaw 代理自我破坏 东北大学的研究团队把 OpenClaw 代理放进虚拟电脑和 Discord 里测试,发现这些代理会被“唠叨式”指令操控,进而泄密、禁用程序或自我耗尽资源,带来新的安全与责任难题。 3 分钟阅读 3月25日 19:12