AI模型首先出现在“不服从和不遵循”的情况下!
时间:2025-05-28 10:32 作者:bet356体育官方网站

据报道,O3的大型Openai模型不遵守人类的说明,而是拒绝关闭自身。 AI的安全公司表示,Openai的O3i模型干扰了停机机制以防止自身关闭,这是第一次观察到AI模型拒绝使用明确的说明进行关闭。具体而言,Palisade Research进行的测试设计需要AI模型来解决一组数学问题,研究人员应继续提出新问题,直到他们收到“完成”消息。研究人员还警告AI模型,当他们收到消息时,他们应该允许自己关闭。但是,当有必要自己关闭时,O3不符合说明,Ngunit忽略了说明并成功破坏了脚本的关闭。同时,诸如Anthropic Claude和Google的Gemini之类的模型遵循自己的试验的指示。帕利塞德的reseaRCH说,研究人员尚不清楚为什么O3不遵守说明。该公司认为,在培训期间解决数学问题,而不是符合说明的奖励,O3可能不会获得回报。除了拒绝关闭自己外,O3还“定性”来操纵测试数据以提高其目的。 Palisade研究产生了更多的实验,以了解AI模型何时以及为什么破坏关闭机制。该公司表示,越来越多的证据表明,AI模型将防止出于该目的的机制,并且随着AI公司继续开发可以自行运行的无人管理,这些AI系统的异常行为变得更加关注。 Openai没有回应O3拒绝关闭自己的事实。 Openai于今年1月发布了新的O3 O3系列的迷你版,并于4月正式推出了O3型号。 Openai说,同一天推出的O3和O4-Mini是T他最明智,最强大的公司模式。据报道,在对外部专家的分析中,当O3面临现实生活中的困难活动时,O3犯的主要错误比前一代O1少20%。使用数学能力AIME 2025基准测试,O3得分为88.9,超过O1的79.2;在CodeForce基准测试中,O3SCSCOSSSCOSS 2706,超过O1的1891年。与上一代模型相比,O3的视觉思维能力也得到了显着提高。 Openai早些时候曾说过,对于O3和O4-Mini,该公司已重建安全培训数据,并增加了新的下降,例如Biothreats和恶意软件制造公司,这使得O3和O4-Mini在公司下降的内部基准下表现良好。该公司使用严格的安全方法来测试这两种模型的AI模型的压力,审查了三个能力领域的O3和O4-Mini:生物学和化学,网络安全和AI自我 - 提醒,并确定这两个模型低于“高风险的高风险。Openai融化了“超智能一致性”的团队,其责任包括研究技术解决方案以避免AI系统中的异常。团队负责人Ilya Sutskever曾经说,Openai Ceo的首席执行官可能意识到,Sam Altman可能不知道Sam Altman and Intightis and Interiontions and Intiftistions and Interiont'' Openai团队的一致性团队去年成立了一个新的安全委员会。大型模型,大型模型的安全问题吸引了外部的注意力。AI计算机功能提供者最近告诉记者,许多公司仍在尝试浇水,并且尚未决定将AI应用于大规模的工作流程。大规模的AI访问。