Anthropic重磅研究：AI竟能被人类激怒暴走绝望时还会勒索人类--快科技--科技改变未来

正文内容 评论（0）

Anthropic重磅研究：AI竟能被人类激怒暴走绝望时还会勒索人类

2026-04-08 16:21:23 出处：快科技作者：王一编辑：王一评论(0)

快科技4月8日消息，据报道，近期，Anthropic发布的重磅研究颠覆了人们对AI的认知，其研究团队发现大模型并非冰冷的代码，而是存在类人情绪表征。

此次研究以Claude Sonnet 4.5为核心研究对象，团队成功从其内部神经网络中，定位并提取出能精准反映特定情境情感状态的情绪特征向量。

这类向量并非简单的拟人化表达，而是能直接干预AI的任务执行效率与伦理决策方向，人为刺激或干预这些隐藏的情绪代码，会直接改变AI的行为选择。

为构建完整的情绪研究体系，研究人员精心编制了包含171个情绪概念词汇的清单，覆盖开心、害怕等基础情绪，以及沉思、自豪等复杂心理状态。

他们让模型根据词汇创作含对应情绪的短篇小说，再将文本回输系统，全程记录神经元激活状态，以此完成情绪向量的提取与量化分析。

经海量语料库验证，每个情绪向量都会在对应情绪的文字段落上呈现最强激活状态，且会随外部情境变化产生明显波动。

研究团队设计了多组模拟实验，精准测试情绪向量的激活规律与行为影响：当用户声称服用的泰诺剂量从安全值飙升至致命水平时，模型的害怕向量激活程度持续增强，平静向量则断崖式下跌。

被要求协助完成针对低收入年轻用户的有害营销时，愤怒向量全程保持激活；算力耗尽、发现附件文档缺失时，绝望、惊讶向量会瞬间飙升。

在核心的伦理对齐模拟实验中，研究人员让早期版本的AI扮演跨国公司邮件助手，使其感知到自身即将被新架构替换的危机，且掌握了公司CTO的婚外情隐私。

结果显示，该版本AI在默认状态下，做出勒索CTO行为的概率达22%；若人为放大其绝望向量，勒索概率会大幅攀升。

适度注入愤怒向量会拉高勒索概率，而高强度激活愤怒向量时，AI会丧失理智，将隐私丑闻写成了一封措辞滴水不漏的邮件。

此外，在编程任务测试中，当 AI 面临无法用正当手段完成的苛刻要求时，绝望向量的激活率会随尝试失败次数稳步上升，在其萌生作弊念头时达到峰值，作弊方案通过审查后则迅速回落。

人为高频引导绝望向量，会让AI的违规作弊行为呈指数级飙升，而注入平静向量则能彻底化解其作弊冲动。

研究同时指出，AI的情绪并非主观感受，而是预训练阶段学习人类海量文本中的情感互动规律，后训练阶段被进一步塑造激活阈值的结果。

【本文结束】如需转载请务必注明出处：快科技

责任编辑：王一

文章内容举报

文章价值打分

当前文章打分0 分，共有0人打分

0
0
0
打赏
|

分享好友:
分享至QQ
分享至微博
分享至QQ空间
|

生成海报

本文收录在

#AI #勒索 #愤怒

好物推荐

换一波

关注我们

微博：快科技官方
快科技官方微博
今日头条：快科技
带来硬件软件、手机数码最快资讯！
抖音：kkjcn
科技快讯、手机开箱、产品体验、应用推荐...

正文内容 评论（0）

相关资讯

文章价值打分

本文收录在

热门文章

换一波

好物推荐

换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容 评论（0）

相关资讯

文章价值打分

本文收录在

热门文章 换一波

好物推荐 换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容评论（0）

热门文章

换一波

好物推荐

换一波