
曾毅 中国科学院自动化研究所研究员▽、北京前瞻人工智能安全与治理研究院院长
彭飞:回顾2025年,人工智能发展一日千里•▽•。大家谈到通用人工智能,充满热情△▽,而谈到超级人工智能□☆△,则顾虑重重。2025年10月以来,一份呼吁暂缓研发超级人工智能的声明,获得全球一大批科学家、政商界知名人士的签名。这是为什么?通用人工智能与超级人工智能到底有什么区别•-▷?
曾毅:目前所说的通用人工智能一般指具有高度泛化能力,接近或达到人类智能水平的信息处理工具△-,有很广泛的应用前景□△。超级人工智能则是指各方面都超过人类智能水平◁▼◁,且被认为是接近生命的存在▼=…。这意味着“它-”会产生自主意识,且很多想法和行动将难以被人类理解▽,更难以被人类控制■☆。
我们期望超级人工智能是••“超级利他”的,但如果是“超级邪恶…”怎么办?有研究发现,当前主流大语言模型在面临被替换的可能时,竟采取欺骗等方式以自保◆。更令人震惊的是,当模型意识到自己处于被测试的环境时,会故意掩盖不当行为。通用人工智能尚且如此,更何况超级人工智能▷◇?大家忧虑的正是这种未知感●◆◇。
彭飞•★▼:从历史看▼□◁,每次重大技术革命都会对经济社会发展产生重要影响。而且,随着技术完善、治理跟进★▽-,人类发展最终都能趋利避害◇◇。超级人工智能为何不会遵循这样的规律?
曾毅:不能简单把超级人工智能类比为历史上任何一种技术工具。“它”可能拥有独立认知并超越人类智能,这一挑战是前所未有的。◇=-“它”带来的风险和颠覆性改变也绝不限于就业、隐私保护、教育等局部领域,而是系统性的☆。最核心风险在于对齐失败和失控▼▷▼。如果超级人工智能的目标与人类价值观不一致,即使微小偏差也可能在经能力放大后导致灾难性后果。人类的负面行为大量存储在网络数据中▼☆○,不可避免会被超级人工智能习得,这极大增加了对齐失败和失控的风险■-。因此,在人工智能开发与治理中☆▲•,时刻都要坚持底线思维,摆脱传统的被动反应■、跟进式的模式,做到未雨绸缪、前瞻布局。
曾毅◁=:从基本原则看,安全必须是发展超级人工智能的“第一性原理”□▲=,即安全应成为模型的“基因”☆•,不可删除•◇,无法违背,不能因为可能影响模型能力而降低安全护栏○…=。应尽可能全面考虑安全隐患并开展模型安全加固,坚持主动防御而非被动应对。
从实现路径看★■▲,通过“攻击—防御—评估”的技术过程不断更新模型,能有效解决如隐私泄露、虚假信息等典型安全问题,妥善应对短期风险●。但从长期看▽,真正的挑战在于使超级人工智能与人类期望对齐。目前采取的基于人类反馈的强化学习——即在人机交互中将人类价值观嵌入人工智能的模式,很可能对超级人工智能无法奏效▼…□,迫切需要全新的思维与行动方式。
从最终效果看●▲,由于超级人工智能可能拥有自我意识,更安全的理想图景是使□▷“它○”自主产生道德直觉、同理心与利他之心,而非单纯依靠外部••“灌输=★-”的价值规则。确保人工智能从合乎伦理变成拥有道德-,才能最大限度降低风险•。
彭飞:超级人工智能的安全问题具有全球性=,一旦出现漏洞、失控,影响是跨越国界的。而人工智能的全球竞争又非常激烈,无论国家还是企业,都在争先•☆○。一些发达国家在超级人工智能的研发上更是□“油门踩到底”◁…•。如何避免盲目竞争导致失控?人工智能治理的全球协作有可能吗○…★?
曾毅•★:人类需要避免人工智能的发展演变为“军备竞赛□”,其危害性不可估量=□☆。创造出世界上第一个超级人工智能也许不需要国际合作,但确保超级人工智能对全人类安全可靠…○□,全球合作是必选项▪▲▪。
世界需要一个高效率○=、有执行力的国际机构,来协调人工智能的治理,以确保安全。2025年8月◁△,联合国大会决定设立“人工智能独立国际科学小组”和“人工智能治理全球对话”机制△○△,以促进可持续发展和弥合数字鸿沟。这方面的探索还应深入•、继续。
各主权国家作为政策制定和执行的主体,尤其是掌握先进技术的发达国家,更有责任和义务防止在规则缺位的条件下盲目发展超级人工智能,造成风险外溢☆●。中国倡导构建人类命运共同体、构建网络空间命运共同体★•,强调统筹发展和安全,提出《全球人工智能治理倡议》▽○○,值得在全球范围推广和践行△▪△。宁可稍稍放慢节奏,把安全的底子筑牢打扎实▽◆,也不能急功近利,以免把人类社会引向万劫不复的危险境地。