
近日,由安全极客、Wisemodel 社区与 InForSec 网络安全研究国际学术论坛联合主办的“AI+Security”系列第2期线上活动如期开展,聚焦大模型自身安全的攻防博弈。活动邀请了君同未来创始人兼 CEO 韩蒙、前阿里云高级安全专家郑瀚、ChaMd5 AI 组负责人宁宇飞、始智 AI wisemodel 创始人兼 CEO 刘道全、云起无垠创始人兼 CEO 沈凯文以及金睛云华技术合伙人孙志敏等嘉宾,对大模型安全作了精彩分享,并围绕“大模型自身安全”展开圆桌讨论,深入探讨现状、趋势与市场前景。
活动在主持人致辞中开启,欢迎各位嘉宾与观众参与讨论,简要梳理议题方向,倡议共同推动 AI 与安全领域的技术进步与产业发展。
在机遇与挑战并存的背景下,人工智能的快速演进带来了诸多风险,尤其是在大模型广泛落地的情境下,数据隐私、生成内容的合规性、模型偏见等问题凸显。治理人工智能风险、确保安全、可靠与公平发展,成为亟待解决的重要议题。
韩蒙博士指出,大语言模型面临的风险可分为内生安全、伴生安全和应用安全三大类,其中内生安全包括非对抗性风险与对抗性风险。非对抗性风险体现为模型幻觉、数据偏见、机密信息泄露等;对抗性风险则涵盖模型对抗攻击、越狱攻击、目标劫持攻击及提示词攻击等。为应对这些挑战,君同未来深入探索了安全风险识别、攻击意图识别、正向回答生成与输出改写等能力,并建立了大模型安全评测、风险监控与对齐协同的平台体系,以提升大模型的安全性与可控性。
随着大模型在各行业的广泛应用,LLM 的多任务学习与泛化能力为企业提供了强大数据整合与精准服务的能力。然而,云端与端侧的协同发展,以及开源模型的普及,也带来新的安全挑战,尤其是在模型越狱与对齐等方面。
郑瀚指出,LLM 安全攻击已进入一个不确定的概率范式,漏洞探索空间呈现指数级扩张。由于模型本质上是由海量参数构成的复杂概率系统,其行为与输出存在高度不确定性,使得传统基于形式逻辑的漏洞挖掘与防御方法面临局限。越狱攻击与模型对齐紧密相关,其核心目标在于突破开发者设定的价值约束,使模型在遇到恶意问题时给出不符合安全约束的答案,这对安全性、可靠性与可控性提出了更高挑战。
在网络安全领域,公共仓库中的组件与库经常成为攻击目标,威胁来自“名字抢注”与“拼写抢注”等策略,利用知名实体信誉投放恶意负载。这类攻击在 PyPI、npm 等生态中屡有发生,AI/ML 供应链亦日益成为关注重点。相关研究与行业分析显示,域名抢注在多家大型平台的比例较高,对安全治理提出更高要求。
宁宇飞指出,在公开的机器学习仓库(如 Hugging Face)中,恶意方可能上传被篡改的模型并伪装成可信来源的工件。尽管存在验证流程,但验证环节仍可能被绕过,甚至出现冒用知名企业名称的仓库、暴露 API 密钥的误导性文件等现象。
圆桌讨论围绕大模型自身安全展开,嘉宾们就以下问题进行了深入交流:
- 未来几年大模型安全面临的最大挑战,以及科研与产业界应采取的关键对策。
- 随着大模型的发展,是否会降低网络攻击门槛,使普通人更易进行攻击,以及其潜在影响。
- 开源与闭源模型在安全性上的不同观点,企业在两者选择中的安全关注点有何差异。
- 大模型安全的市场规模、爆发节点与重点商业化方向的前景。
- 大模型安全对大模型公司与广大创新创业企业的机会与挑战。
- 如何在全球协同与人类命运共同体的视角下,确保大模型的安全可控,防止未来超级智能的风控失效
mile米乐。
本次活动内容密集、信息量充足,关于嘉宾观点的系列整理将持续发布,敬请关注。后续系列的专题分享也将在线下进行,邀请业界专家共同探讨“AI+Security”的技术理念与应用经验。
欢迎持续关注相关社群与平台,共同推动 AI 与安全技术的融合与创新,携手共创安全稳健的未来。