打造“测评智能体” 蚁天鉴2.0发布

2024-07-05 17:43

中国财富网

中国财富网讯（贾钦然实习生陈姝冰） 7月5日，蚂蚁集团联合清华大学发布大模型安全一体化解决方案蚁天鉴2.0版。蚁天鉴2.0新增AI鉴真功能，支持图像、视频等多模态内容真实性及深度伪造检测。同时，其在测评功能上也持续升级，打造了大模型安全测评“智能体”，还新增大模型X光测评、大模型基础设施测评两大功能。

据了解，蚁天鉴于2023年7月首次对外发布，历时1年升级到2.0版。2024年，蚁天鉴朝着商业化迈出重要一步，通过蚂蚁数科开始服务广泛的外部客户。

作为蚂蚁集团科技商业化的重要板块，蚂蚁数科自今年3月份独立化运营以来，持续推进AItoB战略，SOFAStack、蚁盾等多个代表性产品均发布了大模型相关服务，积极借助AI技术助力产业智能化升级。

图片1.png

（蚂蚁集团供图）

蚁天鉴2.0形成了包括大模型基础设施测评、大模型X光测评、应用安全测评、AIGC滥用检测、证件伪造检测、围栏防御等在内的完整技术链条，旨在面向行业提供全方位智能化的大模型安全测评和防御解决方案。

在测评端，蚁天鉴2.0研发了业内首个“测评智能体”。该测评智能体可提供全流程自动化的安全测评工具，支持各种形式模型和深度学习框架，扩展测评垂类大模型、多模态大模型及Agent智能体，并能根据被测大模型的安全水位动态调整攻击策略和出具测试用例，从而保障测评效果和效率。目前，蚁天鉴2.0拥有超300万高质量测评题库，支持最高每日50万次的饱和式攻击和逐级诱导深度攻击，实现了在1个工作日内完成测评，且全流程自动化率大于99%的目标。

与此同时，该智能体也增加了两项新功能。一个是“大模型X-ray”，即大模型X光。该功能可针对大模型的内在神经元进行X光扫描来做探查和判断，让研究人员了解大模型内部在发生什么，定位可能引发风险的神经元，并进行编辑修正，从而在模型内部治理幻觉，实现从源头识别和抑制风险。

另一个是“大模型基础设施测评”。此前蚁天鉴的测评能力主要集中于大模型生成的内容安全、合规风险等检测。而蚁天鉴2.0从攻击者全链路视角出发，深入扫描模型算法组件及软件系统，可及时准确发现大模型供应链及运行环境安全问题，保障云到端的应用安全可控。

另外，在防御端，蚁天鉴2.0新增“AI鉴真”功能。该功能支持多模态内容真实性及深度伪造检测，可快速精准鉴别图像、视频、音频、文本内容的真伪。据信通院测评，其图像识别准确率为99.9%，达到行业最高优秀级。目前，蚁天鉴2.0依托生成模型自建百万量级音视图多模态合成数据集，覆盖主流生成方案，有效应对AI换脸、声音模拟、证件伪造等各类深度伪造风险场景。

责任编辑：闫梅

分享到

企业资讯

打造“测评智能体” 蚁天鉴2.0发布