(资料图片仅供参考)

“基于‘鹏城云脑’,我们打造了一个安全可信的数据环境——‘AI靶场’,相当于为大模型训练搭建了一个安全的数据加工场,构建了一套全自主可控的安全保障和内容审核机制。”在昨日举行的第二届粤港澳大湾区(广东)算力产业大会暨首届中国算力网大会上,中国工程院院士、鹏城实验室主任高文向与会嘉宾介绍了鹏城实验室主导研发并首次对外发布的“面向算力网的可信数据空间——AI靶场”。  

如何平衡好数据利用与安全的关系,是“东数西算”工程实施以来亟待破解的难题。面向算力网的可信数据空间——AI靶场一举破解数据隐私保护与数据要素流通相悖之局。  鹏城实验室新型网络研究部基于实验室领域战略科学家、中国工程院院士方滨兴提出的“数据不动程序动、数据可用不可见、分享价值不分享数据、保留所有权释放使用权”隐私保护新理念,打造了基于鹏城云脑算力网络的可信数据空间——AI靶场。  

鹏城AI靶场提出了一个模型加工场的方法,其基本思想是要构造一个可信的执行环境,这个可信的执行环境不完全等同于传统的可信执行环境TEE。“传统的可信执行环境是强调计算环境可信,不会被攻击。鹏城AI靶场把一些人为的因素放在里面,把社会工程因素放在里面,以构建一个安全可控的区域。这个安全可控包括人员可控,能落实责任制。如在政府部门或者国企里构造一个安全可控区域,再通过‘数据不动程序动’‘数据可用不可见’的方法来保证隐私。”AI靶场研究室主任刘川意教授告诉记者,在鹏城AI靶场架构中,数据拥有方需要把数据放到模型加工场里,数据所有者可以决定数据是否能够被平台所使用。  

“在正式发布前,我们与国家基因库、大模型研发团队等深入合作,有力支撑了‘超大规模高质量中文语料数据集安全开放’‘2022年猛犸杯国际组学数据创新大赛’等多个重要领域的数据安全开放和流通任务。”通过对任务执行结果反馈数据分析,刘川意认为,鹏城AI靶场有效破解了数据隐私保护与数据要素流通相悖之局,让更多的数据供给方敢于将其数据安全托管,让更多的数据需求方能够充分挖掘真实场景真实数据,实现数据要素的安全流通,充分发挥数据要素价值。  

高文介绍,鹏城实验室已联合相关力量,整理了大量以中文为核心的主流数据,未来将以可信数据联盟的形式,打造数字时代的集大成者和“四库全书”,为中国AI大模型提供安全可信的主流数据。

推荐内容