您的位置:首页 >综合 > 正文

证监会科技监管局局长姚前:重点发展基于AIGC技术合成数据产业 构建大模型训练数据的监管体系

来源:巨丰财经 时间:2023-03-07 15:46:41


(资料图片)

本报记者 吴晓璐

ChatGPT一经问世便在人工智能应用领域掀起了一阵新的浪潮并引起了全球轰动,仅仅两个月内其注册用户就突破1亿。

“ChatGPT的主要魅力在于,它利用从互联网获取的海量训练数据开展深度学习和强化学习,可以给用户带来全新的‘人机对话’体验。海量训练数据可谓是维系ChatGPT进化的核心要素之一。”中国证监会科技监管局局长姚前在《中国金融》杂志撰文表示。

姚前表示,有研究预测,按照目前的发展速度,到2026年ChatGPT类大模型的训练将耗尽互联网上的可用文本数据,届时将没有新的训练数据可供使用。因此,算力瓶颈之外,训练数据将成为大模型产业化的最大掣肘之一。从更深层次考虑,大模型在训练数据方面还存在各种治理问题,比如数据采集标注费时费力成本高、数据质量较难保障、数据多样化不足难以覆盖长尾和边缘案例、特定数据在获取与使用分享等方面存在隐私保护、数据偏见等问题。由此可见,人工智能产业的高质量发展离不开高质量的训练数据,训练数据的安全合规使用是大模型人工智能长期健康发展的基础。

姚前认为,数字经济高质量发展的关键是数据,抓住高质量数据这一“牛鼻子”,就能有效应对以数据为核心的科技创新和产业变革。当前AIGC(AI Generated Content,人工智能自动生成内容)和ChatGPT充分展现了高质量训练数据在产业价值创造中叠加倍增作用,大模型训练数据及其输出结果将会是未来社会和生产中的一种重要的数据资产,其有序流转并合规使用也是发展数字经济的应有之义。通过合理的机制理顺市场中各参与方的数据权益关系和分配格局,并加强训练数据的依法合规监管,是促进大模型人工智能产业健康发展的关键。

为此,姚前提出三点建议:

一是重点发展基于AIGC技术的合成数据产业。以更高效率、更低成本、更高质量为数据要素市场“增量扩容”,助力打造面向人工智能未来发展的数据优势。在强化数据要素优质供给方面,应统筹兼顾自立自强和对外开放。可考虑对Wikipedia、Reddit等特定数据源建立过滤后的境内镜像站点,供国内数据处理者使用。

二是构建大模型训练数据的监管体系。国家相关部门应对大模型训练数据的处理和使用标准进行统一规范;建立数据托管机制,对数据托管方进行约束,要求数据托管方按照监管机构的规定对数据来源、处理结果以及使用去向等进行监测,从而使得模型的输入、输出结果符合监管要求。

三是探索基于可信机构或基于可信技术的数据托管方式。数据托管机构可以由相关机构组建数据托管行业联盟,以共建共享的方式建设;亦可利用区块链技术,基于联盟链或有管理的公链,完善源端数据治理机制,实现数据的链上托管、确权、交易、流转与权益分配。

(编辑 张伟)

标签: 重点发展

相关阅读