立即订阅

大模型训练会耗尽人类语言吗?AIGC暴露潜在瓶颈 将数据合成“救世主”

2023年03月11日 06:03 来源于:赚牛网 浏览量:

3月8日《科创板日报》(编辑宋梓侨)中国证监会科技监管局局长姚谦日前在《中国金融》杂志上撰文,建议重点发展以AIGC技术为基础的合成数据产业。以更高效率、更低成本、更高质量作为数据要素市场的“增量扩张”,有助于为人工智能的未来发展创造数据优势。

那么,什么是合成数据呢?为什么能“增量式扩大”数据要素市场?

其实从字面上就不难理解“合成数据”是由计算机模拟生成的人工数据,其目的是模拟对现实世界的观察和观察。简而言之,合成数据就是计算机制作的仿真数据,为训练、测试和验证AI模型和算法而生,相当于为AI模型制造了一个“问题海洋”。

以ChatGPT为代表的AIGC应用是基于一个大的模型,也就是说,它是从一个庞大的数据集训练出来的。根据OpenAI的数据,ChatGPT的训练使用了45TB的数据和近1万亿个单词,这大约是1351万本牛津词典包含的单词数。随着AIGC的应用越来越多,更智能的工具需要更多的数据进行训练。

来自阿伯丁大学、麻省理工学院和图宾根大学的Pablo Villalobos等六位计算机科学家预测,到2026年,ChatGPT等大规模语言模型的训练将耗尽互联网上可用的文本数据,届时将没有新的训练数据可用。

人工智能新时代的发展离不开可靠的海量数据。然而,真实世界的数据总是有限的,其收集和处理是一个昂贵而缓慢的过程,因此合成数据可能是解决问题的最佳选择。

面临潜在的数据瓶颈,将数据合成为真实的数据“找平”

合成数据作为真实数据的“廉价替代品”,如果处理得当,可以在不侵犯隐私的情况下,高效廉价地获取大量训练数据。《麻省理工科技评论》将AI合成数据列为2022年十大突破性技术之一;Gartner还预测,到2030年,合成数据将完全取代真实数据,成为训练AI的主要数据源。

与真实数据相比,合成数据有三个主要优势:

节省成本:合成数据可以大大节省数据采集的成本,而且比“真实”数据采集更快。比如基于同一个人不同的发型、眼镜、头型姿势来训练模型的识别能力,可以进一步改变肤色、种族特征、骨骼结构、雀斑等特征来塑造不同的面孔,实现“一鱼多吃”。

隐私保护:合成数据是虚拟的,因此不涉及个人隐私和公共利益,数据可信度和质量高,更适合作为数据产品在全球流通,更容易成为数据市场交易的对象。这在一定程度上为数据交换的发展提供了契机。

保证数据的多样性和公平性:理论上,合成数据可以覆盖所有数据,包括现实世界中难以收集或几乎不存在的极端案例,从而最大限度地提高模型的准确性,纠正历史数据中的偏见,消除算法歧视。

然而,虽然高质量的合成数据可以化身为“虚拟教练”来代替真实数据,但毕竟与真实数据存在偏差,计算机可能会生成不合逻辑、不自然的数据。此外,合成数据仍然涉及隐私泄露,最新研究结果表明,可以从合成数据中推断出原始训练样本。

合成数据产业将成为数据元素的新赛道?

合成数据对人工智能的巨大帮助,有望使其成为数据元素的新赛道。自动驾驶、医疗保健等行业已经率先使用这项技术。

对于自动驾驶来说,通过实际路测让汽车把路上可能遇到的每一个场景都排气是不现实的,所以可以用大量的合成数据来模拟各种驾驶场景,从而提高算法的鲁棒性。在这种情况下,合成数据可能会占据训练数据的很大一部分,甚至高达90%以上。

科技巨头们也在探索合成数据在多个场景的应用。

比如英伟达的超宇宙平台Omniverse,有合成数据omniverse replicator的能力;亚马逊使用合成数据来训练和调试其虚拟助手Alexa,以避免用户隐私问题;微软的Azure云服务推出了airSIM平台,该平台可以创建高保真的3D虚拟环境,以训练和测试人工智能驱动的自动驾驶飞机.

国内,腾讯、阿里巴巴、百度走在前列。腾讯自动驾驶实验室研发的自动驾驶仿真系统TADSim,可以自动生成各种交通场景数据,无需标注。阿里巴巴开发的语音合成技术KAN-TTS可以将合成语音与原始录音的相似度提高到百分之九十七以上。百度也发布了几款数据合成和半自动标注工具。

据《科创板日报》不完全统计,已有多家a股公司公开表示有相关技术储备,如:

海天盛瑞(688787)为从事虚拟人相关领域的客户提供相关的训练数据产品或服务,如包括表情、动作、声音在内的多模态数据集,以及富含各种个性的语音合成数据集。公司主营业务为R&D,设计、生产、销售AI训练数据,在中国语音基础数据服务行业市场占有率排名前五;

浩瀚深(688292)数据合成与内容还原系统获得北京市新技术新产品证书。该系统由话单采集软件、统计数据采集软件、信令采集软件、图片文件恢复软件等组成。可以完成数据深度分析、信令跟踪、连接统计、信息预关联,收集网络接入的综合信息,形成有效的数据记录。浩瀚深度于2022年在科技创新板注册。根据其招股书,2019年至2021年,数据合成和内容还原系统是其网络智能应用系统的收入支柱,收入占比超过40%;

汉仪股份(301270)主营业务包括字体设计、字体软件开发及授权、提供字体技术服务及视觉设计服务、IP赋能开展的IP产品化业务。公司自主研发彩色位图字体自动生成技术,支持多线程数据合成,提高数据合成效率。而汉仪公司的核心产品字体软件属于标准格式软件,容易复制和传播,存在版权保护措施难以全面落实、版权保护成本高、版权保护覆盖面低等问题。

关键词:
友情链接