人工智能，「抛弃」真实数据集？ - 科技前沿 - 科技动向

人工智能，「抛弃」真实数据集？

来源：新智元｜ 2022/5/16 17:21:39 ｜浏览：1532 ｜评论：0

生成模型能生成高度逼真的图像，而且看起来与训练时采用的数据几乎毫无区别。这就提出了一个问题：如果有足够好的生成模型，我们还需要数据集吗？

当前，人工智能技术已经应用在我们日常生活中的方方面面，比如人脸识别、语音识别、虚拟数字人等。

但普遍存在的一个问题是，科研人员要想通过训练一个机器学习模型来执行某一特定任务（比如图像分类），往往需要使用大量的训练数据，而这些数据（集）却并不总是很容易获得。

比如，如果研究人员正在训练一辆自动驾驶汽车的计算机视觉模型，但真实数据可能不会包含一个人和他的一条狗在高速公路上奔跑的样本，一旦遇到这种情况，模型就不知道该如何做，可能会产生不必要的后果。

而且，使用已有数据生成数据集，也会花费数百万美元。

另外，即使是最好的数据集，也常常包含对模型性能产生负面影响的偏见。

那么，既然获得、使用一个数据集代价这么昂贵，能不能在保证模型性能的前提下，使用人为合成的数据来训练呢？

近日，一项来自麻省理工学院（MIT）科研团队的研究显示，一种使用合成数据训练的图像分类机器学习模型，可以与使用真实数据来训练的模型相媲美，甚至性能更好。

相关研究论文以「Generative models as a data source for multiview representation learning」为题，以会议论文的形式发表在 ICLR 2022 上。

论文链接：https://arxiv.org/abs/2106.05258

不输于真实数据

生成式 AI 大势所趋？

有效数据的稀缺性，以及采样偏差，已经成为机器学习发展的关键瓶颈。

近年来，为解决这一问题，生成式 AI（Generative AI）成为了人工智能领域的热议话题之一，被业内给予了足够高的期待。

去年底，Gartner 发布了 2022 年重要战略技术趋势，将生成式 AI 称为是「最引人注目和最强大的人工智能技术之一」。

据 Gartner 预测，预计到 2025 年，生成式 AI 将占所有生成数据的 10%，而目前这一比例还不到 1%。

人工智能，「抛弃」真实数据集？

图｜2022 年重要战略技术趋势（来源：Gartner）

2020 年，生成式 AI 作为一个新增技术热点，在 Gartner 发布的「Hype Cycle for Artificial Intelligence，2020」中首次被提出。

在最新的「Hype Cycle for Artificial Intelligence，2021」报告中，生成式 AI 作为 2-5 年即可成熟的技术出现。

图｜Hype Cycle for Artificial Intelligence, 2021（来源：Gartner）

生成式 AI 的突破在于，它可以从现有数据（图像、文本等）中学习，并生成全新、相似的原始数据。也就是说，它不仅可以做出判断，还能够进行创造，可以用于自动编程、药物开发、视觉艺术、社交、商业服务等。

但是，生成式 AI 也会被滥用于诈骗、欺诈、政治造谣、伪造身份等，比如经常产生各种负面新闻的 Deepfake。

那么问题来了，如果我们有足够好的生成模型，还需要真实的数据集吗？

参考资料：

https://arxiv.org/abs/2106.05258

相关栏目：『科技前沿』

谷歌深夜放王炸！AI自动生成SAT考题，一夜改变教育	2026-01-26	[252]
2026年，7个趋势正在爆发	2026-01-26	[508]
当 AI 转型失败时，代价将是巨大的— 而且不再只是“技术问题”	2026-01-22	[351]
深度解读 AGI-Next 2026：分化、新范式、Agent 与全球 AI 竞赛的 40 条重要判断	2026-01-22	[476]
全球约13亿人在用AI，普及率爆炸式增长！微软官方报告	2026-01-22	[371]
4130 万篇论文洞察：AI 让科学家发文量暴涨 3 倍，却让科学路越走越窄	2026-01-22	[332]
2026：马斯克 3 小时 “狂言” 震撼全球：AI 超人类、医疗颠覆、货币失效，未来 10 年将重塑一切	2026-01-22	[690]
AI1小时破译500年“天书”：文科研究迎变革，人机协作如何共舞？	2026-01-10	[644]
AI催生“超级个体”　“一人公司”成创新最小单元	2026-01-10	[747]
2026年拉斯维加斯消费电子展（CES）的5大趋势预测	2026-01-10	[840]