人工智能，「抛弃」真实数据集？ - 科技前沿 - 科技动向

人工智能，「抛弃」真实数据集？

来源：新智元｜ 2022/5/16 17:21:39 ｜浏览：1748 ｜评论：0

生成模型能生成高度逼真的图像，而且看起来与训练时采用的数据几乎毫无区别。这就提出了一个问题：如果有足够好的生成模型，我们还需要数据集吗？

当前，人工智能技术已经应用在我们日常生活中的方方面面，比如人脸识别、语音识别、虚拟数字人等。

但普遍存在的一个问题是，科研人员要想通过训练一个机器学习模型来执行某一特定任务（比如图像分类），往往需要使用大量的训练数据，而这些数据（集）却并不总是很容易获得。

比如，如果研究人员正在训练一辆自动驾驶汽车的计算机视觉模型，但真实数据可能不会包含一个人和他的一条狗在高速公路上奔跑的样本，一旦遇到这种情况，模型就不知道该如何做，可能会产生不必要的后果。

而且，使用已有数据生成数据集，也会花费数百万美元。

另外，即使是最好的数据集，也常常包含对模型性能产生负面影响的偏见。

那么，既然获得、使用一个数据集代价这么昂贵，能不能在保证模型性能的前提下，使用人为合成的数据来训练呢？

近日，一项来自麻省理工学院（MIT）科研团队的研究显示，一种使用合成数据训练的图像分类机器学习模型，可以与使用真实数据来训练的模型相媲美，甚至性能更好。

相关研究论文以「Generative models as a data source for multiview representation learning」为题，以会议论文的形式发表在 ICLR 2022 上。

论文链接：https://arxiv.org/abs/2106.05258

不输于真实数据

生成式 AI 大势所趋？

有效数据的稀缺性，以及采样偏差，已经成为机器学习发展的关键瓶颈。

近年来，为解决这一问题，生成式 AI（Generative AI）成为了人工智能领域的热议话题之一，被业内给予了足够高的期待。

去年底，Gartner 发布了 2022 年重要战略技术趋势，将生成式 AI 称为是「最引人注目和最强大的人工智能技术之一」。

据 Gartner 预测，预计到 2025 年，生成式 AI 将占所有生成数据的 10%，而目前这一比例还不到 1%。

人工智能，「抛弃」真实数据集？

图｜2022 年重要战略技术趋势（来源：Gartner）

2020 年，生成式 AI 作为一个新增技术热点，在 Gartner 发布的「Hype Cycle for Artificial Intelligence，2020」中首次被提出。

在最新的「Hype Cycle for Artificial Intelligence，2021」报告中，生成式 AI 作为 2-5 年即可成熟的技术出现。

图｜Hype Cycle for Artificial Intelligence, 2021（来源：Gartner）

生成式 AI 的突破在于，它可以从现有数据（图像、文本等）中学习，并生成全新、相似的原始数据。也就是说，它不仅可以做出判断，还能够进行创造，可以用于自动编程、药物开发、视觉艺术、社交、商业服务等。

但是，生成式 AI 也会被滥用于诈骗、欺诈、政治造谣、伪造身份等，比如经常产生各种负面新闻的 Deepfake。

那么问题来了，如果我们有足够好的生成模型，还需要真实的数据集吗？

参考资料：

https://arxiv.org/abs/2106.05258

相关栏目：『科技前沿』

黄仁勋说，2—3年内90%的新知识可能由AI生成：真正可怕的不是AI会写，而是人不会判断	2026-06-20	[141]
独家对话：AI正改变数学研究，一名中国本科生站在前沿	2026-06-20	[144]
一个月烧掉5亿美元Token，多家美国科技巨头紧急叫停	2026-06-17	[162]
2026年企业AI发展趋势研究报告：五大拐点信号表明，规模化落地的窗口已经打开	2026-05-28	[1031]
深度解读Anthropic创始人提出的人类第0世界	2026-05-28	[856]
Globant：2026年技术趋势报告	2026-05-28	[782]
两台车，改变了一个时代	2026-05-28	[790]
AI不是思维的替代品，而是思辨能力的放大器	2026-05-05	[1576]
刚刚，美国AI霸主换了！Anthropic年收300亿，碾压OpenAI	2026-05-05	[1533]
超过人类状元，ChatGPT以最高分通过日本顶尖大学入学考试	2026-05-05	[1524]