生成模型能生成高度逼真的图像,而且看起来与训练时采用的数据几乎毫无区别。这就提出了一个问题:如果有足够好的生成模型,我们还需要数据集吗?
当前,人工智能技术已经应用在我们日常生活中的方方面面,比如人脸识别、语音识别、虚拟数字人等。
但普遍存在的一个问题是,科研人员要想通过训练一个机器学习模型来执行某一特定任务(比如图像分类),往往需要使用大量的训练数据,而这些数据(集)却并不总是很容易获得。
比如,如果研究人员正在训练一辆自动驾驶汽车的计算机视觉模型,但真实数据可能不会包含一个人和他的一条狗在高速公路上奔跑的样本,一旦遇到这种情况,模型就不知道该如何做,可能会产生不必要的后果。
而且,使用已有数据生成数据集,也会花费数百万美元。
另外,即使是最好的数据集,也常常包含对模型性能产生负面影响的偏见。
那么,既然获得、使用一个数据集代价这么昂贵,能不能在保证模型性能的前提下,使用人为合成的数据来训练呢?
近日,一项来自麻省理工学院(MIT)科研团队的研究显示,一种使用合成数据训练的图像分类机器学习模型,可以与使用真实数据来训练的模型相媲美,甚至性能更好。
相关研究论文以「Generative models as a data source for multiview representation learning」为题,以会议论文的形式发表在 ICLR 2022 上。
论文链接:https://arxiv.org/abs/2106.05258
这种特殊的机器学习模型被称为生成模型(generative model),相比于数据集,存储或共享所需的内存要少得多,不仅可以避免一些关于隐私和使用权的问题,也不存在传统数据集中存在的一些偏见和种族或性别问题。
据论文描述,在训练过程中,生成模型首先会获取数百万张包含特定对象(比如汽车或猫咪)的图像,然后学习汽车或猫咪的外观,最后生成类似的对象。
简单来说就是,研究人员使用一个预先训练的生成模型,参照模型训练数据集上的图像,输出大量独特的、真实的图像流。