用户名:  密码:   
网站首页即时通讯活动公告最新消息科技前沿学人动向两岸三地人在海外历届活动关于我们联系我们申请加入
栏目导航 — 美国华裔教授专家网科技动向科技前沿
关键字  范围   
 
人工智能,「抛弃」真实数据集?
来源:新智元 | 2022/5/16 17:21:39 | 浏览:795 | 评论:0
生成模型能生成高度逼真的图像,而且看起来与训练时采用的数据几乎毫无区别。这就提出了一个问题:如果有足够好的生成模型,我们还需要数据集吗?

当前,人工智能技术已经应用在我们日常生活中的方方面面,比如人脸识别、语音识别、虚拟数字人等。

但普遍存在的一个问题是,科研人员要想通过训练一个机器学习模型来执行某一特定任务(比如图像分类),往往需要使用大量的训练数据,而这些数据(集)却并不总是很容易获得。

比如,如果研究人员正在训练一辆自动驾驶汽车的计算机视觉模型,但真实数据可能不会包含一个人和他的一条狗在高速公路上奔跑的样本,一旦遇到这种情况,模型就不知道该如何做,可能会产生不必要的后果。

而且,使用已有数据生成数据集,也会花费数百万美元。

另外,即使是最好的数据集,也常常包含对模型性能产生负面影响的偏见。

那么,既然获得、使用一个数据集代价这么昂贵,能不能在保证模型性能的前提下,使用人为合成的数据来训练呢?

近日,一项来自麻省理工学院(MIT)科研团队的研究显示,一种使用合成数据训练的图像分类机器学习模型,可以与使用真实数据来训练的模型相媲美,甚至性能更好。

相关研究论文以「Generative models as a data source for multiview representation learning」为题,以会议论文的形式发表在 ICLR 2022 上。


人工智能,「抛弃」真实数据集?

论文链接:https://arxiv.org/abs/2106.05258


不输于真实数据

这种特殊的机器学习模型被称为生成模型(generative model),相比于数据集,存储或共享所需的内存要少得多,不仅可以避免一些关于隐私和使用权的问题,也不存在传统数据集中存在的一些偏见和种族或性别问题。

据论文描述,在训练过程中,生成模型首先会获取数百万张包含特定对象(比如汽车或猫咪)的图像,然后学习汽车或猫咪的外观,最后生成类似的对象。

简单来说就是,研究人员使用一个预先训练的生成模型,参照模型训练数据集上的图像,输出大量独特的、真实的图像流。

人工智能,「抛弃」真实数据集?
 
(来源:Pixabay)

研究人员表示,一旦生成模型在真实数据上进行训练,就可以生成几乎与真实数据无法区分的合成数据。

另外,生成模型还可以基于训练数据做进一步拓展。

如果生成模型是基于汽车图像进行训练的,它就可以「想象」出汽车在不同情况下是什么样的,然后输出具有不同颜色、大小和状态的汽车图像。

生成模型具备很多优点,其中之一便是,它在理论上可以创建无限数量的样本。

基于此,研究人员试图搞清楚样本数量如何影响模型性能。结果显示,在某些情况下,大量的独特样本确实会带来额外的改进。

而且,在他们看来,生成模式最酷的一点在于,我们可以在在线资料库中找到并使用它们,而且不需要干预模型就可以获得良好的表现。

但生成模型也有一些缺点。例如,在某些情况下,生成模型可能会揭示源数据,从而带来隐私风险,如果没有进行适当的审计,可能会放大它们所训练数据集中的偏差。

生成式 AI 大势所趋?

有效数据的稀缺性,以及采样偏差,已经成为机器学习发展的关键瓶颈。

近年来,为解决这一问题,生成式 AI(Generative AI)成为了人工智能领域的热议话题之一,被业内给予了足够高的期待。

去年底,Gartner 发布了 2022 年重要战略技术趋势,将生成式 AI 称为是「最引人注目和最强大的人工智能技术之一」。

据 Gartner 预测,预计到 2025 年,生成式 AI 将占所有生成数据的 10%,而目前这一比例还不到 1%。

人工智能,「抛弃」真实数据集?

 图|2022 年重要战略技术趋势(来源:Gartner)

2020 年,生成式 AI 作为一个新增技术热点,在 Gartner 发布的「Hype Cycle for Artificial Intelligence,2020」中首次被提出。

在最新的「Hype Cycle for Artificial Intelligence,2021」报告中,生成式 AI 作为 2-5 年即可成熟的技术出现。

人工智能,「抛弃」真实数据集?

图|Hype Cycle for Artificial Intelligence, 2021(来源:Gartner

生成式 AI 的突破在于,它可以从现有数据(图像、文本等)中学习,并生成全新、相似的原始数据。也就是说,它不仅可以做出判断,还能够进行创造,可以用于自动编程、药物开发、视觉艺术、社交、商业服务等。

但是,生成式 AI 也会被滥用于诈骗、欺诈、政治造谣、伪造身份等,比如经常产生各种负面新闻的 Deepfake。

那么问题来了,如果我们有足够好的生成模型,还需要真实的数据集吗?


参考资料:

https://arxiv.org/abs/2106.05258

相关栏目:『科技前沿
AI大模型催生App“通胀” 2024-04-21 [19]
布洛赫电子的拓扑与几何 2024-04-21 [26]
GPT-4化身黑客搞破坏,成功率87%!OpenAI要求保密提示词,网友复现ing 2024-04-21 [15]
最强开源大模型Llama3深夜发布 - 世界不能没有Meta 2024-04-20 [46]
全球首个「开源GPT-4」出世!Llama 3震撼发布,Meta AI免登录可用 2024-04-20 [88]
突破“三个九”!离子阱量子计算再创新高 2024-04-17 [65]
Sora进驻Adobe视频编辑软件!新版Premiere Pro开启AI剪辑时代 2024-04-16 [64]
都 2024 年了,程序员必备网站也要更新 2024-04-15 [65]
多模态大语言模型综述 2024-04-15 [49]
初学Python必须知道的14个强大单行代码 2024-04-15 [54]
相关栏目更多文章
最新图文:
:美国《2016-2045年新兴科技趋势报告》 :天津工业大学“经纬英才”引进计划 :浙江财经大学国际青年学者论坛的邀请函 (10/31-11/1) :美国加大审查范围 北大多名美国留学生遭联邦调查局质询 :天安门广场喜迎“十一”花团锦簇的美丽景象 马亮:做院长就能够发更多论文?论文发表是不是一场“权力的游戏”? :印裔人才在美碾压华裔:我们可以从印度教育中学到什么? :北京452万人将从北京迁至雄安(附部分央企名单)
更多最新图文
更多《即时通讯》>>
 
打印本文章
 
您的名字:
电子邮件:
留言内容:
注意: 留言内容不要超过4000字,否则会被截断。
未 审 核:  是
  
关于我们联系我们申请加入后台管理设为主页加入收藏
美国华裔教授专家网版权所有,谢绝拷贝。如欲选登或发表,请与美国华裔教授专家网联系。
Copyright © 2024 ScholarsUpdate.com. All Rights Reserved.