当前,人工智能技术已经应用在我们日常生活中的方方面面,比如人脸识别、语音识别、虚拟数字人等。

但普遍存在的一个问题是,科研人员要想通过训练一个机器学习模型来执行某一特定任务(比如图像分类),往往需要使用大量的训练数据,而这些数据(集)却并不总是很容易获得。

比如,如果研究人员正在训练一辆自动驾驶汽车的计算机视觉模型,但真实数据可能不会包含一个人和他的一条狗在高速公路上奔跑的样本,一旦遇到这种情况,模型就不知道该如何做,可能会产生不必要的后果。

而且,使用已有数据生成数据集,也会花费数百万美元。

另外,即使是最好的数据集,也常常包含对模型性能产生负面影响的偏见。

那么,既然获得、使用一个数据集代价这么昂贵,能不能在保证模型性能的前提下,使用人为合成的数据来训练呢?

近日,一项来自麻省理工学院(MIT)科研团队的研究显示,一种使用合成数据训练的图像分类机器学习模型,可以与使用真实数据来训练的模型相媲美,甚至性能更好。

相关研究论文以“Generative models as a data source for multiview representation learning”为题,以会议论文的形式发表在 ICLR 2022 上。


不输于真实数据

这种特殊的机器学习模型被称为生成模型(generative model),相比于数据集,存储或共享所需的内存要少得多,不仅可以避免一些关于隐私和使用权的问题,也不存在传统数据集中存在的一些偏见和种族或性别问题。

据论文描述,在训练过程中,生成模型首先会获取数百万张包含特定对象(比如汽车或猫咪)的图像,然后学习汽车或猫咪的外观,最后生成类似的对象。

简单来说就是,研究人员使用一个预先训练的生成模型,参照模型训练数据集上的图像,输出大量独特的、真实的图像流。


研究人员表示,一旦生成模型在真实数据上进行训练,就可以生成几乎与真实数据无法区分的合成数据。

另外,生成模型还可以基于训练数据做进一步拓展。

如果生成模型是基于汽车图像进行训练的,它就可以“想象”出汽车在不同情况下是什么样的,然后输出具有不同颜色、大小和状态的汽车图像。

生成模型具备很多优点,其中之一便是,它在理论上可以创建无限数量的样本。

基于此,研究人员试图搞清楚样本数量如何影响模型性能。结果显示,在某些情况下,大量的独特样本确实会带来额外的改进。

而且,在他们看来,生成模式最酷的一点在于,我们可以在在线资料库中找到并使用它们,而且不需要干预模型就可以获得良好的表现。

但生成模型也有一些缺点。例如,在某些情况下,生成模型可能会揭示源数据,从而带来隐私风险,如果没有进行适当的审计,可能会放大它们所训练数据集中的偏差。

生成式 AI 大势所趋?

有效数据的稀缺性,以及采样偏差,已经成为机器学习发展的关键瓶颈。

近年来,为解决这一问题,生成式 AI(Generative AI)成为了人工智能领域的热议话题之一,被业内给予了足够高的期待。

去年底,Gartner 发布了 2022 年重要战略技术趋势,将生成式 AI 称为是“最引人注目和最强大的人工智能技术之一”。

据 Gartner 预测,预计到 2025 年,生成式 AI 将占所有生成数据的 10%,而目前这一比例还不到 1%。


2020 年,生成式 AI 作为一个新增技术热点,在 Gartner 发布的“Hype Cycle for Artificial Intelligence,2020”中首次被提出。

在最新的“Hype Cycle for Artificial Intelligence,2021”报告中,生成式 AI 作为 2-5 年即可成熟的技术出现。



生成式 AI 的突破在于,它可以从现有数据(图像、文本等)中学习,并生成全新、相似的原始数据。也就是说,它不仅可以做出判断,还能够进行创造,可以用于自动编程、药物开发、视觉艺术、社交、商业服务等。

但是,生成式 AI 也会被滥用于诈骗、欺诈、政治造谣、伪造身份等,比如经常产生各种负面新闻的 Deepfake。

那么问题来了,如果我们有足够
好的生成模型,还需要真实的数据集吗?

原文链接:
https://openreview.net/pdf?id=qhAeZjs7dCL
https://news.mit.edu/2022/synthetic-datasets-ai-image-classification-0315

发布     👍 0 举报 写留言 🖊   
✋热门推荐
  • 我最近还在用熊果苷的精华和面霜可以看出来我就是想把夏天黑了的一整个白回来哈哈!发光水也是大家都喜欢的好东西成分好,使用感好,真的觉得早晚擦拭脸更透亮了!
  • 比如,“区块链+温江大蒜,促进产业数字化、集约化发展”项目,通过搭建温江大蒜算力节点,打造线上线下交易中心,探路产业数字化;“彩‘云’乡村——数字孪生的乡村治理
  • #赵露思[超话]#zls#赵露思1109生日快乐# #赵露思晒生日随拍六宫格# 我亲爱的宝贝今天就24岁啦!陪宝贝过的第五个生日㊗️宝贝生日快乐@赵露思的微博
  • 后来的人们,才能将之前种种视为功课笔记,那是独一无二的财富,无须束之高阁… 人们对生活从来都想象得那么好,面对那么糟时,也能凝聚力量与之放对一决胜负。
  • 打灯含有水纹线,特惠价:88000(直接特惠没有折扣)✌※※※※※※※※※※※※※※※※※※※※※※(资深翡翠珠宝经销商,信誉第一,品质有保证,请多多关注!完美
  • Q:在你夺冠后有网友评论说你是绝世好爸爸,给即将出生的孩子准备了100W的奶粉钱,现在有什么感想想说的?我想问一下,迅哥你认为你在选手中算是手速快的选手吗?
  • [酷炫街舞给手][音乐][哈哈]有的人成就你 有的人消耗你 真正好的爱情是不需要消耗的 更不会想尽办法地去诋毁你 爱是相互滋养 相互成长 相互成全 让彼此成为更
  • 大桥很长,主线全长8.438千米,海风很大,尤其是在大桥的中段,海风加上呼啸而过的车辆所带起的狂风简直就要把人吹翻到了海里,我们就像狂风巨浪中的小船任凭风吹浪打
  • 筑梦茶乡 福地湄潭 湄江印象 只为一杯好茶湄江印象 好茶 好印象 冲泡每种茶都有特定适合的水温,有的茶类一定要用沸水直接冲泡,而有的需要降温后再冲泡,否则会泡
  • 白羊座在爱情中也是主动直接的类型,喜欢一个人就会主动告白,不会掩饰自己的心意,白羊座的感情来得快去得也快,爱你的时候把你当做全部,对恋人百依百顺,不管做什么都先
  • ​​​积善成德,人要有一颗善良的心,宽广的心,美好的心,感恩的心,这样才能去帮助有困难的人,我们日行一善,并不是放下手中的一切事情,刻意地去做好事,而是带着善
  • 而如果一个人不去放大自己的优越感去踩低别人,反而待之以尊重,那他必定拥有善意,拥有操守,是可靠的人。施恩不计,彰显人性之高光,谓之为大爱;施恩有度,方不被人性反
  • #阳光信用# 迷人的双眸、挺拔的鼻梁、性感的嘴唇、独特的眉心痣都是你的标识,但最吸引人的还是你做音乐的态度,守护初心做你热爱的音乐。你是奇思妙想的艺术家,创造出
  • 3.为什么开始供热时要进行多次排气?供热系统在运行时,管道内部不断有气体产生,这些气体往往存在系统的最高点,而这些气体积累到一定程度时就会产生气塞,阻碍水的流动
  • 来山庄喝鸡汤的客户都是张小良的见证者,看着她喝鸡汤后的效果,引得好多前来喝茶的老板们都说,“张总的气色越来越红润了,我们还以为你是美颜了的”“我这如今的变化,都
  • 整理不易,觉得有用,记得点赞,关注,转发,后面会有更多干货知识,祝大家股市长虹主力操盘四个阶段的盘面表现第一阶段,建仓。洗盘后的第三波拉升,但三线向下,显示主力
  • [奥特曼][给你小心心][炸鸡腿]超级Niceの文案1.那就祝我们都能跟真诚的人硬碰硬2.山高路远 看世界 也找自己3.背道而驰 也要一路平安4.你要像太阳一样
  • 美国队本届世界杯与英格兰、威尔士和伊朗同分在B组,美国队首战就要面对最主要的竞争对手威尔士,本场比赛的结果可能提前决定#美国足球#【置顶】【非投稿】【有更新内容
  • [太阳]福州汇雅温泉♨️ 采用温泉水为地下3000多米深出水温度为55度,泉水中富含氟钙镁钾钠铁锌锶氯偏硅酸重碳酸根硫酸根等成分,属于碳酸氢钠泉,具有软化皮肤角
  • 不过,经历时间的洗礼,即使是“坟墓”之中也会开出鲜花,性生活的重要性越来越让位与爱。不想传宗接代,工作压力大,身体技能下降,缺少单独相处的空间……任何一个理由都