我们的物种很大程度上归功于对生的拇指。但如果进化给了我们额外的拇指,事情可能不会有太大改善。每只手一个拇指就足够了。
神经网络并非如此,这是执行类人任务的领先人工智能系统。随着他们变得更大,他们已经掌握了更多。这让旁观者大吃一惊。基本的数学结果表明,网络应该只需要这么大,但现代神经网络的规模通常远远超出预测的要求——这种情况被称为过度参数化。
在 12 月在领先会议 NeurIPS 上发表的一篇论文中,微软研究院的 Sébastien Bubeck 和斯坦福大学的 Mark Sellke 为缩放成功背后的奥秘提供了新的解释。他们表明,神经网络必须比传统预期的要大得多,才能避免某些基本问题。这一发现为一个持续了几十年的问题提供了一般性的见解。
论文链接:https://arxiv.org/abs/2105.12806
「这是一个非常有趣的数学和理论结果。」瑞士洛桑联邦理工学院的 Lenka Zdeborová 说,「他们以这种非常通用的方式证明了这一点。所以从这个意义上说,它会触及计算机科学的核心。」
对神经网络规模的标准预期来自对它们如何记忆数据的分析。但要了解记忆,我们必须首先了解网络的作用。
神经网络的一项常见任务是识别图像中的对象。为了创建一个可以做到这一点的网络,研究人员首先为其提供许多图像和对象标签,对其进行训练以学习它们之间的相关性。之后,网络将正确识别它已经看到的图像中的对象。换句话说,训练使网络记住数据。更值得注意的是,一旦网络记住了足够多的训练数据,它还能够以不同程度的准确度预测它从未见过的物体的标签。后一个过程称为泛化。
网络的大小决定了它可以记住多少。这可以通过图形来理解。想象一下,将两个数据点放在 xy 平面上。你可以将这些点与由两个参数描述的线连接起来:线的斜率和穿过垂直轴时的高度。如果其他人得到了这条线,以及一个原始数据点的 x 坐标,他们只需查看这条线(或使用参数)就可以计算出相应的 y 坐标。这条线已经记住了这两个数据点。
神经网络做类似的事情。例如,图像由成百上千个值描述——每个像素一个值。这组许多自由值在数学上等价于高维空间中一个点的坐标;坐标的数量称为维度。
一个古老的数学结果表明,要将 n 个数据点与曲线拟合,你需要一个具有 n 个参数的函数。(在前面的示例中,两个点由具有两个参数的曲线描述。)当神经网络在 1980 年代首次成为一股力量时,思考同样的事情是有道理的。它们应该只需要 n 个参数来拟合 n 个数据点——无论数据的维度如何。
「这不再是正在发生的事情。」德克萨斯大学奥斯汀分校的 Alex Dimakis 说,「现在,我们经常创建参数数量超过训练样本数量的神经网络,这意味着必须重写这些书。」
Bubeck 和 Sellke 并没有打算重写任何东西。他们正在研究神经网络通常缺乏的另一种属性,称为稳健性,这是网络处理微小变化的能力。例如,一个不健壮的网络可能已经学会了识别长颈鹿,但它会将一个几乎没有修改过的版本错误地标记为沙鼠。2019 年,当 Bubeck 团队意识到该问题与网络规模有关时,他们正在寻求证明有关该问题的定理。
Bubeck 说:「我们正在研究对抗性的例子——然后规模就强加给了我们。我们认识到这是一个难以置信的机会,因为需要了解规模本身。」
在他们的新证明中,这对表明过度参数化对于网络的稳健性是必要的。他们通过计算将数据点与曲线拟合所需的参数来做到这一点,该曲线具有与稳健性等效的数学属性:平滑度。
为了看到这一点,再次想象平面中的一条曲线,其中 x 坐标代表单个像素的颜色,y 坐标代表图像标签。由于曲线是平滑的,如果稍微修改像素的颜色,沿着曲线移动一小段距离,相应的预测只会发生很小的变化。另一方面,对于极度锯齿状的曲线,x 坐标(颜色)的微小变化会导致 y 坐标(图像标签)的剧烈变化;长颈鹿可以变成沙鼠。
Bubeck 和 Sellke 表明,平滑拟合高维数据点不仅需要 n 个参数,还需要 n × d 个参数,其中 d 是输入的维度(例如,784 表示 784 像素的图像)。换句话说,如果你想让网络健壮地记住它的训练数据,过度参数化不仅有帮助——它是强制性的。证明依赖于一个关于高维几何的奇怪事实,即放置在球体表面上的随机分布的点几乎都彼此相距一个完整的直径。点之间的大间隔意味着用一条平滑曲线拟合它们需要许多额外的参数。
耶鲁大学的 Amin Karbasi 说:「证明是非常初级的——没有繁重的数学,它说明了一些非常笼统的东西。」
结果提供了一种新方法来理解为什么扩大神经网络的简单策略如此有效。
其他研究揭示了过度参数化有帮助的其他原因。例如,它可以提高训练过程的效率,以及网络的泛化能力。虽然我们现在知道过度参数化对于稳健性是必要的,但尚不清楚稳健性对于其他事物的必要性。但是通过将其与过度参数化联系起来,新的证明暗示稳健性可能比想象的更重要,一个可以释放许多好处的单一密钥。
「稳健性似乎是泛化的先决条件。」Bubeck 说,「如果你有一个系统,你只是稍微扰乱它,然后它就失控了,那是什么样的系统?这是不合理的。我确实认为这是一个非常基础和基本的要求。」
相关报道:

发布     👍 0 举报 写留言 🖊   
✋热门推荐
  • 择偶要求:长沙发展,年纪89-96年,身高170以上,收入12w左右,希望对方开朗阳光,真诚友善,热爱生活,最好喜欢烹饪勿扰:不修边幅、妈宝、过于肥胖✨如果你也
  • 在集训的日子 每天上完课发呆都会想小飞 想念像是上涨的潮水慢慢淹没我的大脑 课间的嘈杂声自然的被隔绝在外 “和她去旅游的话想去哪里呢” “成都不错 拉着手在宽窄
  • 挽回需要技巧,你需要适当减少彼此之间的联系,冷冻自己的情感状态,利用时间给彼此很好的,给对方安稳的环境状态,可以有效减轻对方的压力,降低你对他的需要。4.给奶奶
  • 可我想说:一个月三千家用,不够老婆贴,养孩子的家三千够的话真的是天方夜谭。看完我想说:其实挺能理解的,不管男人女人都想有一个自己的私人空间,无可厚非,有个地方让
  • #晶采盈緻眼彩盘# 拥有细腻粉质,讲究的色彩,其亲肤的色选能与各肤色融为一体,运用大人系的阴影感和光感,赋予当季的春漾氛围,流露优雅风自然样貌,加上透亮玩色的限
  • 当时心里就十分的别扭,还有几分恼怒,当初虽然云举人在处理他父亲丧事的时候帮了忙,可是也趁机卷了一笔银子走了,这么多年刘进士都没把它当回事。刘进士只好劝道:“请世
  • 没看的话能睡吗[害羞]我确确实实这段时间做到了规律一点的生活和饮食想跟大家说,明天就是周一了,1⃣️你从明天开始试着周一到周五把饮食吃的有营养健康一点,2⃣️早
  • 《诺诺千言》只是遇见在那里一片片荷叶舞翩翩我们此生的遇见或许就是万年的情缘每一世都是诗篇孩子是成长的顺延若时光如许愿您身体健康事事顺利有一些付出是此生的执念有一
  • #lolita##人形礼盒# 一期拖了很久的购物分享猫茧盒人形礼盒的短袖上衣真的大翻车,前胸后背都大了不只一点,评论好多妹妹都说胸口那里非常大,客服非说是码数的
  • 后面刘亦菲就进了电影圈啊,但是也不知道是剧情的缘故还是角色的缘故,总也没能超越她早些年的作品。 徐海乔是男二,演还是那个抛弃了对他体贴入微的天仙,最后攀高
  • 』镇屠夫喝了口水,急迫的说道:『我还在酒肆看到了一个穿着和你这件衣服很像的外乡人,我叫他在那等待,阿紫妹子,去看看,说不定能得到一些线索?镇屠夫听了冯蜜儿的关于
  • 没想到居然是悬疑动画看着看着就忍不住一口气全刷完了13集的单元小剧,单集大概在20分钟左右以广播播报女高中生失踪案为开局后面也陆陆续续埋了很多线索结尾全都一个个
  •   金沙集团中国区总裁兼首席运营官 王英伟:“今天这个会面很特别,也体现了海南的特色,我们接触了大自然,然后在一个很舒服的环境,但是我们研究的,谈的都是一些非常
  • 就这样吧,随遇而安吧,少奢求太多,现在拥有的已经很满意了,还是那句话,我亲爱的妈妈,我做好了随时去见你的准备,如果你想我了,就把我带过去吧,我真的很想你很想很想
  • 秋 冬季必推❗️❗️❗️ 无自用不分享 无自用不推荐 无自用不销售 姗姗自用款【新水漾系列】✨秋冬干燥季来临,必须要推荐的一套补水系列新水漾✨干皮、敏感肌、孕
  • #新时代检察宣传周#【听证会,网上直播了】房产销售胡某为争夺客源引起纠纷,将同事打成轻伤,检察院拟对他作不起诉处理。(最高人民检察院)#新时代检察宣传周#【听证
  • 然后无精打采的道出你所真心要买的东西,伙计于气馁之余,自然欢天喜地的捧出他的货色,价钱根本不会太高。到了学校门口,你也一把放开了我的手加入人流跳踉而去,竞没有回
  • 2、初一和十五,属于十斋日,这两天上香,功德还可以倍增,非常殊胜!2、初一和十五,属于十斋日,这两天上香,功德还可以倍增,非常殊胜!
  • #金有谦[超话]# #金有谦丛林的法则#【推特】181207 官方更新金有谦相关一则GOT7 ♥ I GOT7 5TH FAN MEETING梦想着成为足球王&
  • 这是村内著名景点,若您是小齐的粉丝,在鸡窝或垃圾桶旁守候,有概率成功追星哦[doge](顺带一提,山水相依农家乐的秘制酱料值得一试)[doge]⑤豫巷在每晚12