机器之心报道

机器之心编辑部
如果你有 100 万个 GPU hour,你会训练什么样的语言模型?

到昨天为止,大模型「BigScience」已训练了 5%。


这个模型仅 bf16 权重就有 329GB,正在用 384 块 A100 进行训练,吞吐量每秒约 150TFLOPS。

好消息是,训练损失正在下降:


与很多公司未开源大模型不同的是,BigScience 模型训练的参数所有人都可见,根据项目组织者的预测,距离完成目标还有三个月的时间。


人工智能给人类社会带来了根本性的影响,但与互联网的兴起不同,AI 极度依赖在更大的数据集上训练更大的模型。因此,这场科技变革的资源主要掌握在大型科技巨头手中。从研究进展、环境、伦理和社会影响的角度看,这种现状给 AI 技术造成了束缚。例如,外界无法访问训练数据集或检查点,这使得其他研究者无法确切分析模型的能力、局限性、潜在改进、偏见等重要方面。

从 2021 年 5 月到 2022 年 5 月,在(预计)长达一年的时间里,来自 60 个国家和 250 多个机构的 900 名研究人员正在共同创建一个非常大的多语言神经网络模型和一个非常大的多语言文本数据集,并在算力 28 petaflops 的法国 Jean Zay (IDRIS) 核电超级计算机上运行。这个项目被命名为 BigScience。

最近,这个项目在推特上开启了直播。

BigScience 是做什么的

开放的科学合作是其他学科领域已获成功的研究模式,已有多个对全世界有益的大型共享研究中心,例如欧洲核子研究中心 CERN。

类似地,BigScience 项目旨在以一种新的方式在 AI/NLP 研究社区中创建、研究和共享大型语言模型,探索大模型的新型合作模式。围绕 BigScience 项目创建的大型研究社区将能够提前探索超大型语言模型的许多研究问题(能力、局限性、潜在改进、偏见、通用人工智能等),并展开学术讨论,促进科技的发展。

BigScience 模型是什么样的

简单来说,BigScience 模型是一个 1760 亿参数的多语言模型,它有以下特点:

  • 与 GPT 类似,它是一个只包含解码器(decoder-only)的架构,参数量达到了 1760 亿;

  • 70 层的神经网络,每层 112 个注意力头 - 隐藏维度为 14336 - 2048 个 token 序列长度;

  • ALiBi 位置嵌入 - GeLU 激活函数。


BigScience 是怎么练成的?

扩展定律(scaling laws)

首先,研究者推导出扩展定律,计算了能提供的「最佳」模型上限:从 ~1650 亿的数据 token 中训练 ~3920 亿参数。



计算


值得一提的是,Jean Zay 是法国在 2019 年建成的超级计算机,硬件由惠普供货,2020 年扩容后峰值性能达到 28 Pflops/s。由于接入法国电网,这台超算是由核电站供能的。为了将训练对环境的影响进一步降低,他们甚至将硬件产生的热量用于校园建筑的供暖。

在正式开发之前,研究者评估了适合训练的模型大小,并考虑了系统的安全方面。最后的评估结果即:~1750 亿参数的模型,其对应的 token 量有机会达到甚至超过 4000 亿。


在训练之前,研究者分析了其他超过 1000 亿参数的大模型是如何形成的。对于模型体量如何随规模增加而变化,也有很多研究可以参考:特别是 Kaplan 等人(2020 年)和 Levine 等人(2020 年)的研究。



速度

最后,BigScience 的杰出工程师 Stas Bekman 对数百种配置进行了基准测试,以找到最快的配置。你可以在其网站中阅读更多相关信息。这一切都是为了找到一组 magic number,避免诸如 tile / 波量化之类的影响。

项目最终获取了三个有希望的配置,首先排除(1),因为注意力头过大,最终选择(3)是因为它比(2)快。速度很重要:每增加一点吞吐量就意味着更多的总计算量,能够带来更多的预训练 token,并形成更好的模型。


此外,BigScience 模型在检查点方面,仅 bf16 权重就有 329GB,具有优化器状态的完整检查点有 2.3TB。

BigScience 的 1760 亿参数大模型训练始于美国西海岸时间 2022 年 3 月 11 日上午 11 点 42 分。

数据集

这个项目要用到一个 TB 级的多语言数据集,包含 1.5 TB(3500 亿 token)的文本数据。这个数据量是什么概念呢?如果你把它打印到 A4 纸上,这些纸可以堆成 141 座埃菲尔铁塔或 5 座珠穆朗玛峰。


为了构建这个数据集,项目组成员分工完成了以下工作:

  • 数据治理小组帮助定义了指导数据工作的具体价值,并提出了一个新的国际数据治理结构,包括一些支持性的技术和法律工具;

  • 数据来源小组在全球范围内组织黑客松,帮助参与者利用当地专业知识建立了 246 种语言资源目录,并准备了 605 个相关网站的列表;

  • 隐私工作小组致力于分类和策略,以降低隐私风险;

  • 法律学术小组开发了一套涵盖九个司法管辖区的法律手册,其中包含不同的隐私和数据保护法规,以帮助 ML 从业者了解他们工作的法律背景。


由于数据规模过大,使用自动方法来对整个语料库进行自动筛选所带来的影响将非常不可控,同时,通过手动检查数据样本来获得良好的洞察也是一大挑战。为了应对这些挑战,并提高数据选择过程的可理解性和可说明性,项目人员在工作中优先考虑了以下方法:

1、构建支持大规模人工决策的工具,而不是完全自动化,在手动和自动之间找到一个平衡点。
2、更少的语言,更多的语言专业知识。将精力集中在能够投入足够资源的语言和语言组上。


以下博文介绍了关于该数据集的更多细节:https://bigscience.huggingface.co/blog/building-a-tb-scale-multilingual-dataset-for-language-modeling



© THE END 

转载请联系本公众号获得授权


发布     👍 0 举报 写留言 🖊   
✋热门推荐
  • 【松鼠界的体操冠军![哈哈]】这几张照片出自瑞典摄影师Geert Weggen之手,为了得到绳子后面的坚果,这些可爱的红#松鼠#爬上绳子,展现了各种高难度“体操
  • #CSC新闻# 雷克萨斯或推豪华GR86:疑似雷克萨斯版GR86测试车曝光。新跑车或命名UC(Urban Coupe城市轿跑),基于GR86,外观和内饰雷克萨斯
  • [最右]秒杀49!A21宽松慵懒风厚款针织衫 【¥59】 【全国包邮】【以纯旗下品牌】网上众多达人种草,一等品质百分百全检,质量放心闭眼入!做工精细严谨,
  • #闪闪的宝妈# 把今年1月份一张照片翻出来和今天随便自拍的做了个对比(iphone前置摄像头怼脸拍) 图①是2021年1月20日左右拍的,那个时段正好做完超声刀
  • #校园新闻# 【农业大学代表团参加2018ASC世界大学生超级计算机竞赛】2018年5月5日至9日,2018 ASC世界大学生超级计算机竞赛在中国南昌大学举行,
  • 很久没说过了,再来明确一下属性[跪了] 1.是俊宝的妈粉&妹妹粉(划重点。目前处于solo追星状态 2.梦女只梦李泽言(老李永远是老公✓ 3.最喜欢的配音老师是
  • 【【观察】又一波疫情汹涌而至,天津怎么办?】一波还未平息,一波又来侵袭。 诡谲的新冠病毒不断变异,开放的中国在不少国家“躺平”对待的国际大环境中,很难独善其身
  • to所谓的老粉解: 对造谣者你唯唯诺诺,对同担你重[拳头]出击。 流言发酵你装死,普通读者看不惯了说两句你说人家戾气重 窝里横什么一天天的,有本事把这股气劲用来
  • 【#黑龙江参赛者解读甘马图片# 一块布救了一群人】#甘肃山地马拉松事故21人遇难# 这张来自黄河石林山地马拉松百公里越野赛现场的图片沉重、虐心、震撼,成为该场事
  • 看《长津湖》的时候 哭着哭着突然就想到了那个第一次和兄弟们上快本 带着点小紧张 介绍着自己“大家好 我是组合里年纪最小 个子最小 但是舞蹈很棒的易烊千玺” 你知
  • #整形茗医# 谢柏林 男,医学博士后,主任医师,教授,研究生导师,原解放军昆明总医院眼科中心主任。先后在第二军医大学、昆明医学院、华西医科大学和第三军医大学
  • 谢谢你的爱1999整张mv都绝顶漂亮……谢谢你的爱像一只受伤的小动物 玻璃般的19岁少年坐在城市的废墟上弹唱一首歌曲 只要为你活一天哭得脆弱美丽动人心弦 旧伤口
  • 林奢暗示:DK这种是真正的YXH。 我只想说: 只有傻瓜看了我的微博之后会说我是营销号。 但林奢不是傻子, 那么,就一定是出了什么问题。 反正不是我的问题, 我
  • 对于分手后,还放不下的人来说,最困扰他们的无非两点:他还能挽回吗?他还爱着自己吗?其实,对于决定好要挽回的人来说,这两点已经没有意义,因为已经下定决心了。有些时
  • 【新疆和田籽料沙枣青手工镯】 籽料沙枣青在和田籽料里属于稀缺玉种,沙枣青因与边疆地区别称七里香的固沙法宝沙枣树颜色相近而得名,肉质细腻温润,糯糯的,脂感也很均匀
  • 【倡导全民阅读,安阳城市领读人第一季“开读”】读书让生活更加多彩,阅读让安阳更有温度。10月10日晚,安阳城市领读人第一季在位于安阳老城仓巷街附近的文峰区古城保
  • 【5G+量子,两大“命门技术”在武汉产业化的裂变猜想】 最近,有两个消息,略加联想,就足见武汉在前沿技术与产业领域领域基础性加长远战略性布局的深意。 一是 9
  • 云与海 天边的云一望无际 俯瞰那双眺望的眼睛 时间还在远行 留下谁的脚印 不只是贪恋的勇气 命中注定不能靠近 爱你的事当做秘密 怕惊扰你从此远离
  • 有时候我也会委屈,为什么我要忍让着,想痛痛快快说出来,把心里的不愉快都说出来,可每次话到嘴边都止住了,怕说出后会弄得不愉快,怕这个怕那个,所以才把自己弄成现在这
  • 牺牲健康换来的名利真的值吗? 中央文明办国家卫生部健康教育首席专家赵霖教授曾强调:“一个没有健康观念的人,相当于用牙齿在为自己嗑坟墓。现在宁可花钱求医生插队看病