机器之心发布
机器之心编辑部
字节跳动 AML 团队内部开发了火山引擎大模型训练框架 veGiantModel,比 Megatron 和 DeepSpeed 更快
背景

近些年,NLP 应用方面有所突破,Bert、GPT、GPT-3 等超大模型横扫各种 NLP 测试后,人们发现参数量越大的模型,在算法方面表现越好,于是纷纷开始迅速向大模型方向发展,模型体积爆炸式增长。而大模型训练给现有的训练系统带来的主要挑战为显存压力,计算压力和通信压力。


火山引擎大模型训练框架 veGiantModel

针对这个需求,字节跳动 AML 团队内部开发了火山引擎大模型训练框架 veGiantModel。基于 PyTorch 框架,veGiantModel 是以 Megatron 和 DeepSpeed 为基础的高性能大模型训练框架。其特点包括:

  • 同时支持数据并行、算子切分、流水线并行 3 种分布式并行策略,同时支持自动化和定制化的并行策略;

  • 基于 ByteCCL 高性能异步通讯库,训练任务吞吐相比其他开源框架有 1.2x-3.5x 的提升;

  • 提供了更友好、灵活的流水线支持,降低了模型开发迭代所需要的人力;

  • 可在 GPU上高效地支持数十亿至上千亿参数量的大模型;

  • 对带宽要求低,在私有化部署无 RDMA 强依赖。


其中,ByteCCL 为字节跳动自研的 BytePS 的升级版,针对 A100/V100 等各种机型拓扑做了分层规约优化,并支持了 allgather、alltoall 等更全面的通讯原语。

veGiantModel 性能表现

硬件配置

为了展示 VeGiantModel 的性能,veGiantModel 团队使用了自建机房的物理机,分别在 A100 和 V100 机型上做了测试,实验配置分别如下:

  • V100 测试:每个机器 8 张 Tesla V100 32G 型号 GPU,网络带宽 100G
  • A100 测试:每个机器 8 张 Ampere A100 40G 型号 GPU,网络带宽 800G
模型和对照组选择

veGiantModel 选择了 GPT-13B 模型进行评估,seq length 是 256, global batch size 是 1536。GPT 为目前市面上最为流行的 transformer based 语言模型。性能对照组选择了开源社区最流行的 Megatron 和 DeepSpeed。

测试结果

  • 模型:GPT-13B
  • Megatron:v2.4,tensor-model-parallel-size 设置为 4, pipeline-model-parallel-size 设置为 4
  • DeepSpeed:v0.4.2,使用 DeepSpeedExamples 开源社区中默认的 zero3 的配置
  • 运行环境
    • V100/TCP :100Gb/s TCP 网络带宽,4 机,每机 8 张 Tesla V100 32G  GPU
    • V100/RDMA:100Gb/s RDMA 网络带宽,4 机,每机 8 张 Tesla V100 32G  GPU
    • A100/TCP:800Gb/s TCP 网络带宽,4 机,每机 8 张 Tesla A100 40G  GPU
    • A100/RDMA:800Gb/s RDMA 网络带宽,4 机,每机 8 张 Tesla A100 40G  GPU
  • 统计值:Throughtput (samples/s)



从上述数据可以看出:

  1. veGiantModel 性能更优:无论是在高带宽还是低带宽的场下,veGiantModel 在 V100 和 A100 上均胜出 Megatron 和 DeepSpeed,最高可达 6.9 倍提升。
  2. veGiantModel 对网络带宽要求低:veGiantModel 在带宽变化对吞吐的影响相对最小 (<10%),而 DeepSpeed(ZeRO) 是对带宽要求最高的,最高可达将近 5 倍的差距。

原因解析

veGiantModel 为什么比 Megatron 和 DeepSpeed 更快?原因如下:

  • ByteCCL (BytePS) 高性能异步通讯库。
  • 支持定制化的并行策略,可以将性能优化推到极致。
  • 在支持数据并行、算子切分、流水线并行 3 种分布式并行策略时,veGiantModel 会综合考虑到跨机的带宽,自动调整 toplogy 的 placement。

传送门

veGiantModel 现已在 GitHub 上开源,地址如下:



© THE END 

转载请联系本公众号获得授权


发布     👍 0 举报 写留言 🖊   
✋热门推荐
  • 我们知道,因为年代久远,北宋汝窑的所谓的传世品除明清皇宫有序流传外,在民间是非常稀有的,如果民间有北宋汝窑,那几乎百分百是地下出土器,百分百具有土侵土蚀的地
  • 前调玫瑰,重调淡淡的茉莉花,尾调是清透出淡淡的的清香,纪念美丽的少女时代[色][色]因为要退市,所以收藏了五瓶,留给香水迷们100ml.338包邮武夷岩茶肉桂系
  • 在‮道管‬生意中,有‮统系‬与没‮系有‬统有‮巨着‬大的区别(八‮不大‬同之一):一,企业‮化文‬不同没有‮统系‬的管‮建道‬造者缺‮核乏‬心理念和精神,他‮赖
  • 快天黑的时候,贝西去玩滑板车,不愿意要田螺了,珮杰和我一起,把它们又放回湖里。撕家,大概是我一些时刻的天使,她那么鲜活那么富有生命力,像一个明朗的少女,她怀过一
  • 一个小县城硬生生闯入长期由广州、杭州等大城市垄断的汉服市场,甚而抢占了全国汉服市场的1/3。两艘水上巴士,最大的特色就是“亚运”元素,新刷上的蓝色调的船身、内部
  • 你读到过哪些美到窒息的情诗? 1、我与春风皆过客,你携秋水揽星河。 ——黄启远《春风秋水辞》 2、愿有岁月可回首,且以深情共白头。 ——冯唐的《三十六大
  • 你的一言一行都体现出来你的教养,善良的话脱口而出,恶语相对的话三思而后行!性格不相容了,地位有悬殊了,所以才有人生得以知己足矣的感叹!
  • 环奈回复: 和巨人队对战时,我会披着你的毛巾给你们加油的(目标是能被摄像机捕捉上现场大屏幕) 那个。有人说,飞行员可以通过快速降落和熄火来躲避敌方的导弹攻击,这
  • 使用的时候滴10来滴精油在晶石上就可以了,我现在是给它放在我家客厅的小木柜上,这自然清新的高颜值,不失为一个提升幸福感的香薰好物。#alonglong的motd
  • 重点是配料表真的很干净 ​✿✿❀✿❀❀✿❀✿❀❀❀✿✿❀ #0点抢# 先领卷加车,0点抢[给力]【15.9】真有机纯芝麻酱2瓶,开盖就闻到浓郁的芝麻香~拌面、火
  • 所以这类女人往往朋友不多,与家人的缘分也比较淡薄,她们难以控制自己成为一个表现得温和的人。#邱天[超话]##邱天#脾气暴躁  右手断掌的女人在传统相术中被认为克
  • 国家中心城市的建设,因十四运会的召开加速度,干了多年想干却没条件干成的事情,断头路、背街巷、彩钢房,还有各种原因搁浅的规划,过期却并不失效。”今年,也是陕西省提
  • 棱镜 2022.6.12 唱的弹的都一般 有些地方疑似是假弹… 但是我要给你讲个故事: 我妹因为临时有事把原价出给了闲鱼买家,由于我想站前排就提前三个小时入场排
  • 不是很懂杭州城西银泰的格局,绕了半天才发现上五楼的电梯,也没啥美食悻悻地选了肉蟹煲 真腻。p3是在西西弗书店留下了便利贴,C位出贴[偷笑]住的地方都还满意,这家
  • 2022.6.20晚上睡觉时,孩子第一次问我要是爸爸妈妈都走了,只剩下他一个了怎么办,并且说着就开始哭,第一次觉得自己的宝贝对分离心有了自己的认识;我告诉他生老
  • //@司天钦Gosta38分钟前 发布于 新疆 已编辑你们发没发现,自从XJ全面放开后,某些逢Halal必反看到不含猪肉就嚎丧各种狂吹XJ政策的博主,瞬间就不发
  • 八字命理中如果地址丑未戌三刑会如何 一个人八字中,如果地支形成丑未戌三刑,对人的命运有着极坏的影响,对五行属土和属木的人影响更甚,在财运方面,丑未戌三刑的人可
  • #郑乃馨[超话]# #30天安利郑乃馨# Day 1入坑时间/原因我是因为去年年初的那部泰剧认识宝贝的,然后因为她才去看了创3,是第一次追选秀,没有什么具体的时
  • 八字格局时德格:此即正官星在时柱,别柱均无官杀星时谓之时德格,时德格与岁德格不同的是,岁德格官为喜者,每都早遂靑云之志,靑年期即在功名事业有所建树与成就。感懐,
  • 到了今天,再翻看这则2013年的报道,中国网友感叹道,印度人民的意淫能力是真的强,如今已经是2022年了,别说印度第二艘国产航母了,就连第一艘都还没有服役,最新