算一笔小账就知道为什么特斯拉要把芯片纳入垂直整合项目里。
dojo tile的算力是9pflops,一片英伟达a100 40g的算力是0.3pflops,差不多三十倍。但差别不至于此,整合三十片a100需要额外的通信,散热,供能,内存等硬件设备和能耗。而且系统的瓶颈--- 带宽---比不上dojo。也就是实际效果看,可能一片dojo可以约等于40-50块a100.
现在a100价格至少一万美元左右,一片dojo就差不多是五十万美元。当然,老黄的毛利多高,特斯拉自己来价格至少减半。
这才是开头,现在特斯拉的集群有七千多片英伟达GPU。峰值功耗在3mw以上。按加州电费算,每小时要烧接近80万美元电费。养这头巨兽比买要贵的多。
dojo可扩展性和更简单的扩张特性,让它能耗表现也会比英伟达出色。
再想想老黄每年给你挤点新东西,还不得一直买单...
这些肥水老马还是全部自己吞了吧
dojo tile的算力是9pflops,一片英伟达a100 40g的算力是0.3pflops,差不多三十倍。但差别不至于此,整合三十片a100需要额外的通信,散热,供能,内存等硬件设备和能耗。而且系统的瓶颈--- 带宽---比不上dojo。也就是实际效果看,可能一片dojo可以约等于40-50块a100.
现在a100价格至少一万美元左右,一片dojo就差不多是五十万美元。当然,老黄的毛利多高,特斯拉自己来价格至少减半。
这才是开头,现在特斯拉的集群有七千多片英伟达GPU。峰值功耗在3mw以上。按加州电费算,每小时要烧接近80万美元电费。养这头巨兽比买要贵的多。
dojo可扩展性和更简单的扩张特性,让它能耗表现也会比英伟达出色。
再想想老黄每年给你挤点新东西,还不得一直买单...
这些肥水老马还是全部自己吞了吧
【#特斯拉自研AI芯片新进展# 】
数据格式对AI来说至关重要,特别是芯片所支持的数据格式。特斯拉借助Dojo超算来研究业界常见的芯片,例如FP32、FP16和BFP16。
FP32格式比AI训练应用的许多部分所需的精度和范围更广,IEEE指定的FP16格式没有覆盖神经网络中的所有处理层。相反,谷歌Brain团队创建的Bfloat格式应用范围更广,但精度更低。
特斯拉不仅提出了用于较低精度和更高矢量处理的8位FP8格式,还提出了一组可配置的8位和16位格式,Dojo超算可以在尾数的精度附近滑动,以涵盖更广泛的范围和精度。
在给定时间内,特斯拉最多可以使用16种不同的矢量格式,但每个64B数据包必须属于同一类型。
特斯拉自研的D1芯片,是Dojo ExaPod的核心。由台积电制造,采用7纳米制造工艺,拥有500亿个晶体管,芯片面积为645mm²,小于英伟达的A100(826 mm²)和AMD Arcturus(750 mm²)。
每个芯片有354个Dojo处理节点和440MB的静态随机存储器。
D1芯片测试完成后,随即被封装到5×5的Dojo训练瓦片(Tile)上。
这些瓦片每边有4.5TB/s的带宽,每个模组还有15kW的散热能力的封盖,减掉给40个I/O的散热,也就是说每个芯片的散热能力接近600W。
瓦片也包含了所有的液冷散热和机械封装,这和Cerebras公司推出的WES-2芯片的封装理念类似。
演讲最后结束时,特斯拉工程师Emil Talpes表达了如下观点:
“相反,在整个网格中我们依靠的是那种快速、分散的SRAM存储,这样能够得到更高数量级的互连速度支持。
我们最终的目标是追求可扩展性。我们已经不再强调CPU中常见的几种机制,像是一致性、虚拟内存、全局查找目录。只因为当我们扩展到非常大的系统时,这些机制并不能很好地随之扩展。”
数据格式对AI来说至关重要,特别是芯片所支持的数据格式。特斯拉借助Dojo超算来研究业界常见的芯片,例如FP32、FP16和BFP16。
FP32格式比AI训练应用的许多部分所需的精度和范围更广,IEEE指定的FP16格式没有覆盖神经网络中的所有处理层。相反,谷歌Brain团队创建的Bfloat格式应用范围更广,但精度更低。
特斯拉不仅提出了用于较低精度和更高矢量处理的8位FP8格式,还提出了一组可配置的8位和16位格式,Dojo超算可以在尾数的精度附近滑动,以涵盖更广泛的范围和精度。
在给定时间内,特斯拉最多可以使用16种不同的矢量格式,但每个64B数据包必须属于同一类型。
特斯拉自研的D1芯片,是Dojo ExaPod的核心。由台积电制造,采用7纳米制造工艺,拥有500亿个晶体管,芯片面积为645mm²,小于英伟达的A100(826 mm²)和AMD Arcturus(750 mm²)。
每个芯片有354个Dojo处理节点和440MB的静态随机存储器。
D1芯片测试完成后,随即被封装到5×5的Dojo训练瓦片(Tile)上。
这些瓦片每边有4.5TB/s的带宽,每个模组还有15kW的散热能力的封盖,减掉给40个I/O的散热,也就是说每个芯片的散热能力接近600W。
瓦片也包含了所有的液冷散热和机械封装,这和Cerebras公司推出的WES-2芯片的封装理念类似。
演讲最后结束时,特斯拉工程师Emil Talpes表达了如下观点:
“相反,在整个网格中我们依靠的是那种快速、分散的SRAM存储,这样能够得到更高数量级的互连速度支持。
我们最终的目标是追求可扩展性。我们已经不再强调CPU中常见的几种机制,像是一致性、虚拟内存、全局查找目录。只因为当我们扩展到非常大的系统时,这些机制并不能很好地随之扩展。”
【#英特尔新服务器GPU架构平台算力表现远超英伟达#】英特尔在近期的Hot Chips 34高效能运算年度技术大会中,公布了代号为“Sapphire Rapids”的Xeon服务器处理器,搭配代号“Ponte Vecchio”的服务器GPU建构平台,能做到比英伟达的A100 GPU强2.5倍运算效能。
依照英特尔的说明,代号“Ponte Vecchio”的服务器GPU将有三种基本配置模式,其中包含搭配代号“Sapphire Rapids”的Xeon伺服器处理器运作,同时也能独立使用,或是透过英特尔 oneAPI方式进行串接。
2-Stack形式的“Ponte Vecchio”约可在FP64/FP32运算模式下对应52 TFLOPS算力表现,在TF32(XMX Float 32)可对应419 TFLOPS算力,在BF16/FP16下可对应839 TFLOPS,至INT8运算模式下则可发挥1678 TFLOPS算力。在执行miniBUDE运算负载时,"Ponte Vecchio”将可发挥A100 GPU的2倍算力。
而在“Ponte Vecchio”之后,英特尔日前也确定将接着推出代号“Rialto Bridge”的服务器GPU,预计会在2023年中向合作伙伴提供测试样品。#鸿儒计划#
依照英特尔的说明,代号“Ponte Vecchio”的服务器GPU将有三种基本配置模式,其中包含搭配代号“Sapphire Rapids”的Xeon伺服器处理器运作,同时也能独立使用,或是透过英特尔 oneAPI方式进行串接。
2-Stack形式的“Ponte Vecchio”约可在FP64/FP32运算模式下对应52 TFLOPS算力表现,在TF32(XMX Float 32)可对应419 TFLOPS算力,在BF16/FP16下可对应839 TFLOPS,至INT8运算模式下则可发挥1678 TFLOPS算力。在执行miniBUDE运算负载时,"Ponte Vecchio”将可发挥A100 GPU的2倍算力。
而在“Ponte Vecchio”之后,英特尔日前也确定将接着推出代号“Rialto Bridge”的服务器GPU,预计会在2023年中向合作伙伴提供测试样品。#鸿儒计划#
✋热门推荐