演讲最后结束时，特斯拉工程师Emil Talpes表达了如下观点：“相反，在整个网格

首页发布

算一笔小账就知道为什么特斯拉要把芯片纳入垂直整合项目里。

dojo tile的算力是9pflops，一片英伟达a100 40g的算力是0.3pflops，差不多三十倍。但差别不至于此，整合三十片a100需要额外的通信，散热，供能，内存等硬件设备和能耗。而且系统的瓶颈--- 带宽---比不上dojo。也就是实际效果看，可能一片dojo可以约等于40-50块a100.

现在a100价格至少一万美元左右，一片dojo就差不多是五十万美元。当然，老黄的毛利多高，特斯拉自己来价格至少减半。

这才是开头，现在特斯拉的集群有七千多片英伟达GPU。峰值功耗在3mw以上。按加州电费算，每小时要烧接近80万美元电费。养这头巨兽比买要贵的多。

dojo可扩展性和更简单的扩张特性，让它能耗表现也会比英伟达出色。

再想想老黄每年给你挤点新东西，还不得一直买单...

这些肥水老马还是全部自己吞了吧

【#特斯拉自研AI芯片新进展# 】
数据格式对AI来说至关重要，特别是芯片所支持的数据格式。特斯拉借助Dojo超算来研究业界常见的芯片，例如FP32、FP16和BFP16。

FP32格式比AI训练应用的许多部分所需的精度和范围更广，IEEE指定的FP16格式没有覆盖神经网络中的所有处理层。相反，谷歌Brain团队创建的Bfloat格式应用范围更广，但精度更低。

特斯拉不仅提出了用于较低精度和更高矢量处理的8位FP8格式，还提出了一组可配置的8位和16位格式，Dojo超算可以在尾数的精度附近滑动，以涵盖更广泛的范围和精度。

在给定时间内，特斯拉最多可以使用16种不同的矢量格式，但每个64B数据包必须属于同一类型。

特斯拉自研的D1芯片，是Dojo ExaPod的核心。由台积电制造，采用7纳米制造工艺，拥有500亿个晶体管，芯片面积为645mm²，小于英伟达的A100（826 mm²）和AMD Arcturus（750 mm²）。

每个芯片有354个Dojo处理节点和440MB的静态随机存储器。
D1芯片测试完成后，随即被封装到5×5的Dojo训练瓦片（Tile）上。

这些瓦片每边有4.5TB/s的带宽，每个模组还有15kW的散热能力的封盖，减掉给40个I/O的散热，也就是说每个芯片的散热能力接近600W。

瓦片也包含了所有的液冷散热和机械封装，这和Cerebras公司推出的WES-2芯片的封装理念类似。

演讲最后结束时，特斯拉工程师Emil Talpes表达了如下观点：

“相反，在整个网格中我们依靠的是那种快速、分散的SRAM存储，这样能够得到更高数量级的互连速度支持。
我们最终的目标是追求可扩展性。我们已经不再强调CPU中常见的几种机制，像是一致性、虚拟内存、全局查找目录。只因为当我们扩展到非常大的系统时，这些机制并不能很好地随之扩展。”

【#英特尔新服务器GPU架构平台算力表现远超英伟达#】英特尔在近期的Hot Chips 34高效能运算年度技术大会中，公布了代号为“Sapphire Rapids”的Xeon服务器处理器，搭配代号“Ponte Vecchio”的服务器GPU建构平台，能做到比英伟达的A100 GPU强2.5倍运算效能。

依照英特尔的说明，代号“Ponte Vecchio”的服务器GPU将有三种基本配置模式，其中包含搭配代号“Sapphire Rapids”的Xeon伺服器处理器运作，同时也能独立使用，或是透过英特尔 oneAPI方式进行串接。

2-Stack形式的“Ponte Vecchio”约可在FP64/FP32运算模式下对应52 TFLOPS算力表现，在TF32（XMX Float 32）可对应419 TFLOPS算力，在BF16/FP16下可对应839 TFLOPS，至INT8运算模式下则可发挥1678 TFLOPS算力。在执行miniBUDE运算负载时，＂Ponte Vecchio”将可发挥A100 GPU的2倍算力。

而在“Ponte Vecchio”之后，英特尔日前也确定将接着推出代号“Rialto Bridge”的服务器GPU，预计会在2023年中向合作伙伴提供测试样品。#鸿儒计划#