今天初创芯片公司Cerebras Systems发布了号称世界上最快的AI芯片WSE-3,配备了高达4万亿个晶体管,通过2048个节点,性能可达256 exaFLOPs。我看了下社区反馈,据说芯片是极其昂贵的,说得最高的高达200万美金(如果2048个节点,那得多少钱)。
不过就像黄仁勋之前说的,芯片是个综合系统(数据中心)的配件,还是要综合成本。于是我查了一下Cerebras Systems的典型客户,其中两家是医药健康公司,还有一家是中东的投资公司。如果大家还有印象的话,我之前发过,Groq(号称最快的AI推理芯片)是和沙特阿美合作的。所以,中东看起来正在腾油换硅,把AI作为石油资源消耗后的重要储备(这也没毛病,不是号称数据和算力是新时代的石油)。
说到与GPU比较,大家自然会想到编程问题。Cerebras说,自己的芯片比GPU更容易编程,假设训练175亿参数的GPT-3,一个GPU需要20507行结合了Python、C/C++、CUDA和其他代码的代码,而WSE-3只需565行代码。不过如果真是这样,那就说明WSE-3是一个专用属性非常强的芯片。如果模型发生变化,那就意味着迁移成本。当然,我也是猜测。
另外,快与否需要再评判,这个芯片大是绝对的。图一是WSE-3和H100的比较,果然是晶圆级芯片。
目前流传较多的是官方新闻,我找了一篇美国科技媒体ZDNet的相对深度报道(观点比较正面,参考阅读)。
**
标题:Cerebras Systems的WSE-3,迄今为止最大的用于生成式AI的芯片
摘要:这款芯片的大小相当于一块完整的半导体晶圆,性能翻倍,能够处理拥有数十万亿参数的大型语言模型。
作者:Tiernan Ray,资深撰稿人 | ZDNet
2024年3月13日上午6:00 PT
Cerebras的WSE-3芯片,几乎与一整块12英寸的半导体晶圆一样大,是世界上最大的芯片,(尺寸)使Nvidia的H100 GPU相形见绌。这家AI初创公司指出,其CS-3计算机运行这款芯片可以处理如GPT-4这样的神经网络,假设参数量为24万亿。
为了不断扩大生成式人工智能模型的竞赛继续推动芯片行业的发展。周三,Cerebras Systems,Nvidia最主要的竞争对手之一,揭幕了“晶圆级引擎3”,即其AI芯片的第三代,也是世界上最大的半导体。
Cerebras在2021年4月发布了WSE-2。其后继产品WSE-3旨在训练AI模型,意味着精细调整它们的神经权重或参数,以优化它们的功能,然后才投入生产。
“性能翻倍,功耗和价格不变,所以这是一个真正的摩尔定律步骤,我们在我们的行业中已经很长时间没有见到过这样的事情了,”Cerebras联合创始人兼首席执行官Andrew Feldman在芯片的新闻发布会上表示,这次发布会在位于加利福尼亚州圣克拉拉的Colovore,这家初创公司的云托管合作伙伴的总部举行。
WSE-3将执行指令的速率翻倍,从62.5 petaFLOPs增加到125 petaFLOPs。一个petaFLOP指的是每秒1,000,000,000,000,000(1万亿)次浮点运算。
像其前代一样,几乎占满了整个12英寸晶圆的WSE-3将其晶体管尺寸从7纳米——十亿分之七米——缩小到5纳米,将晶体管数量从WSE-2的2.6万亿提升到4万亿。世界上最大的合同芯片制造商TSMC正在制造WSE-3。
Cerebras通过仅略微增加片上SRAM的内存容量,从40GB增加到44GB,并将计算核心数量从850,000增加到900,000,保持了逻辑晶体管与内存电路的比例不变。
“我们认为我们现在在计算和内存之间找到了正确的平衡,”Feldman在发布会上说。
与前两代芯片一样,Feldman将WSE-3的巨大尺寸与Nvidia当前的标准进行了比较,在这种情况下是H100 GPU,他在幻灯片中将其称为“这个可怜的,悲哀的部分”。
“它是57倍更大,”Feldman将WSE-3与Nvidia的H100进行比较时说。“它拥有52倍更多的核心。它拥有800倍更多的片上内存。它拥有7000倍更多的内存带宽和超过3700倍更多的布线带宽。这些都是性能的基础。”
“这将是一个真正的摩尔定律步骤,”Feldman说,提到新芯片每秒执行操作数量的翻倍,“我们已经很长时间没有在我们的行业中见到过这样的事情了。”
Cerebras使用额外的晶体管使每个计算核心变得更大,增强了某些功能,例如将“SIMD”能力加倍,这是影响每个时钟周期可以并行处理多少数据点的多处理功能。
这款芯片配备了新版本的机箱和电源供应,CS-3,现在可以聚集到2048台机器,比之前多10倍。这些组合起来的机器可以执行256 exaFLOPs,一千petaFLOPs,或四分之一zetaFLOP。
Feldman说,其CS-3计算机配备WSE-3可以处理理论上拥有24万亿参数的大型语言模型,这比顶尖的生成式AI工具如OpenAI的GPT-4,据传有1万亿参数,高出一个数量级。“整个24万亿参数可以在一台机器上运行,”Feldman说。
明确地说,Cerebras使用一个合成的大型语言模型进行了这种比较,该模型实际上并未经过训练。这只是WSE-3计算能力的一次演示。
Cerebras的机器比GPU更容易编程,Feldman说。为了训练175亿参数的GPT-3,一个GPU需要20507行结合了Python、C/C++、CUDA和其他代码的代码,而WSE-3只需565行代码。
对于原始性能,Feldman通过集群规模比较了训练时间。Feldman说,2048台CS-3的集群可以比Meta的AI训练集群快30倍训练Meta的700亿参数的Llama 2大型语言模型:1天对比30天。
“当你处理这么大的集群时,你可以为每个企业带来超级计算机自己使用的同样的计算能力,”Feldman说,“而且不仅可以做到他们所做的,还可以极大地加快速度。”
Feldman强调了机器的客户,包括G42,一家成立五年的投资公司,总部位于阿拉伯联合酋长国的阿布扎比。
Cerebras正在为G42在德克萨斯州达拉斯的设施“Condor Galaxy 3”工作,这是一个预计到2024年底将达到数十个exaFLOPs的九部分项目的下一部分。
像Nvidia一样,Cerebras目前的需求超过了它能满足的供应,Feldman说。这家初创公司有“大量积压的CS-3订单,横跨企业、政府和国际云。”
Feldman还宣布了与芯片巨头Qualcomm的合作伙伴关系,使用后者的AI 100处理器用于生成式AI的第二部分,即包括在实时流量上做出预测的推理过程。考虑到在生产中运行生成式AI模型的成本与参数计数成正比,Feldman指出,如果地球上的每个人都向它提交请求,运行ChatGPT的年成本可能达到1万亿美元。
这项合作采用了四种技术来降低推理成本。使用所谓的稀疏性,即忽略零值输入,Cerebras的软件可以消除多达80%的不必要计算,Feldman说。第二种技术,推测性解码,使用大型语言模型的一个较小版本进行预测,然后让一个更大的版本检查答案。Feldman解释说,这是因为检查模型的输出比首次产生输出消耗的能量要少。
第三种技术将模型的输出转换为MX6,这是一种编译版本,仅需要Qualcomm AI 100加速器通常所需内存的一半。最后,WSE-3的软件使用网络架构搜索来选择一部分参数进行编译并在AI 100上运行,这同样可以减少计算和内存使用。
这四种方法将Qualcomm芯片上每花费一美元处理的“token”数量提高了一个数量级,Feldman说,其中一个token可以是短语中的一个词的一部分,或者是开发者的“协助编程”中的一段计算机代码。在推理中,“性能等于成本,”Feldman指出。
“我们通过与Qualcomm合作并确保无缝的工作流程,大大减少了你必须花费在如何从你的训练参数过渡到你的生产推理上的时间,”Feldman说。
推理市场被广泛预计将成为AI竞赛中的一个更大焦点,因为推理从数据中心移动到更多的“边缘”设备,包括企业服务器甚至是能源受限设备如移动设备。
“我相信越来越多的简单推理将转移到边缘,而Qualcomm在那里有真正的优势,”Feldman说。
不过就像黄仁勋之前说的,芯片是个综合系统(数据中心)的配件,还是要综合成本。于是我查了一下Cerebras Systems的典型客户,其中两家是医药健康公司,还有一家是中东的投资公司。如果大家还有印象的话,我之前发过,Groq(号称最快的AI推理芯片)是和沙特阿美合作的。所以,中东看起来正在腾油换硅,把AI作为石油资源消耗后的重要储备(这也没毛病,不是号称数据和算力是新时代的石油)。
说到与GPU比较,大家自然会想到编程问题。Cerebras说,自己的芯片比GPU更容易编程,假设训练175亿参数的GPT-3,一个GPU需要20507行结合了Python、C/C++、CUDA和其他代码的代码,而WSE-3只需565行代码。不过如果真是这样,那就说明WSE-3是一个专用属性非常强的芯片。如果模型发生变化,那就意味着迁移成本。当然,我也是猜测。
另外,快与否需要再评判,这个芯片大是绝对的。图一是WSE-3和H100的比较,果然是晶圆级芯片。
目前流传较多的是官方新闻,我找了一篇美国科技媒体ZDNet的相对深度报道(观点比较正面,参考阅读)。
**
标题:Cerebras Systems的WSE-3,迄今为止最大的用于生成式AI的芯片
摘要:这款芯片的大小相当于一块完整的半导体晶圆,性能翻倍,能够处理拥有数十万亿参数的大型语言模型。
作者:Tiernan Ray,资深撰稿人 | ZDNet
2024年3月13日上午6:00 PT
Cerebras的WSE-3芯片,几乎与一整块12英寸的半导体晶圆一样大,是世界上最大的芯片,(尺寸)使Nvidia的H100 GPU相形见绌。这家AI初创公司指出,其CS-3计算机运行这款芯片可以处理如GPT-4这样的神经网络,假设参数量为24万亿。
为了不断扩大生成式人工智能模型的竞赛继续推动芯片行业的发展。周三,Cerebras Systems,Nvidia最主要的竞争对手之一,揭幕了“晶圆级引擎3”,即其AI芯片的第三代,也是世界上最大的半导体。
Cerebras在2021年4月发布了WSE-2。其后继产品WSE-3旨在训练AI模型,意味着精细调整它们的神经权重或参数,以优化它们的功能,然后才投入生产。
“性能翻倍,功耗和价格不变,所以这是一个真正的摩尔定律步骤,我们在我们的行业中已经很长时间没有见到过这样的事情了,”Cerebras联合创始人兼首席执行官Andrew Feldman在芯片的新闻发布会上表示,这次发布会在位于加利福尼亚州圣克拉拉的Colovore,这家初创公司的云托管合作伙伴的总部举行。
WSE-3将执行指令的速率翻倍,从62.5 petaFLOPs增加到125 petaFLOPs。一个petaFLOP指的是每秒1,000,000,000,000,000(1万亿)次浮点运算。
像其前代一样,几乎占满了整个12英寸晶圆的WSE-3将其晶体管尺寸从7纳米——十亿分之七米——缩小到5纳米,将晶体管数量从WSE-2的2.6万亿提升到4万亿。世界上最大的合同芯片制造商TSMC正在制造WSE-3。
Cerebras通过仅略微增加片上SRAM的内存容量,从40GB增加到44GB,并将计算核心数量从850,000增加到900,000,保持了逻辑晶体管与内存电路的比例不变。
“我们认为我们现在在计算和内存之间找到了正确的平衡,”Feldman在发布会上说。
与前两代芯片一样,Feldman将WSE-3的巨大尺寸与Nvidia当前的标准进行了比较,在这种情况下是H100 GPU,他在幻灯片中将其称为“这个可怜的,悲哀的部分”。
“它是57倍更大,”Feldman将WSE-3与Nvidia的H100进行比较时说。“它拥有52倍更多的核心。它拥有800倍更多的片上内存。它拥有7000倍更多的内存带宽和超过3700倍更多的布线带宽。这些都是性能的基础。”
“这将是一个真正的摩尔定律步骤,”Feldman说,提到新芯片每秒执行操作数量的翻倍,“我们已经很长时间没有在我们的行业中见到过这样的事情了。”
Cerebras使用额外的晶体管使每个计算核心变得更大,增强了某些功能,例如将“SIMD”能力加倍,这是影响每个时钟周期可以并行处理多少数据点的多处理功能。
这款芯片配备了新版本的机箱和电源供应,CS-3,现在可以聚集到2048台机器,比之前多10倍。这些组合起来的机器可以执行256 exaFLOPs,一千petaFLOPs,或四分之一zetaFLOP。
Feldman说,其CS-3计算机配备WSE-3可以处理理论上拥有24万亿参数的大型语言模型,这比顶尖的生成式AI工具如OpenAI的GPT-4,据传有1万亿参数,高出一个数量级。“整个24万亿参数可以在一台机器上运行,”Feldman说。
明确地说,Cerebras使用一个合成的大型语言模型进行了这种比较,该模型实际上并未经过训练。这只是WSE-3计算能力的一次演示。
Cerebras的机器比GPU更容易编程,Feldman说。为了训练175亿参数的GPT-3,一个GPU需要20507行结合了Python、C/C++、CUDA和其他代码的代码,而WSE-3只需565行代码。
对于原始性能,Feldman通过集群规模比较了训练时间。Feldman说,2048台CS-3的集群可以比Meta的AI训练集群快30倍训练Meta的700亿参数的Llama 2大型语言模型:1天对比30天。
“当你处理这么大的集群时,你可以为每个企业带来超级计算机自己使用的同样的计算能力,”Feldman说,“而且不仅可以做到他们所做的,还可以极大地加快速度。”
Feldman强调了机器的客户,包括G42,一家成立五年的投资公司,总部位于阿拉伯联合酋长国的阿布扎比。
Cerebras正在为G42在德克萨斯州达拉斯的设施“Condor Galaxy 3”工作,这是一个预计到2024年底将达到数十个exaFLOPs的九部分项目的下一部分。
像Nvidia一样,Cerebras目前的需求超过了它能满足的供应,Feldman说。这家初创公司有“大量积压的CS-3订单,横跨企业、政府和国际云。”
Feldman还宣布了与芯片巨头Qualcomm的合作伙伴关系,使用后者的AI 100处理器用于生成式AI的第二部分,即包括在实时流量上做出预测的推理过程。考虑到在生产中运行生成式AI模型的成本与参数计数成正比,Feldman指出,如果地球上的每个人都向它提交请求,运行ChatGPT的年成本可能达到1万亿美元。
这项合作采用了四种技术来降低推理成本。使用所谓的稀疏性,即忽略零值输入,Cerebras的软件可以消除多达80%的不必要计算,Feldman说。第二种技术,推测性解码,使用大型语言模型的一个较小版本进行预测,然后让一个更大的版本检查答案。Feldman解释说,这是因为检查模型的输出比首次产生输出消耗的能量要少。
第三种技术将模型的输出转换为MX6,这是一种编译版本,仅需要Qualcomm AI 100加速器通常所需内存的一半。最后,WSE-3的软件使用网络架构搜索来选择一部分参数进行编译并在AI 100上运行,这同样可以减少计算和内存使用。
这四种方法将Qualcomm芯片上每花费一美元处理的“token”数量提高了一个数量级,Feldman说,其中一个token可以是短语中的一个词的一部分,或者是开发者的“协助编程”中的一段计算机代码。在推理中,“性能等于成本,”Feldman指出。
“我们通过与Qualcomm合作并确保无缝的工作流程,大大减少了你必须花费在如何从你的训练参数过渡到你的生产推理上的时间,”Feldman说。
推理市场被广泛预计将成为AI竞赛中的一个更大焦点,因为推理从数据中心移动到更多的“边缘”设备,包括企业服务器甚至是能源受限设备如移动设备。
“我相信越来越多的简单推理将转移到边缘,而Qualcomm在那里有真正的优势,”Feldman说。
看来郑州富士康周边的出租房,要涨价了啊
港区的张庄现在拆迁在即
村口的红条幅到处宣传搬迁,当然也有好多打工人都准备协助业主做最牛钉子户!毕竟除去都市村庄以外,再去找便宜房子就不好找了!也有很多人不相信会拆,持续观望中!
作为航空港区富士康附近最大的都市村庄,张庄要拆迁的新闻也有好几年了,很多人都说不会拆,但是当年的“小香港”陈寨的规模比这还大,但是说拆还是拆了,作为一个集中大量郑漂的聚集地,这里的晚上非常的热闹,小摊贩,网吧,估计也要成为历史了!
很多人说拆迁后张庄又迎来一波有钱的拆二代,毕竟2016年,郑州市区的几个都市村庄拆迁后,郑州的房价迎来了翻倍,而且张庄的拆迁,更有利于航空港区的规划与发展,对于港区张庄的拆迁,很多人认为郑州港区附近的房价会迎来小幅度的涨价,你认为呢? https://t.cn/RJPFvJV
港区的张庄现在拆迁在即
村口的红条幅到处宣传搬迁,当然也有好多打工人都准备协助业主做最牛钉子户!毕竟除去都市村庄以外,再去找便宜房子就不好找了!也有很多人不相信会拆,持续观望中!
作为航空港区富士康附近最大的都市村庄,张庄要拆迁的新闻也有好几年了,很多人都说不会拆,但是当年的“小香港”陈寨的规模比这还大,但是说拆还是拆了,作为一个集中大量郑漂的聚集地,这里的晚上非常的热闹,小摊贩,网吧,估计也要成为历史了!
很多人说拆迁后张庄又迎来一波有钱的拆二代,毕竟2016年,郑州市区的几个都市村庄拆迁后,郑州的房价迎来了翻倍,而且张庄的拆迁,更有利于航空港区的规划与发展,对于港区张庄的拆迁,很多人认为郑州港区附近的房价会迎来小幅度的涨价,你认为呢? https://t.cn/RJPFvJV
关于黑人加入中国国籍归属为“汉族”的问题,我们应该明确表示,这种做法不仅缺乏严谨性,而且可能被视为对汉族人民的尊重的冒犯。有一句话说得好:“水至清则无鱼,人至察则无徒。”
如今,咱们国家的大门越开越大,外国人来华生活、工作并加入中国国籍的事情也愈来愈多见。可问题是,一些人将这些新中国人直接标记为“汉族”,这可不是个简单的事情。
要说起这个问题,得从中国的民族大家庭说起。咱中国可是个民族大熔炉,有56个民族啊,每个民族都有着自己的文化传统和历史。而汉族嘛,可谓是中国历史的重要角色,数千年来,他们在长江、黄河流域创造了璀璨的文明。不过,汉族也一直以来都是开放包容的,欢迎各种文化的融合。
不过,近年来,有些外国人加入中国国籍后,被一刀切地归类为“汉族”。这可就有点儿牵强了。毕竟,外国人和汉族在很多方面,比如语言、饮食、宗教信仰等,都有着不同的文化背景。直接把他们算成汉族,不仅不尊重人家的文化认同,还可能给汉族带来些困扰。
其实,解决这个问题也并不是没有办法。或许,可以考虑增加一个新的民族分类,比如“外族”或者“其他”,这样能更准确地反映新中国人的文化身份。可问题不止于此。
近年来,非法移民问题也愈发严重,尤其是在广州三元里地区。据说,那里曾经聚集了成千上万来自非洲各国的非法移民,搞得当地治安一度很乱。警方采取了巡逻、遣返等措施,虽然情况有所缓解,但问题依然存在。更让人忧心的是,一些非法移民竟然想通过与中国女性结婚生子的方式来合法留在中国,这不仅违法,也损害了中国女性的权益。
公安部门虽然已经加大了打击力度,但也要重视背后反映的问题,比如入境申请程序是否太繁琐,是否需要更便捷的合法渠道等。非法移民问题虽然严峻,但也不能束手待毙。
我们需要进一步完善法律和政策,保障国家利益和社会公平。同时,加强法制宣传教育也是至关重要的。毕竟,人口流动是个复杂的问题,我们要从尊重多元文化的角度来认真对待。面对这些挑战,我们不能退缩,更不能漠视。
唯有在开放中求发展,在包容中求共识,才能让中华民族大家庭走向更美好的未来。只有如此,我们才能真正体现出“兼容并包”的伟大精神,让我们的国家更加强大、更加美好。
如今,咱们国家的大门越开越大,外国人来华生活、工作并加入中国国籍的事情也愈来愈多见。可问题是,一些人将这些新中国人直接标记为“汉族”,这可不是个简单的事情。
要说起这个问题,得从中国的民族大家庭说起。咱中国可是个民族大熔炉,有56个民族啊,每个民族都有着自己的文化传统和历史。而汉族嘛,可谓是中国历史的重要角色,数千年来,他们在长江、黄河流域创造了璀璨的文明。不过,汉族也一直以来都是开放包容的,欢迎各种文化的融合。
不过,近年来,有些外国人加入中国国籍后,被一刀切地归类为“汉族”。这可就有点儿牵强了。毕竟,外国人和汉族在很多方面,比如语言、饮食、宗教信仰等,都有着不同的文化背景。直接把他们算成汉族,不仅不尊重人家的文化认同,还可能给汉族带来些困扰。
其实,解决这个问题也并不是没有办法。或许,可以考虑增加一个新的民族分类,比如“外族”或者“其他”,这样能更准确地反映新中国人的文化身份。可问题不止于此。
近年来,非法移民问题也愈发严重,尤其是在广州三元里地区。据说,那里曾经聚集了成千上万来自非洲各国的非法移民,搞得当地治安一度很乱。警方采取了巡逻、遣返等措施,虽然情况有所缓解,但问题依然存在。更让人忧心的是,一些非法移民竟然想通过与中国女性结婚生子的方式来合法留在中国,这不仅违法,也损害了中国女性的权益。
公安部门虽然已经加大了打击力度,但也要重视背后反映的问题,比如入境申请程序是否太繁琐,是否需要更便捷的合法渠道等。非法移民问题虽然严峻,但也不能束手待毙。
我们需要进一步完善法律和政策,保障国家利益和社会公平。同时,加强法制宣传教育也是至关重要的。毕竟,人口流动是个复杂的问题,我们要从尊重多元文化的角度来认真对待。面对这些挑战,我们不能退缩,更不能漠视。
唯有在开放中求发展,在包容中求共识,才能让中华民族大家庭走向更美好的未来。只有如此,我们才能真正体现出“兼容并包”的伟大精神,让我们的国家更加强大、更加美好。
✋热门推荐