【潜在扩散】：相比于直接在像素层面进行扩散，Sora模型在更紧凑的潜在空间中执行扩散

首页发布

【#最新Sora技术大揭秘：峰值要72万块H100，训练每月4200块GPU#】

Sora模型参数超675M，训练需要4211-10528个 Nvidia H100运行一个月；每段视频的计算成本约为708×10^15 FLOPS，H100大约每小时能生成5分钟的视频...如此详细的数据放出来，震惊整个业界！

近期，投资公司Factorial Funds深入剖析了OpenAI的Sora模型，带来了对其背后技术、算力需求以及商业前景的全面解读。Sora模型能够生成极为逼真的视频，引领了视频生成技术的新浪潮。但其背后的算力需求巨大，预计需要每月最少4200块Nvidia H100 GPU，峰值需求可能达到72万块。这一需求规模对GPU市场产生了重要影响，同时也反映了视频生成模型在技术发展道路上的重要一步。

Sora模型代表了生成式AI在视频生成领域的重大突破，其背后采用的扩散Transformer（DiT）技术和潜在扩散方法，显著提高了视频生成的效率和质量。与此同时，Sora模型的成功运作依赖于大规模的算力支持，预计在训练阶段每月需使用4200至10500个Nvidia H100 GPU。这一算力需求在AI模型训练中属于前所未有的规模。

Sora模型不仅在技术上取得了进展，同时也在开拓视频生成的应用前景，包括在Runway、Genmo和Pika等平台上构建直观的用户界面和工作流程。Sora的应用潜力广泛，从内容创作到教育培训，再到仿真和游戏开发，都将从中受益。

此外，Sora模型的研究也揭示了扩展定律在视频生成模型中的有效性。随着模型规模的增大和计算资源的增加，视频生成的质量和效率预计将继续提升。然而，这也意味着对GPU等计算资源的需求将持续增长，对硬件供应链产生深远影响。

Sora的开发和应用，不仅是技术上的一次飞跃，更是对未来视频内容生产方式的一次革命。随着技术的进一步成熟和应用的广泛推广，Sora及其后续模型将为视频内容创作和多媒体领域带来更多可能。

Sora模型技术架构：
【基础框架】：Sora模型基于扩散Transformer（DiT）和潜在扩散技术，有效扩展了模型和训练数据集，进而提升了视频生成的质量和效率。
【扩散模型】：采用逐步消除噪声的方式生成图像或视频，从纯噪声模式开始，逐步细化模式，最终转换为连贯且详细的输出。DiT-XL模型有675M参数，使用了大约1021 FLOPS的总计算量，相当于大约0.4 Nvidia H100s运行一个月。
【潜在扩散】：相比于直接在像素层面进行扩散，Sora模型在更紧凑的潜在空间中执行扩散，然后从潜在空间解码回像素空间，显著提高了计算效率。

算力需求分析：
【训练需求】：Sora模型的训练极为算力密集，预计1个月需要4200至10500个Nvidia H100 GPU。这一需求量在当前AI模型训练中属于非常高的规模。
【推理成本】：进行推断时，Sora模型每个Nvidia H100 GPU每小时最多可以生成约5分钟的视频。这意味着，尽管推理计算量相对训练来说较小，但随着模型应用的普及，推理计算的累积需求将非常庞大。

数据集和模型规模：
【数据集】：Sora模型的训练依赖于大规模、高质量的标记视频及其文本描述，这些数据的规模和质量直接影响模型的性能。
【模型参数】：Sora模型的规模远超过传统的图像生成模型，估计Sora的模型参数数量远超675M。如果假设一个20B参数的模型，相对于DiT，计算需求增加了30倍。

缩放定律的应用：
【性能提升】：与大型语言模型（LLM）类似，Sora模型的性能随着计算资源的增加而提升，符合缩放定律。
【未来发展】：基于缩放定律，预计Sora及其后续模型将通过进一步增加模型规模和训练计算，实现快速的性能提升。

推理计算估算：
【推理与训练计算】：训练计算是一次性的大量计算，而推理计算虽然较小，但随着模型的广泛应用，会被频繁调用。
【达到平衡点】：平衡点是指花费在推理上的计算量超过训练所需计算量的时刻。基于DiT到Sora的推算，Sora每生成一段视频的计算成本约为708×10^15 FLOPS，相当于每Nvidia H100 GPU大约能每小时生成5分钟视频。
【平衡点达成】：在生成15.3M到38.1M分钟视频后，推理计算将超过训练计算。考虑到YouTube每天上传的视频量约为43M分钟，这个平衡点在实际应用中很快就能达到！

商业应用与挑战：
【应用前景】：Sora模型的成功应用预示着AI视频生成技术在内容创作、娱乐、教育等领域的广泛应用潜力。
【挑战】：高昂的算力成本和资源需求成为Sora模型及其应用推广的主要挑战之一。同时，技术的进步也需考虑伦理和社会影响。

来源：https://t.cn/A6TbSILQ

#人工智能[超话]##ChatGPT[超话]##AI技术派#

第二天675+265=940，960公里，卧槽两天干了两千二百公里，960+1389.8+132+107=2588.中回程真不赖，7个单子，莆田厦门安定周口尉氏，满足了！！！支出300+340+390+200=1230+481+58+400=2169！吃饭住宿钱大概五百，基本花费持平了，去时也是持平，这一趟开车出行没花钱，完美！！尉氏景德镇莆田1930公里，来回4000公里了，一个人干，就这开车技术，嫩找我包车出去玩给个司机费还管导游策划，一点都不亏！ https://t.cn/RJyFXlG

20M19D
行程1⃣️
税务大厅最小办税陪同人员[嘻嘻]，工作内容主要吃饼干，喝水，心情很好，还和旁边的阿姨打招呼，说拜拜，临走前换了片纸尿裤[允悲]，完美[心][心]
行程2⃣️
打卡尚志公园[微风]
税务局出发步行675米到尚志公园，天气很好，阳光明媚，晒着暖暖的，公园人很多，也有小朋友，见到小朋友还哭了一鼻子，还是有点怕生，不过自己跑的很开心，喝了包酸奶补充能量，接着又爬了几阶假山，1.5小时电量耗尽，回家[嘻嘻]，吃过晚饭，拉了臭臭，6.50坐在马桶上睡了[笑cry]晚安宝贝

妈妈能量也已耗尽，睡觉