【Sora 和之前 Runway 那些在架构上有啥区别呢?】

简单来说 Runway 是基于扩散模型(Diffusion Model)的,而 Sora 是基于 Diffusion Transformer。

Runway、Stable Diffusion 是基于扩散模型(Diffusion Model),扩散模型(Diffusion Model)的训练过程是通过多个步骤逐渐向图片增加噪点,直到图片变成完全无结构的噪点图片,然后在生成图片的时候,基于一张完全噪点的图片,逐步减少噪点,直到还原出一张清晰的图片。

文本模型像 GPT-4 则是 Transformer 模型。Transformer 则是一套编码器和解码器的架构,将文本编码成数字向量,然后解码的时候从数字向量还原出文本。

Sora 则是一个融合了两者的 Diffusion Transformer 模型。通过 Transformer 的编码器 - 解码器架构处理含噪点的输入图像,并在每一步预测出更清晰的图像版本。编码器负责对含噪点的输入进行编码,而解码器则负责生成更清晰图像的预测。

GPT-4 被训练以处理一串 Token,并预测出下一个 Token。Sora 不是预测序列中的下一个文本,而是预测序列中的下一个“Patch”。

在文本预测生成中,基本单位是 Token,Token 很好理解,就是一个单词或者单词的一部分。Patch 的概念相对不那么好理解,不过今天看到一篇文章,作者举了个很好的例子。

想象一下《黑暗骑士》的电影胶片,将一卷胶片绕在一个金属盘上,然后挂在一个老式电影院的投影机上。

你把电影胶卷从盘中展开,然后剪下最前面的 100 帧。你挑出每一帧——这里是小丑疯狂大笑,那里是蝙蝠侠痛苦的表情——并进行以下不同寻常的操作:

你拿起一把 X-acto 精细刻刀,在第一帧电影胶片上剪出一个变形虫状的图案。你像处理精密仪器一样小心翼翼地用镊子提取这片形似变形虫的胶片,然后安全地保存起来。之后,你处理下一帧:在接下来的胶片上切出同样位置、同样形状的变形虫图案。你再次用镊子小心地取出这个新的变形虫形状的胶片——形状与前一个完全相同——并将其精确地放置在第一个之上。你这样做,直到完成所有的 100 帧。

你现在有了一个色彩斑斓的变形虫,沿着 Y 轴扩展。这是一座可以通过投影机播放《黑暗骑士》的小片段的胶片塔,就好像有人在投影机前握着拳头,只让电影的一小部分影像从拳心通过。

然后,这座胶片塔被压缩并转化为所谓的“Patch”——一种随时间变化的色块。

Patch 的创新之处——以及 Sora 之所以显得如此强大——在于它们让 OpenAI 能够在大量的图像和视频数据上训练 Sora。想象一下从每一个存在的视频中剪出的 Patch——无尽的胶片塔——被堆叠起来并输入到模型中。

以前的文本转视频方法需要训练时使用的所有图片和视频都要有相同的大小,这就需要大量的预处理工作来裁剪视频至适当的大小。但是,由于 Sora 是基于“Patch”而非视频的全帧进行训练的,它可以处理任何大小的视频或图片,无需进行裁剪。

因此,可以有更多的数据用于训练,得到的输出质量也会更高。例如,将视频预处理至新的长宽比通常会导致视频的原始构图丢失。一个在宽屏中心呈现人物的视频,裁剪后可能只能部分展示该人物。因为 Sora 能接收任何视频作为训练输入,所以其输出不会受到训练输入构图不良的影响。

在结合前面提到的 Diffusion Transformer 架构,OpenAI 可以在训练 Sora 时倾注更多的数据和计算资源,从而得到令人惊叹的效果。

另外 Sora 刚发布视频时,能模拟出咖啡在杯子里溅出的液体动力学,以至于有人以为是连接了游戏引擎,但实际上 Sora 还是基于生成式模型,这是因为 Sora 在训练时,使用了大量的视频数据,这些视频中包含了大量的物理规则,所以 Sora 能够模拟出液体动力学。这类似于 GPT-4 在训练时,使用了大量的代码来作为训练数据,所以 GPT-4 能够生成代码。

重要论文:
《Scalable Diffusion Models with Transformers》

https://t.cn/A6KYFfkh

《Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution》

https://t.cn/A602O8Dq

原文:

《How Sora Works (And What It Means)》

https://t.cn/A6Y6k77y

问:Sora 和之前 Runway 那些在架构上有啥区别呢?

答:简单来说 Runway 是基于扩散模型(Diffusion Model)的,而 Sora 是基于 Diffusion Transformer。

Runway、Stable Diffusion 是基于扩散模型(Diffusion Model),扩散模型(Diffusion Model)的训练过程是通过多个步骤逐渐向图片增加噪点,直到图片变成完全无结构的噪点图片,然后在生成图片的时候,基于一张完全噪点的图片,逐步减少噪点,直到还原出一张清晰的图片。

文本模型像 GPT-4 则是 Transformer 模型。Transformer 则是一套编码器和解码器的架构,将文本编码成数字向量,然后解码的时候从数字向量还原出文本。

Sora 则是一个融合了两者的 Diffusion Transformer 模型。通过 Transformer 的编码器 - 解码器架构处理含噪点的输入图像,并在每一步预测出更清晰的图像版本。编码器负责对含噪点的输入进行编码,而解码器则负责生成更清晰图像的预测。

GPT-4 被训练以处理一串 Token,并预测出下一个 Token。Sora 不是预测序列中的下一个文本,而是预测序列中的下一个“Patch”。

在文本预测生成中,基本单位是 Token,Token 很好理解,就是一个单词或者单词的一部分。Patch 的概念相对不那么好理解,不过今天看到一篇文章,作者举了个很好的例子。

想象一下《黑暗骑士》的电影胶片,将一卷胶片绕在一个金属盘上,然后挂在一个老式电影院的投影机上。

你把电影胶卷从盘中展开,然后剪下最前面的 100 帧。你挑出每一帧——这里是小丑疯狂大笑,那里是蝙蝠侠痛苦的表情——并进行以下不同寻常的操作:

你拿起一把 X-acto 精细刻刀,在第一帧电影胶片上剪出一个变形虫状的图案。你像处理精密仪器一样小心翼翼地用镊子提取这片形似变形虫的胶片,然后安全地保存起来。之后,你处理下一帧:在接下来的胶片上切出同样位置、同样形状的变形虫图案。你再次用镊子小心地取出这个新的变形虫形状的胶片——形状与前一个完全相同——并将其精确地放置在第一个之上。你这样做,直到完成所有的 100 帧。

你现在有了一个色彩斑斓的变形虫,沿着 Y 轴扩展。这是一座可以通过投影机播放《黑暗骑士》的小片段的胶片塔,就好像有人在投影机前握着拳头,只让电影的一小部分影像从拳心通过。

然后,这座胶片塔被压缩并转化为所谓的“Patch”——一种随时间变化的色块。

Patch 的创新之处——以及 Sora 之所以显得如此强大——在于它们让 OpenAI 能够在大量的图像和视频数据上训练 Sora。想象一下从每一个存在的视频中剪出的 Patch——无尽的胶片塔——被堆叠起来并输入到模型中。

以前的文本转视频方法需要训练时使用的所有图片和视频都要有相同的大小,这就需要大量的预处理工作来裁剪视频至适当的大小。但是,由于 Sora 是基于“Patch”而非视频的全帧进行训练的,它可以处理任何大小的视频或图片,无需进行裁剪。

因此,可以有更多的数据用于训练,得到的输出质量也会更高。例如,将视频预处理至新的长宽比通常会导致视频的原始构图丢失。一个在宽屏中心呈现人物的视频,裁剪后可能只能部分展示该人物。因为 Sora 能接收任何视频作为训练输入,所以其输出不会受到训练输入构图不良的影响。

在结合前面提到的 Diffusion Transformer 架构,OpenAI 可以在训练 Sora 时倾注更多的数据和计算资源,从而得到令人惊叹的效果。

另外 Sora 刚发布视频时,能模拟出咖啡在杯子里溅出的液体动力学,以至于有人以为是连接了游戏引擎,但实际上 Sora 还是基于生成式模型,这是因为 Sora 在训练时,使用了大量的视频数据,这些视频中包含了大量的物理规则,所以 Sora 能够模拟出液体动力学。这类似于 GPT-4 在训练时,使用了大量的代码来作为训练数据,所以 GPT-4 能够生成代码。

有两篇论文:
《Scalable Diffusion Models with Transformers》https://t.cn/A6KYFfkh
《Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution》https://t.cn/A602O8Dq

包含更多专业细节。

顺便说一下,两篇论文好像都来自Google,并且似乎Sora项目是在这两篇论文发表后才启动的。

还有电影胶片+变形虫的例子来自《How Sora Works (And What It Means)》
https://t.cn/A6Y6k77y
译文:https://t.cn/A6Y6k772

本文收录于:https://t.cn/A6Y6k77L

我妈现在要把手机拿走了 又没法检查上传了、、okayyy my mom’s about to take her phone with her now so I can’t check on my uploads again and I will do the work that requires no checking such as checking on the news and gathering photos for my design sets and getting my content for later ready ,,, but yahhh definitely need to get funded so I can have my equipment all ready ,,, ohhh nice I saw Mr. Gates already niceeeee !!!! So sweet seeing all my bosses make me really happy ,,, okayyy I’m going to give back my mom her phone like now so she can go to the supermarket with it ,,, so I’ll see y’all in a little bit ,,, I still have about 16 sets from Mr. Musk alone and more from PayPal too cause I spot Mr. Musk posting how nice !!!! Love love love Mr. Musk and PayPal and all my bosses and their companies and everyone and their work !!!!


发布     👍 0 举报 写留言 🖊   
✋热门推荐
  • 双方领导实地考察正在修建中的实验室 “作为科学服务行业领域的世界领导者,赛默飞一直践行着‘扎根中国,服务中国’的承诺,”赛默飞中国区总裁艾礼德(Tony Acc
  • 其实这两个问题有着同样的答案——只要真心爱过付出过的人,想要全身而退是不可能的,认真过的男人,没有一个会在分手后马上彻底放下。#挽回前男友男朋友前任# 第二步
  • 补充:如果选择学科英语那么大概率从事中小学教师工作,但因为不太了解新闻行业,所以不知道如果选择国新,那从事的工作大概有些什么呀?从考试形式上来看都是分为听、说、
  • ”日经于报道最后分析称:(任天堂)本季度也没有令人眼前一亮的新机型发布,在这种情况下, 要想完成销售计划,就必须在剩下九个月内卖出近1800万台(游戏机)难度很
  • 近期爱用好物分享✨ haba g露0负担,水一样的质地,非常清爽,夏天就应该有一款清爽不黏腻得水来修复屏障。我就会用它,严重还会湿敷(不要学我),可以快速褪红,
  • 走远的,只是过眼云烟;留下的,才是值得珍惜的情缘。走远的,只是过眼云烟;留下的,才是值得珍惜的情缘。
  • 他那所谓的解释以及不顾熟睡的宝宝,高声怒吼以及不顾家里老人感受执意睡客厅的时候,我觉得我真的是顾及得太多了以及在乎他太多了我也想过不说,可是我一想到他是我接下来
  • 这对我来说就像一个梦想工程这就是为什么我相信弗洛基的长期潜力。这对我来说就像一个梦想工程这就是为什么我相信弗洛基的长期潜力。
  • 而后,这位热心居民还带着民警和老人挨家挨户在小区内询问,最终于20时许,找到了老人的孙子杨先生的家。而后,这位热心居民还带着民警和老人挨家挨户在小区内询问,最终
  •   大会主席王书侯大哥致词:本总部在各位德高望重,贡献卓越的前辈及现任各位名誉主席,各位副主席及全体理监事大哥,义姐的共同努力支持下,秉承先辈“忠心义气、致力为
  • 酱心是个不愿受约束的女子 就连头发上都不允许扎小辫或戴发卡 但她那厚重的刘海在这炎热的夏天属实有些闷热,我都担心她脑门起痱子 试图几次把她的头发扎起来 但三秒后
  • 走进去的时候,端着炒锅的女老板正向客人推销着最后一只红膏蟹,那客人和我一样来自北方,他从未吃过蟹面,女老板笑了笑,“你就听我飞珠的吧,舟山人从小就这么吃”。”男
  • [舔屏][舔屏][黑线] (顺便抽人送一本较热的亲,帮忙up就可以了) 夏日旅行海洋世界沉浸式浪漫体验 炎炎夏日酷暑难耐避暑胜地莫过于去海边了但是精致女孩也不想
  • 这样的安排,也是有感于这本书提到的,“儿童的敏 感期从出生一直持续到五六岁”时间可以挤,哪里没有啊,晚上到睡觉,早上起床到baby醒,前几天我跟darling提
  • 体验了一下,在漫长的无聊的等待过程中和很多上进的考公人聊了天,发现考公也是个很卷的路,周围也很多优秀的人,也有很多工作两三年来考公,应验了宇宙的尽头是考公那句话
  • 这个市场是没有多空的,多空本就是一家,资金想让它涨,他就得涨,橡胶比如各地复产复工,产地胶农开始砍树了,原油上涨,和成胶成本增加,胶水涨价,战略物资等等,资金想
  • #数码资讯##科技#华为Mate50系列入网了,DCO-AL00应该是Mate50 Pro,最高支持66W快充,没有上100W快充稍微有点遗憾。2.华为Mate
  • 列如戊辰、辛酉、丁丑、壬寅,伤官高透透年干,日支又坐食神,而代表丈夫的正官星却落在时干,主婚姻不顺或晚婚,选择配偶挑剔。6、八字中伤官旺、食神多伤官旺,食神多的
  • 你身上干净耀眼的少年气,晴朗了我少女时代所有的欢喜糟糕的日子总有尽头,你看春天有明晃晃的光,轻轻的风吹着但不冷,可以收集每一天的日落和星光。也许痛苦的时候是在前
  • #创业[超话]# 给‮娇我‬娇点个赞​‎ ͏ 这玩‮融金‬的人 ‮光眼‬很毒一般的品‮一 ‬般的模式 ,‮真她‬的看不上毕竟金融的圈子‮ 里‬,动‮动不‬几分‮