问:Sora 和之前 Runway 那些在架构上有啥区别呢?

答:简单来说 Runway 是基于扩散模型(Diffusion Model)的,而 Sora 是基于 Diffusion Transformer。

Runway、Stable Diffusion 是基于扩散模型(Diffusion Model),扩散模型(Diffusion Model)的训练过程是通过多个步骤逐渐向图片增加噪点,直到图片变成完全无结构的噪点图片,然后在生成图片的时候,基于一张完全噪点的图片,逐步减少噪点,直到还原出一张清晰的图片。

文本模型像 GPT-4 则是 Transformer 模型。Transformer 则是一套编码器和解码器的架构,将文本编码成数字向量,然后解码的时候从数字向量还原出文本。

Sora 则是一个融合了两者的 Diffusion Transformer 模型。通过 Transformer 的编码器 - 解码器架构处理含噪点的输入图像,并在每一步预测出更清晰的图像版本。编码器负责对含噪点的输入进行编码,而解码器则负责生成更清晰图像的预测。

GPT-4 被训练以处理一串 Token,并预测出下一个 Token。Sora 不是预测序列中的下一个文本,而是预测序列中的下一个“Patch”。

在文本预测生成中,基本单位是 Token,Token 很好理解,就是一个单词或者单词的一部分。Patch 的概念相对不那么好理解,不过今天看到一篇文章,作者举了个很好的例子。

想象一下《黑暗骑士》的电影胶片,将一卷胶片绕在一个金属盘上,然后挂在一个老式电影院的投影机上。

你把电影胶卷从盘中展开,然后剪下最前面的 100 帧。你挑出每一帧——这里是小丑疯狂大笑,那里是蝙蝠侠痛苦的表情——并进行以下不同寻常的操作:

你拿起一把 X-acto 精细刻刀,在第一帧电影胶片上剪出一个变形虫状的图案。你像处理精密仪器一样小心翼翼地用镊子提取这片形似变形虫的胶片,然后安全地保存起来。之后,你处理下一帧:在接下来的胶片上切出同样位置、同样形状的变形虫图案。你再次用镊子小心地取出这个新的变形虫形状的胶片——形状与前一个完全相同——并将其精确地放置在第一个之上。你这样做,直到完成所有的 100 帧。

你现在有了一个色彩斑斓的变形虫,沿着 Y 轴扩展。这是一座可以通过投影机播放《黑暗骑士》的小片段的胶片塔,就好像有人在投影机前握着拳头,只让电影的一小部分影像从拳心通过。

然后,这座胶片塔被压缩并转化为所谓的“Patch”——一种随时间变化的色块。

Patch 的创新之处——以及 Sora 之所以显得如此强大——在于它们让 OpenAI 能够在大量的图像和视频数据上训练 Sora。想象一下从每一个存在的视频中剪出的 Patch——无尽的胶片塔——被堆叠起来并输入到模型中。

以前的文本转视频方法需要训练时使用的所有图片和视频都要有相同的大小,这就需要大量的预处理工作来裁剪视频至适当的大小。但是,由于 Sora 是基于“Patch”而非视频的全帧进行训练的,它可以处理任何大小的视频或图片,无需进行裁剪。

因此,可以有更多的数据用于训练,得到的输出质量也会更高。例如,将视频预处理至新的长宽比通常会导致视频的原始构图丢失。一个在宽屏中心呈现人物的视频,裁剪后可能只能部分展示该人物。因为 Sora 能接收任何视频作为训练输入,所以其输出不会受到训练输入构图不良的影响。

在结合前面提到的 Diffusion Transformer 架构,OpenAI 可以在训练 Sora 时倾注更多的数据和计算资源,从而得到令人惊叹的效果。

另外 Sora 刚发布视频时,能模拟出咖啡在杯子里溅出的液体动力学,以至于有人以为是连接了游戏引擎,但实际上 Sora 还是基于生成式模型,这是因为 Sora 在训练时,使用了大量的视频数据,这些视频中包含了大量的物理规则,所以 Sora 能够模拟出液体动力学。这类似于 GPT-4 在训练时,使用了大量的代码来作为训练数据,所以 GPT-4 能够生成代码。

有两篇论文:
《Scalable Diffusion Models with Transformers》https://t.cn/A6KYFfkh
《Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution》https://t.cn/A602O8Dq

包含更多专业细节。

顺便说一下,两篇论文好像都来自Google,并且似乎Sora项目是在这两篇论文发表后才启动的。

还有电影胶片+变形虫的例子来自《How Sora Works (And What It Means)》
https://t.cn/A6Y6k77y
译文:https://t.cn/A6Y6k772

本文收录于:https://t.cn/A6Y6k77L

#以星航运ZIM# ISCMA正在供应链管理领域掀起波澜!

近日,ZIM在以色列总部举办了国际供应链管理协会(ISCMA)论坛,由Navit Adar担任本次活动领头人。

论坛在来宾们热情洋溢的交谈中拉开帷幕。ZIM以色列首席执行官Motti Avrashi向我们介绍了航运业充满挑战的未来,并描绘了他对未来发展的愿景。同时,ZIM全球可持续发展主管Shay Levy以行业专家的身份带领我们探讨了供应链可持续发展的广阔前景。这些富有洞察力与成效的讲座将成为推动我们走向供应链管理可持续发展未来的重要动力。

最后,ZIMARK首席执行官Karin Levy向来宾们展示了作为ZIM与Sodyo的合资企业,他们将如何使供应链流程变得更加智能和高效。

通过本次国际供应链管理协会论坛,我们希望在全球供应链管理的动态全景中发挥ZIM的作用,对行业的发展产生积极的影响。

Camelot | New Arrival
.

【Navit】

有淡金色的玫瑰香,会变得可爱

〝甜蜜的种子怎能把苦果结成”。Navit 代表的是愉悦。正如查理•马尔泰洛所说,”善使你登上的整个天国不住旋转,快乐无比,它使它的旨意,变成这些伟大天体中的能力。

珠宝领A-line 裙型的 Navit,以香水玫瑰色珠绣蕾丝制作而成。泡芙纱抓褶形成蛋糕裱立于前胸,过臂蔓延至后背。结合裙身淡彩花瓣状的拼贴效果,让Navit 更显活泼欢悦。

#合肥婚纱# #合肥备婚# #试纱##嫁衣馆# #备婚攻略# #最美礼服# #卡米洛婚纱# #合肥·Camelot卡米洛婚纱[地点]#


发布     👍 0 举报 写留言 🖊   
✋热门推荐
  • 东莞个人亲子鉴定费用2000-3000元,做个人亲子鉴定不需要到鉴定机构现场来,可以自己根据指引采集被鉴定人的样本,办理过程中是全程保密的,包括了咨询开始到办理
  • 杨老乐气不打一处来看了看被骂得没孩子样的两位侄子,不忿地斥责道:“不是你们俩干啥玩意了让人家给骂那熊色,听那逼娘们说那玩意是人说的话吗”明章眨了眨眼睛说:“那啥
  • 接下来的计划1 自我管理: 好好收拾下家里还有美容做起来,还得减肥,此乃重中之重,管住嘴真的好难,只有使劲运动了[污]2 把手上的论文啥的好好整整,之前欠的活抓
  • #刘诗诗#lss#刘诗诗狐妖小红娘竹业篇# 演技超赞刘诗诗人间温柔刘诗诗可盐可甜刘诗诗知性优雅刘诗诗乐观自信刘诗诗自由真实刘诗诗[掌宝爱心]处事不惊刘诗诗[憧憬
  • 正规的亲子鉴定有一系列的收费规定。一般来说,可靠的亲子鉴定机构会设立自己的官方网站来宣传自己的形象。
  • —大宝法王噶玛巴《修心八颂》好朋友的恋爱 震耳欲聋手工相册我也做过啊厚厚的一本藏着我热烈却破碎的青春,再遇见任何人 我都会认为他们都是不怀好意 都在欺骗着我我再
  • 关于我大半夜不睡觉 在肺结核超话到处乱窜的事我也是突然翻微博 翻到下面我自己肺结核的帖子(我真的超级喜欢翻自己以前发的帖子 然后回想当初为什么发这个 发生了什么
  • 以前我看到害人之人,都四五十岁死了,不择手段挣钱的人妻子,半身不遂,有的瘫痪了,有的妻离子散,家破人亡,今天站在多维空间才知道,人如掩耳盗铃太愚蠢了,头上三尺有
  • ”傅云瑾磕磕巴巴:“啊,那个……”就在这时,他看到K神表情微僵,随即毫不迟疑开口:“没、我没有嘲讽你,我就是……告诉你你什么都不需要做,跟在我身后超度敌人就可以
  • 平常心不是让生命枯萎,而是让生命之花在平和中傲然绽放@摩登兄弟刘宇宁刘宇宁一念关山[给力]刘宇宁珠帘玉幕刘宇宁魏劭[给力]刘宇宁折腰刘宇宁卓不凡[给力]刘宇宁天
  • 每个我第一次刷到觉得好神经、好逗的博主,之后都会深深爱上……喜欢这种有自己世界的有点二的人啊……我以前当rm粉的时候,就喜欢发弹幕夸好看的嘉宾(那时候优酷每周更
  • 暑假中的成败,只是暂时的,只有坚持发奋,才是永恒的。暑假中的成败,只是暂时的,只有坚持发奋,才是永恒的。
  • 去年的这时 还在睡梦中期待你的到来你踢着妈妈的肚皮 告诉妈妈你有多开心今夜因戒夜奶 抱着你哼拍入睡 不安分的你折腾着爸妈 这一年 因你 熬夜失眠 重生碎发 情绪
  • 龙年‮夕除‬文案:​‎ ͏ ❶ ' ,, 有盛天共赏 ‮家有‬人在旁❷²⁰²⁴/₂.₀₉ ˣⁱⁿ年快‮ 乐‬新ⁿⁱᵅⁿ快乐‮新 ‬年ᵏᵘᵅⁱ乐 新年快ˡᵉ❸
  • “我们应该用更美好的态度和眼睛去看待这个世界,然后去发现爱,拥有爱,然后去散播爱,我希望新的一年我们越来越好” @MIC檀健次JC-T #檀健次爱情有烟火#
  • 4、阳宅前方有大树,而树枝桔烂,主家人易有四肢方面之毛病。4、阳宅前方有大树,而树枝桔烂,主家人易有四肢方面之毛病。
  • #刘宇宁开始推理吧#|#刘宇宁南珩离十六#|#摩登兄弟[超话]# 你要相信总会有人捡起七零八落的你,然后笃定余生坚定的爱你。大后天上午开车奔德州,下午赴济南,
  • #鞠婧祎周边市场[超话]#挂一个人,在ks受骗的,起因是我在快手看看有没有人拼范琦,然后看到一个人拼,我就去私信问她,然后他说是45,然后当时我还是有点不放心
  • 豆瓣上有这样一个回答:在物欲纵横的年代里,读她写的故事,让我们这些忙着赶夜路的人,也发现月亮真的很美。她就把认得的字挨个念了出来,竟发现大概能理解,这让她深受触
  •   《omega幼崽穿到娃综爆火了》作者:鹤安   文案:   时漓是一位腺体残缺,闻不到信息素的omega,即使他在家将小蛋糕做得再好吃,手工做得再漂亮,亲人