#SEVENTEEN[超话]#
【240219】pledis_17更新

[NEWS] Additional Super (Workout Remix) Stationhead Listening Parties

️ 2.20 09:00 KST
️ 2.21 10:00 KST
️ 2.22 11:00 KST

How to join the Listening Party
1) Download and log-in to @ STATIONHEAD
2) Connect to your @ AppleMusic or @ Spotify account
3) Tune in and follow stationhead.com/seventeen

[转载标明出处]
✨束草汇总博https://t.cn/A6Ct3R0A
✨招新公告https://t.cn/A6JUnfZg

【Sora 和之前 Runway 那些在架构上有啥区别呢?】

简单来说 Runway 是基于扩散模型(Diffusion Model)的,而 Sora 是基于 Diffusion Transformer。

Runway、Stable Diffusion 是基于扩散模型(Diffusion Model),扩散模型(Diffusion Model)的训练过程是通过多个步骤逐渐向图片增加噪点,直到图片变成完全无结构的噪点图片,然后在生成图片的时候,基于一张完全噪点的图片,逐步减少噪点,直到还原出一张清晰的图片。

文本模型像 GPT-4 则是 Transformer 模型。Transformer 则是一套编码器和解码器的架构,将文本编码成数字向量,然后解码的时候从数字向量还原出文本。

Sora 则是一个融合了两者的 Diffusion Transformer 模型。通过 Transformer 的编码器 - 解码器架构处理含噪点的输入图像,并在每一步预测出更清晰的图像版本。编码器负责对含噪点的输入进行编码,而解码器则负责生成更清晰图像的预测。

GPT-4 被训练以处理一串 Token,并预测出下一个 Token。Sora 不是预测序列中的下一个文本,而是预测序列中的下一个“Patch”。

在文本预测生成中,基本单位是 Token,Token 很好理解,就是一个单词或者单词的一部分。Patch 的概念相对不那么好理解,不过今天看到一篇文章,作者举了个很好的例子。

想象一下《黑暗骑士》的电影胶片,将一卷胶片绕在一个金属盘上,然后挂在一个老式电影院的投影机上。

你把电影胶卷从盘中展开,然后剪下最前面的 100 帧。你挑出每一帧——这里是小丑疯狂大笑,那里是蝙蝠侠痛苦的表情——并进行以下不同寻常的操作:

你拿起一把 X-acto 精细刻刀,在第一帧电影胶片上剪出一个变形虫状的图案。你像处理精密仪器一样小心翼翼地用镊子提取这片形似变形虫的胶片,然后安全地保存起来。之后,你处理下一帧:在接下来的胶片上切出同样位置、同样形状的变形虫图案。你再次用镊子小心地取出这个新的变形虫形状的胶片——形状与前一个完全相同——并将其精确地放置在第一个之上。你这样做,直到完成所有的 100 帧。

你现在有了一个色彩斑斓的变形虫,沿着 Y 轴扩展。这是一座可以通过投影机播放《黑暗骑士》的小片段的胶片塔,就好像有人在投影机前握着拳头,只让电影的一小部分影像从拳心通过。

然后,这座胶片塔被压缩并转化为所谓的“Patch”——一种随时间变化的色块。

Patch 的创新之处——以及 Sora 之所以显得如此强大——在于它们让 OpenAI 能够在大量的图像和视频数据上训练 Sora。想象一下从每一个存在的视频中剪出的 Patch——无尽的胶片塔——被堆叠起来并输入到模型中。

以前的文本转视频方法需要训练时使用的所有图片和视频都要有相同的大小,这就需要大量的预处理工作来裁剪视频至适当的大小。但是,由于 Sora 是基于“Patch”而非视频的全帧进行训练的,它可以处理任何大小的视频或图片,无需进行裁剪。

因此,可以有更多的数据用于训练,得到的输出质量也会更高。例如,将视频预处理至新的长宽比通常会导致视频的原始构图丢失。一个在宽屏中心呈现人物的视频,裁剪后可能只能部分展示该人物。因为 Sora 能接收任何视频作为训练输入,所以其输出不会受到训练输入构图不良的影响。

在结合前面提到的 Diffusion Transformer 架构,OpenAI 可以在训练 Sora 时倾注更多的数据和计算资源,从而得到令人惊叹的效果。

另外 Sora 刚发布视频时,能模拟出咖啡在杯子里溅出的液体动力学,以至于有人以为是连接了游戏引擎,但实际上 Sora 还是基于生成式模型,这是因为 Sora 在训练时,使用了大量的视频数据,这些视频中包含了大量的物理规则,所以 Sora 能够模拟出液体动力学。这类似于 GPT-4 在训练时,使用了大量的代码来作为训练数据,所以 GPT-4 能够生成代码。

重要论文:
《Scalable Diffusion Models with Transformers》

https://t.cn/A6KYFfkh

《Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution》

https://t.cn/A602O8Dq

原文:

《How Sora Works (And What It Means)》

https://t.cn/A6Y6k77y

问:Sora 和之前 Runway 那些在架构上有啥区别呢?

答:简单来说 Runway 是基于扩散模型(Diffusion Model)的,而 Sora 是基于 Diffusion Transformer。

Runway、Stable Diffusion 是基于扩散模型(Diffusion Model),扩散模型(Diffusion Model)的训练过程是通过多个步骤逐渐向图片增加噪点,直到图片变成完全无结构的噪点图片,然后在生成图片的时候,基于一张完全噪点的图片,逐步减少噪点,直到还原出一张清晰的图片。

文本模型像 GPT-4 则是 Transformer 模型。Transformer 则是一套编码器和解码器的架构,将文本编码成数字向量,然后解码的时候从数字向量还原出文本。

Sora 则是一个融合了两者的 Diffusion Transformer 模型。通过 Transformer 的编码器 - 解码器架构处理含噪点的输入图像,并在每一步预测出更清晰的图像版本。编码器负责对含噪点的输入进行编码,而解码器则负责生成更清晰图像的预测。

GPT-4 被训练以处理一串 Token,并预测出下一个 Token。Sora 不是预测序列中的下一个文本,而是预测序列中的下一个“Patch”。

在文本预测生成中,基本单位是 Token,Token 很好理解,就是一个单词或者单词的一部分。Patch 的概念相对不那么好理解,不过今天看到一篇文章,作者举了个很好的例子。

想象一下《黑暗骑士》的电影胶片,将一卷胶片绕在一个金属盘上,然后挂在一个老式电影院的投影机上。

你把电影胶卷从盘中展开,然后剪下最前面的 100 帧。你挑出每一帧——这里是小丑疯狂大笑,那里是蝙蝠侠痛苦的表情——并进行以下不同寻常的操作:

你拿起一把 X-acto 精细刻刀,在第一帧电影胶片上剪出一个变形虫状的图案。你像处理精密仪器一样小心翼翼地用镊子提取这片形似变形虫的胶片,然后安全地保存起来。之后,你处理下一帧:在接下来的胶片上切出同样位置、同样形状的变形虫图案。你再次用镊子小心地取出这个新的变形虫形状的胶片——形状与前一个完全相同——并将其精确地放置在第一个之上。你这样做,直到完成所有的 100 帧。

你现在有了一个色彩斑斓的变形虫,沿着 Y 轴扩展。这是一座可以通过投影机播放《黑暗骑士》的小片段的胶片塔,就好像有人在投影机前握着拳头,只让电影的一小部分影像从拳心通过。

然后,这座胶片塔被压缩并转化为所谓的“Patch”——一种随时间变化的色块。

Patch 的创新之处——以及 Sora 之所以显得如此强大——在于它们让 OpenAI 能够在大量的图像和视频数据上训练 Sora。想象一下从每一个存在的视频中剪出的 Patch——无尽的胶片塔——被堆叠起来并输入到模型中。

以前的文本转视频方法需要训练时使用的所有图片和视频都要有相同的大小,这就需要大量的预处理工作来裁剪视频至适当的大小。但是,由于 Sora 是基于“Patch”而非视频的全帧进行训练的,它可以处理任何大小的视频或图片,无需进行裁剪。

因此,可以有更多的数据用于训练,得到的输出质量也会更高。例如,将视频预处理至新的长宽比通常会导致视频的原始构图丢失。一个在宽屏中心呈现人物的视频,裁剪后可能只能部分展示该人物。因为 Sora 能接收任何视频作为训练输入,所以其输出不会受到训练输入构图不良的影响。

在结合前面提到的 Diffusion Transformer 架构,OpenAI 可以在训练 Sora 时倾注更多的数据和计算资源,从而得到令人惊叹的效果。

另外 Sora 刚发布视频时,能模拟出咖啡在杯子里溅出的液体动力学,以至于有人以为是连接了游戏引擎,但实际上 Sora 还是基于生成式模型,这是因为 Sora 在训练时,使用了大量的视频数据,这些视频中包含了大量的物理规则,所以 Sora 能够模拟出液体动力学。这类似于 GPT-4 在训练时,使用了大量的代码来作为训练数据,所以 GPT-4 能够生成代码。

有两篇论文:
《Scalable Diffusion Models with Transformers》https://t.cn/A6KYFfkh
《Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution》https://t.cn/A602O8Dq

包含更多专业细节。

顺便说一下,两篇论文好像都来自Google,并且似乎Sora项目是在这两篇论文发表后才启动的。

还有电影胶片+变形虫的例子来自《How Sora Works (And What It Means)》
https://t.cn/A6Y6k77y
译文:https://t.cn/A6Y6k772

本文收录于:https://t.cn/A6Y6k77L


发布     👍 0 举报 写留言 🖊   
✋热门推荐
  • 当记忆划过心田,一抹感念在尘世中摇曳,街边轻柔的音乐随风飘过,我猛然觉得,世事如若云烟,生命不过就是一场有来无回的单程旅行,要慢慢学会释然,学会调节,心存感恩,
  • ✈️✈️✈️,结缘,感谢老朋友支持3瓶风湿药,特效秘方风湿王胶囊专治风湿,类风湿,关节炎,坐骨神经,骨质增生,骨刺,肩周炎,痛风,腰椎,颈椎,腰腿疼痛,四肢麻木
  • 到了2015年以后,手里面的钱慢慢的就变多了,想要贷款买台奔驰也是能够买得起的,但是那时候奔驰的设计给我的感觉是越来越奇葩,可能一定程度上是稍微变得有点年轻了,
  • 哑铃抓用了10kg 大致是右手比较轻松 左手有点费力的重量 然而今天第一次发现哑铃抓很需要腿(。•ˇ‸ˇ•。)今天这个wod做完 腿软的感觉跟第一次来早课差不多
  • ”  青铜剑没入不死盾中,却带出了两个数字——  “312!”  青铜剑没入不死盾中,却带出了两个数字——  “312!
  • 你永远不知道自己有多坚强,直到有一天你除了坚强再无选择。模特出图只有自己变优秀,其他的事情才会跟着好起来,勇敢地生活,让梦想掷地有声,让爱的人不失所望。
  • [汤姆]为什么旧衣回收这么难,也可以看个小调查了解更多图源:该图片由Karsten Paulick在Pixabay上发布还在为家里的旧衣物多到没处放而烦恼吗?@
  • (腾格里新闻)#老西带你内蒙古游[超话]#《呼和浩特野生鸟》(755期) ——赤麻鸭 *赤麻鸭是呼和浩特常见留鸟数量庞大,它们栖息地的鸣叫声是大自然气氛的传递
  • #태형아_27번째_생일축하해 “너에겐 나만 아는 모습이 있어, 한여름밤 오는 첫눈같이, 믿기지 않는 기적 같은 놀라운 순간 넌, I'm
  • 作为主要原材料之一的陶瓷釉料,其种类也正在慢慢的变得丰富起来,同时其可以应用的范围也在慢慢的扩大,又因为它本身的性质可以为作品添加独特的魅力,因此也愈发的被越来
  • 就真的很讨厌现在的生活 家庭生活 不想懂事 不想委屈自己 不想自己绑架自己原以为和妈妈说过心里话 说过那些一直以来留在记忆深处的刺痛 她会去理解一点 会去替我考
  • 7、众鸟相与飞:喻众多趋炎附势之人依附新宋政权。知音苟不存,已矣何所悲。
  • get下小妙招,快速解决“肿么了”塑料饭盆容易造成鼻子褪色,[委屈]长时间使用会引起接触性皮肤炎。[打call]#防弹少年团粉丝不守蛆德# -[蜡烛]#防弹少年
  • 一段感情并不是当你付出了就会有收获,每个人在付出的同时,其实都是因为对对方的回馈是满怀期待的。一段感情并不是当你付出了就会有收获,每个人在付出的同时,其实都是因
  • 01“爱的秘密”当你爱上生命时,每一种限制都会消失,你破除了金钱、健康、快乐,以及你在人际关系中体会到的喜悦的限制;当你爱上生命时,就不会有任何阻力,而且无论你
  • 上周吃了两天B6喝了三天回奶汤刚刚去找雪娣做手法,再去做一两次就成功回奶,说我是她护理的产后宝妈里保养最好的,相信雪娣妈咪没错,圈里有生完宝宝想要开奶发汗什么的
  • 《那一年》 那一年。我为流水,你为落花。紧紧相随,一路蒹葭。 那一年。我为锦瑟,你为清茶。默默相对,几段情话。 那一年。我为海角,你为天涯。深深相守,累了月牙
  • 晚安友友们[爱你]元旦快乐[心]#龚俊[超话]#gj#龚俊湖南卫视跨年晚会# gj#龚俊沉睡花园# 去年,最开心的事是遇见了龚俊和一群可爱的俊味仙[爱你][爱你
  • 有心的人一定发现了,肖战在这部电视剧里,不论是演技,还是形象,都有非常大的进步。这几年有很多的电视剧都是这样的主题,甚至其他题材的电视剧都离不开谈恋爱的戏份。
  • 可是我又不想去复读,但是父皇说他到时候给我打点关系让我进老九门大学的盗墓专业,学校就在长沙,下课就能回家,盗墓专业虽说没有前两年那么热门了,但是到时候毕业出来找