【Meta推出视频预测模型V-JEPA:用AI补充视频受遮蔽部分】
Meta首席AI科学家Yann LeCun在2022年推出了JEPA(Joint Embedding Predictive Architectures)模型架构,次年基于JEPA架构开发了一款“I-JEPA”图片预测模型,目前又推出了一款名为“V-JEPA”的视频预测模型。#以科技敬生活#
据介绍,相关JEPA架构及I-JEPA/V-JPA模型主打“预测能力”,利用抽象性高效预测生成图片、视频中被遮蔽的部分。#龙里dance#
Meta首席AI科学家Yann LeCun在2022年推出了JEPA(Joint Embedding Predictive Architectures)模型架构,次年基于JEPA架构开发了一款“I-JEPA”图片预测模型,目前又推出了一款名为“V-JEPA”的视频预测模型。#以科技敬生活#
据介绍,相关JEPA架构及I-JEPA/V-JPA模型主打“预测能力”,利用抽象性高效预测生成图片、视频中被遮蔽的部分。#龙里dance#
一些对「视频生成模型作为世界模拟器」的反对声音:
Yann LeCun:
「让我在这里澄清一个*巨大的*误解。
大多数逼真视频的生成并不意味着系统理解物理世界。
生成式与世界模型的因果预测截然不同。
合理视频的空间非常大,视频生成系统只需要生成*一个*样本就能成功。
真实视频的合理连续性空间要小得多,而从中生成一个有代表性的片段要难得多,尤其是在以动作为条件的情况下。
此外,生成这些延续不仅代价高昂,而且完全没有意义。
更理想的做法是生成这些连续性的*抽象表示*,消除场景中与我们可能要采取的任何行动无关的细节。
这就是 JEPA(联合嵌入式预测架构)的全部意义所在,它*不是生成式*,而是在表示空间中进行预测。 」
----
François Chollet:
「自2016年以来,视频生成模型和NeRF一直在不断改进,现在它们备受关注。因此,关于这些系统是否嵌入了*物理模型*的争论很多。
这些系统能够对给定的物理情况进行下一帧的视觉预测。因此它们具有物理模型。
真正的问题是,这个模型准确吗?它能否推广到模型未经训练的新情境,而不仅仅是模型已经训练过的插值情况?
这些不是无聊的问题。它们代表着两个完全不同可能性世界之间的区别。在一个世界中,生成的图像仅限于媒体制作,供人类消费。它们可以欺骗你,使你相信它们看起来很真实,但实际上并不像真实世界那样。在另一个世界中,生成的图像可以用作对现实的模拟,以对世界和未来进行可靠的预测。它可以用于科学。
比方说,你正在生成一段咖啡杯中海盗船的视频。这个模型已经在海盗船、海洋和咖啡杯上接受过训练。因此,它可以进行潜空间拼贴,为你提供 "匹配 "的视频。
但这些波浪是否反映了水在这种情况下的表现?考虑到船体的轮廓、船的排水量以及杯壁反射波浪 ?
或者你只是在看一幅幻想拼贴画?
答案并非一目了然。
当然,这些模型是在大量数据基础上训练出来的大曲线。当然,我们已经知道,这些模型只能进行局部概括,因此无法理解真正的新情况。但是。。。
......现实世界中有很多现象都可以用大曲线来完全模拟。那么,物理学是否也是如此呢?
物理学并非无限多样。物理学可以用简洁的方式完全描述。流体动力学就是一个小方程组!那为什么不呢?你不能先验地否定这种可能性。你必须看证据(你总是必须看证据)。
随着Sora的出现,证据迅速堆积起来。现在我们正在大规模运作。随着新模型的推出,证据将继续迅速积累,甚至更快。
到目前为止,证据确凿--你们看到的确实是潜在空间的拼贴和插值。内部物理模型根本无法推广到新情况。不仅仅是你不能将其作为设计新飞机的流体动力学模拟器,或者设计新的弹珠跑道的重力模拟器的可靠替代品...
它无法捕捉视觉现实的基本原理,比如物体的永久性。这一点任何两岁的孩子都能掌握。
但我们能改进它吗?当然可以。你要做的就是增加拟合曲线的输入:目标空间的采样密度。你要在更多的数据上进行训练。大量的数据。
这将提高特定情况下的逼真度,也就是你刚刚采样的那些新情况。但这并不能解决根本的普遍性问题。
主要观点是,对世界进行建模并不等同于将观测数据嵌入到一个插值潜在空间中(一条曲线)。
请注意,你仍然可以在物理预测中使用大曲线,特别是对于昂贵的模拟系统(例如天气)。但是要做到这一点,你必须限制自己在一个子空间中:
1.未来将与过去一样(稳定状态)。
2.流形假设适用 -- -- 它应该可以表示为一条曲线。
3.你能收集到*密集*的训练数据样本。
有许多领域可以验证这些属性。但对于“视觉世界”来说,这是不可行的。你需要一个不同类型的模型来实现这一点。
你能用一个大曲线来预测天气吗?是的,只要有大量的数据。我们已经在做了!
制作一个风洞模拟器?是的,如果您能尽可能保持许多参数固定,并且能够密集采样那些变化的参数(如粘度)。
或者预测太阳活动?也许!
但是你不能仅仅通过一堆UE5截图和YouTube视频来拟合一个大曲线,并期望得到一个适用于真实世界的可推广模型。这不是这些模型的工作方式。」
----
George Hotz :
「这提醒我们:
1) 这些模型是预测,而不是行动。
2) 大脑的数据效率要高得多。
3) 人工智能还不会开车,甚至不会玩马里奥 64。
令人印象深刻且有用,但仍缺少硅生命(AGI)的组成部分。不仅仅是扩展计算规模」
Yann LeCun:
「让我在这里澄清一个*巨大的*误解。
大多数逼真视频的生成并不意味着系统理解物理世界。
生成式与世界模型的因果预测截然不同。
合理视频的空间非常大,视频生成系统只需要生成*一个*样本就能成功。
真实视频的合理连续性空间要小得多,而从中生成一个有代表性的片段要难得多,尤其是在以动作为条件的情况下。
此外,生成这些延续不仅代价高昂,而且完全没有意义。
更理想的做法是生成这些连续性的*抽象表示*,消除场景中与我们可能要采取的任何行动无关的细节。
这就是 JEPA(联合嵌入式预测架构)的全部意义所在,它*不是生成式*,而是在表示空间中进行预测。 」
----
François Chollet:
「自2016年以来,视频生成模型和NeRF一直在不断改进,现在它们备受关注。因此,关于这些系统是否嵌入了*物理模型*的争论很多。
这些系统能够对给定的物理情况进行下一帧的视觉预测。因此它们具有物理模型。
真正的问题是,这个模型准确吗?它能否推广到模型未经训练的新情境,而不仅仅是模型已经训练过的插值情况?
这些不是无聊的问题。它们代表着两个完全不同可能性世界之间的区别。在一个世界中,生成的图像仅限于媒体制作,供人类消费。它们可以欺骗你,使你相信它们看起来很真实,但实际上并不像真实世界那样。在另一个世界中,生成的图像可以用作对现实的模拟,以对世界和未来进行可靠的预测。它可以用于科学。
比方说,你正在生成一段咖啡杯中海盗船的视频。这个模型已经在海盗船、海洋和咖啡杯上接受过训练。因此,它可以进行潜空间拼贴,为你提供 "匹配 "的视频。
但这些波浪是否反映了水在这种情况下的表现?考虑到船体的轮廓、船的排水量以及杯壁反射波浪 ?
或者你只是在看一幅幻想拼贴画?
答案并非一目了然。
当然,这些模型是在大量数据基础上训练出来的大曲线。当然,我们已经知道,这些模型只能进行局部概括,因此无法理解真正的新情况。但是。。。
......现实世界中有很多现象都可以用大曲线来完全模拟。那么,物理学是否也是如此呢?
物理学并非无限多样。物理学可以用简洁的方式完全描述。流体动力学就是一个小方程组!那为什么不呢?你不能先验地否定这种可能性。你必须看证据(你总是必须看证据)。
随着Sora的出现,证据迅速堆积起来。现在我们正在大规模运作。随着新模型的推出,证据将继续迅速积累,甚至更快。
到目前为止,证据确凿--你们看到的确实是潜在空间的拼贴和插值。内部物理模型根本无法推广到新情况。不仅仅是你不能将其作为设计新飞机的流体动力学模拟器,或者设计新的弹珠跑道的重力模拟器的可靠替代品...
它无法捕捉视觉现实的基本原理,比如物体的永久性。这一点任何两岁的孩子都能掌握。
但我们能改进它吗?当然可以。你要做的就是增加拟合曲线的输入:目标空间的采样密度。你要在更多的数据上进行训练。大量的数据。
这将提高特定情况下的逼真度,也就是你刚刚采样的那些新情况。但这并不能解决根本的普遍性问题。
主要观点是,对世界进行建模并不等同于将观测数据嵌入到一个插值潜在空间中(一条曲线)。
请注意,你仍然可以在物理预测中使用大曲线,特别是对于昂贵的模拟系统(例如天气)。但是要做到这一点,你必须限制自己在一个子空间中:
1.未来将与过去一样(稳定状态)。
2.流形假设适用 -- -- 它应该可以表示为一条曲线。
3.你能收集到*密集*的训练数据样本。
有许多领域可以验证这些属性。但对于“视觉世界”来说,这是不可行的。你需要一个不同类型的模型来实现这一点。
你能用一个大曲线来预测天气吗?是的,只要有大量的数据。我们已经在做了!
制作一个风洞模拟器?是的,如果您能尽可能保持许多参数固定,并且能够密集采样那些变化的参数(如粘度)。
或者预测太阳活动?也许!
但是你不能仅仅通过一堆UE5截图和YouTube视频来拟合一个大曲线,并期望得到一个适用于真实世界的可推广模型。这不是这些模型的工作方式。」
----
George Hotz :
「这提醒我们:
1) 这些模型是预测,而不是行动。
2) 大脑的数据效率要高得多。
3) 人工智能还不会开车,甚至不会玩马里奥 64。
令人印象深刻且有用,但仍缺少硅生命(AGI)的组成部分。不仅仅是扩展计算规模」
爆炸袭击!法国葡萄酒行业矛盾升级,酒农抗议难平息
编译|北极星、编辑|鲤鱼
这两天,由于对法国的农业政策感到不满,法国农民再次走上街头进行抗议, 一名农民表示,“我们总是被要求更多,然而收入却越来越少。”法国葡萄酒行业也是如此。
上周,法国葡萄种植业行动委员会(CAV)突袭了法国政府大楼引爆炸弹,炸毁了环境部门(DREAL)的办公室,对公共财物造成巨大损失,幸好没有人员伤亡。
这是法国生产商和当地政府之间的陈年积怨,由于进口廉价酒的大量引进,法国葡萄酒生产商遭遇成本增加和销售额下降的双重打击,从而引发了这场暴乱。
从去年10月份开始,法国朗格多克地区的抗议行为一直尚未平息。此前是对西班牙进口葡萄酒的攻击,但现在的焦点似乎已经转移到了当地管理部门身上。
暴力袭击再度升级
当地报纸《L'Indépendant》称,在建筑外墙上发现了CAV的涂鸦字样,“大楼底层正在装修暂时无人居住,但房屋内部遭到严重损坏。”
当地警方正在以暴力手段破坏第三方财产为由进行调查。奥德地区区长在一份声明中说:“没有任何理由可以为这种暴力行为开脱。”检方将确保此类严重行为的肇事者缉拿归案。
奥德地区的葡萄种植者协会领导人弗雷德里克·鲁阿内(Frédéric Rouanet)表示,“我不会宽恕这种行为,但是DREAL让所有葡萄种植者付出了高昂的代价,有些人实在无法忍受了。 ”
DREAL的工作范围非常广泛,主要负责监督本地区环境质量、可持续发展、生物多样性和生态保护等国家政策的执行情况。据了解,随着生产成本的增加,DREAL施加的经营限制进一步激怒了当地的葡萄种植者。
发生爆炸24小时后,弗雷德里克·鲁阿内率领的代表团受到了奥德省省长的接见。会面结束时,鲁阿内提到他也很期待农业部长马克·费斯诺(Marc Fesneau)下周抵达蒙彼利埃,工会成员将在前一天动员起来,争取达成和解。
鲁阿内坦言,“我从未经历过如此严重的危机,一方面是葡萄酒的销售额正在下降,另一方面是酿酒成本的飙升。”
据估计,法国葡萄酒过剩量高达3亿升。此前,法国政府曾宣布拨款2亿欧元(约合人民币16亿元)回收过剩的葡萄酒。然而,根据欧盟的数据,今年法国的葡萄酒消费量下降了15%,进一步加剧库存高企。
哪里有反抗,那里就有问题
据了解, 法国葡萄种植业行动 委员会(CAV),是1907年朗格多克-鲁西永大区葡萄种植者起义期间成立的一个葡萄酒生产商团体,旨在捍卫法国葡萄酒种植者利益,反对欺诈性的葡萄酒生产。
上个世纪六七十年代,该组织以破坏、纵火、绑架和炸弹袭击等暴力行动而为人所知。 从1976年至90年代末,CAV一直处于休眠状态。奥德农民联合会协调员扬·维蒂斯(Yann Vétiis)表示,“一般来说,每次葡萄酒行业出现问题,CAV就会卷土重来。”
近年来,该组织的行动旨在谴责进口廉价葡萄酒,尤其是西班牙散装葡萄酒。早在2016年,法国南部的酿酒商在边境劫持了五艘装满西班牙葡萄酒的油轮,将7万升葡萄酒倒入下水道,以抗议“不公平竞争”。
去年十月份也发生过类似事件,当时有500多名愤怒的法国葡萄种植者在边境游行示威,劫持了从西班牙运往法国的葡萄酒卡车,将数千瓶桃红葡萄酒倾倒在路上,砸毁10,000瓶西班牙卡瓦起泡酒。
一位葡萄种植者声称,“西班牙人的酿酒成本不高,所以西班牙葡萄酒的价格只有法国葡萄酒的一半。”法国生产商正被廉价的进口葡萄酒挤出本土市场。
过去几年,法国的生产商曾多次示威,抵制当地酒商大量购买进口廉价葡萄酒,倾倒葡萄酒的事件也曾反复上演,包括破坏高速铁路线和劫持西班牙葡萄酒卡车。鉴于目前的市场形势严峻,加上法国葡萄酒严重过剩,这种暴乱行为很难尽快平息。
编译|北极星、编辑|鲤鱼
这两天,由于对法国的农业政策感到不满,法国农民再次走上街头进行抗议, 一名农民表示,“我们总是被要求更多,然而收入却越来越少。”法国葡萄酒行业也是如此。
上周,法国葡萄种植业行动委员会(CAV)突袭了法国政府大楼引爆炸弹,炸毁了环境部门(DREAL)的办公室,对公共财物造成巨大损失,幸好没有人员伤亡。
这是法国生产商和当地政府之间的陈年积怨,由于进口廉价酒的大量引进,法国葡萄酒生产商遭遇成本增加和销售额下降的双重打击,从而引发了这场暴乱。
从去年10月份开始,法国朗格多克地区的抗议行为一直尚未平息。此前是对西班牙进口葡萄酒的攻击,但现在的焦点似乎已经转移到了当地管理部门身上。
暴力袭击再度升级
当地报纸《L'Indépendant》称,在建筑外墙上发现了CAV的涂鸦字样,“大楼底层正在装修暂时无人居住,但房屋内部遭到严重损坏。”
当地警方正在以暴力手段破坏第三方财产为由进行调查。奥德地区区长在一份声明中说:“没有任何理由可以为这种暴力行为开脱。”检方将确保此类严重行为的肇事者缉拿归案。
奥德地区的葡萄种植者协会领导人弗雷德里克·鲁阿内(Frédéric Rouanet)表示,“我不会宽恕这种行为,但是DREAL让所有葡萄种植者付出了高昂的代价,有些人实在无法忍受了。 ”
DREAL的工作范围非常广泛,主要负责监督本地区环境质量、可持续发展、生物多样性和生态保护等国家政策的执行情况。据了解,随着生产成本的增加,DREAL施加的经营限制进一步激怒了当地的葡萄种植者。
发生爆炸24小时后,弗雷德里克·鲁阿内率领的代表团受到了奥德省省长的接见。会面结束时,鲁阿内提到他也很期待农业部长马克·费斯诺(Marc Fesneau)下周抵达蒙彼利埃,工会成员将在前一天动员起来,争取达成和解。
鲁阿内坦言,“我从未经历过如此严重的危机,一方面是葡萄酒的销售额正在下降,另一方面是酿酒成本的飙升。”
据估计,法国葡萄酒过剩量高达3亿升。此前,法国政府曾宣布拨款2亿欧元(约合人民币16亿元)回收过剩的葡萄酒。然而,根据欧盟的数据,今年法国的葡萄酒消费量下降了15%,进一步加剧库存高企。
哪里有反抗,那里就有问题
据了解, 法国葡萄种植业行动 委员会(CAV),是1907年朗格多克-鲁西永大区葡萄种植者起义期间成立的一个葡萄酒生产商团体,旨在捍卫法国葡萄酒种植者利益,反对欺诈性的葡萄酒生产。
上个世纪六七十年代,该组织以破坏、纵火、绑架和炸弹袭击等暴力行动而为人所知。 从1976年至90年代末,CAV一直处于休眠状态。奥德农民联合会协调员扬·维蒂斯(Yann Vétiis)表示,“一般来说,每次葡萄酒行业出现问题,CAV就会卷土重来。”
近年来,该组织的行动旨在谴责进口廉价葡萄酒,尤其是西班牙散装葡萄酒。早在2016年,法国南部的酿酒商在边境劫持了五艘装满西班牙葡萄酒的油轮,将7万升葡萄酒倒入下水道,以抗议“不公平竞争”。
去年十月份也发生过类似事件,当时有500多名愤怒的法国葡萄种植者在边境游行示威,劫持了从西班牙运往法国的葡萄酒卡车,将数千瓶桃红葡萄酒倾倒在路上,砸毁10,000瓶西班牙卡瓦起泡酒。
一位葡萄种植者声称,“西班牙人的酿酒成本不高,所以西班牙葡萄酒的价格只有法国葡萄酒的一半。”法国生产商正被廉价的进口葡萄酒挤出本土市场。
过去几年,法国的生产商曾多次示威,抵制当地酒商大量购买进口廉价葡萄酒,倾倒葡萄酒的事件也曾反复上演,包括破坏高速铁路线和劫持西班牙葡萄酒卡车。鉴于目前的市场形势严峻,加上法国葡萄酒严重过剩,这种暴乱行为很难尽快平息。
✋热门推荐