只需3个样本一句话,AI就能定制照片级图像,谷歌在玩一种很新的扩散模型
所属学科:计算机
机器之心报道
编辑:陈萍、小舟
来自谷歌和波士顿大学的研究者提出了一种「个性化」的文本到图像扩散模型 DreamBooth,能够适应用户特定的图像生成需求。
近来,文本到图像模型成为一个热门的研究方向,无论是自然景观大片,还是新奇的场景图像,都可能使用简单的文本描述自动生成的。
其中,渲染天马行空的的想象场景是一项具有挑战性的任务,需要在新的场景中合成特定主题(物体、动物等)的实例,以便它们自然无缝地融入场景。
一些大型文本到图像模型基于用自然语言编写的文本提示(prompt)实现了高质量和多样化的图像合成。这些模型的主要优点是从大量的图像 - 文本描述对中学到强大的语义先验,例如将「dog」这个词与可以在图像中以不同姿势出现的各种狗的实例关联在一起。
虽然这些模型的合成能力是前所未有的,但它们缺乏模仿给定参考主题的能力,以及在不同场景中合成主题相同、实例不同的新图像的能力。可见,已有模型的输出域的表达能力有限。
为了解决这个问题,来自谷歌和波士顿大学的研究者提出了一种「个性化」的文本到图像扩散模型 DreamBooth,能够适应用户特定的图像生成需求。
该研究的目标是扩展模型的语言 - 视觉字典,使其将新词汇与用户想要生成的特定主题绑定。一旦新字典嵌入到模型中,它就可以使用这些词来合成特定主题的新颖逼真的图像,同时在不同的场景中进行情境化,保留关键识别特征,效果如下图 1 所示。
具体来说,该研究将给定主题的图像植入模型的输出域,以便可以使用唯一标识符对其进行合成。为此,该研究提出了一种用稀有 token 标识符表示给定主题的方法,并微调了一个预训练的、基于扩散的文本到图像框架,该框架分两步运行;从文本生成低分辨率图像,然后应用超分辨率(SR)扩散模型。
首先该研究使用包含唯一标识符(带有主题类名,例如「A [V] dog」)的输入图像和文本提示微调低分辨率文本到图像模型。为了防止模型将类名与特定实例过拟合和语义漂移,该研究提出了一种自生的、特定于类的先验保存(preservation)损失,它利用嵌入模型中类的先验语义,鼓励模型生成给定主题下同一类中的不同实例。
第二步,该研究使用输入图像的低分辨率和高分辨率版本对超分辨率组件进行微调。这允许模型对场景主题中小而重要细节保持高保真度。
我们来看一下该研究提出的具体方法。
方法介绍
给定 3-5 张捕获的图像,这些图像没有文字描述,本文旨在生成具有高细节保真度和由文本提示引导变化的新图像。该研究不对输入图像施加任何限制,并且主题图像可以具有不同的上下文。方法如图 3 所示。输出图像可对原始图像进行修改,如主题的位置,更改主题的属性如颜色、形状,并可以修改主体的姿势、表情、材质以及其他语义修改。
更具体的说,本文方法将一个主题(例如,一只特定的狗)和相应类名(例如,狗类别)的一些图像(通常 3 - 5 张图)作为输入,并返回一个经过微调 / 个性化的文本到图像模型,该模型编码了一个引用主题的唯一标识符。然后,在推理时,可以在不同的句子中植入唯一标识符来合成不同语境中的主题。
该研究的第一个任务是将主题实例植入到模型的输出域,并将主题与唯一标识符绑定。该研究提出了设计标识符的方法,此外还设计了一种监督模型微调过程的新方法。
为了解决图像过拟合以及语言漂移问题,该研究还提出了一种损失( Prior-Preservation Loss ),通过鼓励扩散模型不断生成与主题相同的类的不同实例,从而减轻模型过拟合、语言漂移等问题。
为了保留图像细节,该研究发现应该对模型的超分辨率(SR)组件进行微调,本文在经过预训练的 Imagen 模型的基础上来完成。具体过程如图 4 所示,给定同一主题的 3-5 张图像,之后通过两个步骤微调文本到图像的扩散模型:
稀有 token 标识符表示主题
该研究将主题的所有输入图像标记为「a [identifier] [class noun]」,其中 [identifier] 是链接到主题的唯一标识符,而 [class noun] 是主题的粗略类别描述符 (例如猫、狗、手表等)。该研究在句子中特别使用了类描述符,以便将类的先验与主题联系起来。
效果展示
下面是 Dreambooth 一个稳定扩散的实现(参考项目链接)。定性结果:训练图像来自「Textual Inversion」库:
训练完成后,在「photo of a sks container」提示下,模型生成的集装箱照片如下:
在提示中加个位置「photo of a sks container on the beach」,集装箱出现在沙滩上;
绿色的集装箱颜色太单一了,想加点红色,输入提示「photo of a red sks container」就能搞定:
输入提示「a dog on top of sks container」就能让小狗坐在箱子里:
下面是论文中展示的一些结果。生成不同画家风格的关于狗狗的艺术图:
该研究还可以合成输入图像中没有出现的各种表情,展示了模型的外推能力:
想要了解更多细节,请参考原论文。
所属学科:计算机
机器之心报道
编辑:陈萍、小舟
来自谷歌和波士顿大学的研究者提出了一种「个性化」的文本到图像扩散模型 DreamBooth,能够适应用户特定的图像生成需求。
近来,文本到图像模型成为一个热门的研究方向,无论是自然景观大片,还是新奇的场景图像,都可能使用简单的文本描述自动生成的。
其中,渲染天马行空的的想象场景是一项具有挑战性的任务,需要在新的场景中合成特定主题(物体、动物等)的实例,以便它们自然无缝地融入场景。
一些大型文本到图像模型基于用自然语言编写的文本提示(prompt)实现了高质量和多样化的图像合成。这些模型的主要优点是从大量的图像 - 文本描述对中学到强大的语义先验,例如将「dog」这个词与可以在图像中以不同姿势出现的各种狗的实例关联在一起。
虽然这些模型的合成能力是前所未有的,但它们缺乏模仿给定参考主题的能力,以及在不同场景中合成主题相同、实例不同的新图像的能力。可见,已有模型的输出域的表达能力有限。
为了解决这个问题,来自谷歌和波士顿大学的研究者提出了一种「个性化」的文本到图像扩散模型 DreamBooth,能够适应用户特定的图像生成需求。
该研究的目标是扩展模型的语言 - 视觉字典,使其将新词汇与用户想要生成的特定主题绑定。一旦新字典嵌入到模型中,它就可以使用这些词来合成特定主题的新颖逼真的图像,同时在不同的场景中进行情境化,保留关键识别特征,效果如下图 1 所示。
具体来说,该研究将给定主题的图像植入模型的输出域,以便可以使用唯一标识符对其进行合成。为此,该研究提出了一种用稀有 token 标识符表示给定主题的方法,并微调了一个预训练的、基于扩散的文本到图像框架,该框架分两步运行;从文本生成低分辨率图像,然后应用超分辨率(SR)扩散模型。
首先该研究使用包含唯一标识符(带有主题类名,例如「A [V] dog」)的输入图像和文本提示微调低分辨率文本到图像模型。为了防止模型将类名与特定实例过拟合和语义漂移,该研究提出了一种自生的、特定于类的先验保存(preservation)损失,它利用嵌入模型中类的先验语义,鼓励模型生成给定主题下同一类中的不同实例。
第二步,该研究使用输入图像的低分辨率和高分辨率版本对超分辨率组件进行微调。这允许模型对场景主题中小而重要细节保持高保真度。
我们来看一下该研究提出的具体方法。
方法介绍
给定 3-5 张捕获的图像,这些图像没有文字描述,本文旨在生成具有高细节保真度和由文本提示引导变化的新图像。该研究不对输入图像施加任何限制,并且主题图像可以具有不同的上下文。方法如图 3 所示。输出图像可对原始图像进行修改,如主题的位置,更改主题的属性如颜色、形状,并可以修改主体的姿势、表情、材质以及其他语义修改。
更具体的说,本文方法将一个主题(例如,一只特定的狗)和相应类名(例如,狗类别)的一些图像(通常 3 - 5 张图)作为输入,并返回一个经过微调 / 个性化的文本到图像模型,该模型编码了一个引用主题的唯一标识符。然后,在推理时,可以在不同的句子中植入唯一标识符来合成不同语境中的主题。
该研究的第一个任务是将主题实例植入到模型的输出域,并将主题与唯一标识符绑定。该研究提出了设计标识符的方法,此外还设计了一种监督模型微调过程的新方法。
为了解决图像过拟合以及语言漂移问题,该研究还提出了一种损失( Prior-Preservation Loss ),通过鼓励扩散模型不断生成与主题相同的类的不同实例,从而减轻模型过拟合、语言漂移等问题。
为了保留图像细节,该研究发现应该对模型的超分辨率(SR)组件进行微调,本文在经过预训练的 Imagen 模型的基础上来完成。具体过程如图 4 所示,给定同一主题的 3-5 张图像,之后通过两个步骤微调文本到图像的扩散模型:
稀有 token 标识符表示主题
该研究将主题的所有输入图像标记为「a [identifier] [class noun]」,其中 [identifier] 是链接到主题的唯一标识符,而 [class noun] 是主题的粗略类别描述符 (例如猫、狗、手表等)。该研究在句子中特别使用了类描述符,以便将类的先验与主题联系起来。
效果展示
下面是 Dreambooth 一个稳定扩散的实现(参考项目链接)。定性结果:训练图像来自「Textual Inversion」库:
训练完成后,在「photo of a sks container」提示下,模型生成的集装箱照片如下:
在提示中加个位置「photo of a sks container on the beach」,集装箱出现在沙滩上;
绿色的集装箱颜色太单一了,想加点红色,输入提示「photo of a red sks container」就能搞定:
输入提示「a dog on top of sks container」就能让小狗坐在箱子里:
下面是论文中展示的一些结果。生成不同画家风格的关于狗狗的艺术图:
该研究还可以合成输入图像中没有出现的各种表情,展示了模型的外推能力:
想要了解更多细节,请参考原论文。
今天在长沙为一位客户检测了一辆2014款凯迪拉克SRX,作为中型豪华SUV,外观设计上遵循了凯迪拉克一贯的钻石切割设计,因此让它看起来非常的霸气。可惜凯迪拉克SRX已经在前些年停产了,所以选择二手车就成了唯一的选择。于是咱们的大哥就在二手车市场转悠的时候盯上了这辆凯迪拉克SRX。
卖家直言你别看他跑了11.7w公里,一手车,原车主爱惜得很,车况没得说,过完户随便开。大哥一听还是自己找个专业的二手车检测平台把把关为好,不为别的就为能买个放心。于是在朋友的建议下找到了我们检车家,一番沟通后就定了个看车的时间。至于这台凯迪拉克SRX的具体款式,是3.0L 精英型,搭载的自然就是3,0L的V6自吸发动机,当时的新车指导价为46.98w,如今卖家意向9.5w。
一套二手车检测流程下来发现车况有点出乎我的意料。后保险杠、后防撞梁做过更换,后围板有点变形,应该是被追过尾。前保险杠只有一点破损,左前门、左后门有划痕,左后翼子板、右D柱、右前门做过喷漆修复。而发动机仅有进气歧管有拆装的痕迹,剩下的只需要一次保养就能搞定。车况如卖家所说,成交自然就不是问题了。那么你们觉得这车多少价格更合适?
#二手车# #长沙# #凯迪拉克# #长沙二手车检测#
卖家直言你别看他跑了11.7w公里,一手车,原车主爱惜得很,车况没得说,过完户随便开。大哥一听还是自己找个专业的二手车检测平台把把关为好,不为别的就为能买个放心。于是在朋友的建议下找到了我们检车家,一番沟通后就定了个看车的时间。至于这台凯迪拉克SRX的具体款式,是3.0L 精英型,搭载的自然就是3,0L的V6自吸发动机,当时的新车指导价为46.98w,如今卖家意向9.5w。
一套二手车检测流程下来发现车况有点出乎我的意料。后保险杠、后防撞梁做过更换,后围板有点变形,应该是被追过尾。前保险杠只有一点破损,左前门、左后门有划痕,左后翼子板、右D柱、右前门做过喷漆修复。而发动机仅有进气歧管有拆装的痕迹,剩下的只需要一次保养就能搞定。车况如卖家所说,成交自然就不是问题了。那么你们觉得这车多少价格更合适?
#二手车# #长沙# #凯迪拉克# #长沙二手车检测#
2022.11.19
记录看完两部电视剧的看法
昨天才想起来去看了《见面吧就现在》,许望作为男三,戏份不算很多。但我就是喜欢这种正常人(突然想起来许望好像也不正常)的恋爱,我就喜欢直球恋爱。
许望的人设真的很好。在路边看到女孩子被欺负会上前帮忙,被误会也没关系,遇到女孩子被骗就直接说出来,爱上了就勇敢说出来
我唯一不喜欢的是,为什么我们傅老师最后都没有一个归宿呢。我其实是可以接受这个时候有人追求他,他没有接受但也没有直接拒绝这样开放式结局的
《遇见你之后》是今天起床才看的,花了4个小时看完的,基本上是三倍速。原计划是到程慕就变成1.25倍速或者1.5倍速。但后来我觉得因为他是男主戏份很多,所以直接三倍速
程慕这样的人有很多,但很幸运他遇见了江思晗,有人可以成为他生命中的光,那就有了活下去的勇气就好。
但是我永远最喜欢的都是电视剧里的副CP。我真的好喜欢姐姐程钰,相比甜妹,我更喜欢御姐。而且李璟洋这样的男人,换我我也拒绝不了啊
还有睿睿这样的小可爱真的好棒,简直就是神助攻啊!
最后聊一聊我看过主任这几部电视剧的角色的一些分析
我第一个的是《一不小心捡到爱》的顾安生,这个男人真的是很完美,我真的好爱这种人设啊。“上天欠我一个顾安生这样的哥哥”是我的第一个想法,但是作为男朋友也很不错呢。不过因为是点了“只看他”所以剧情有点稍稍不连贯,但是弹幕也说:“黑化得莫名其妙,洗白也是莫名其妙”,但这都不影响他的人格魅力
第二个是《漫长的告别》里的连舟,他是一个因为女朋友惨死被人抛尸之后要追寻真相的男朋友。在这期间,他拯救了一些人,也伤害了一些人,但这途中,也拯救了自己。
这里还是想吐槽一句,连舟昏睡十年,警察都没抓到犯人真的挺没用的,但是后来犯人一直没有犯罪,的确不容易
最开始他知道陈雪喜欢他的时候只是拒绝她,因为他只是为了寻找真相而活着,后来发现自己爱上她了,那就要不遗余力去保护她
第三个是《见面吧就现在》的许望。其实我很喜欢他说的那句“我就是要拿冠军,向他们证明我父母不是所谓的心理障碍,而是我一直前进的动力”。有心理障碍又怎么了,我依旧是那个光芒万丈的我,依旧是那个可以爱别人也能让别人爱的那个人
这里心疼一下高远,从开始就能看出他喜欢宋绒绒,但他的行为确实不靠谱,最后只有一句——青梅竹马抵不过天降
第四个是《遇见你之后》的程慕,他因为父母的缘故,从小就有忧郁症和恐慌症,但还好遇见了师傅和甜品,但就算这样也还是有轻生的想法,幸好,他遇见了对的人才算度过那段“浩劫”。他有姐姐,有江思晗,有李璟洋,有师傅,还有甜品店的各位兄弟。
我当时看的时候就在想现在的电视剧没点病就不能当男女主了吗,其实普通人的恋爱也是可以很甜的。
峻纬还有些剧,但我没有打算去看。《十二谭》因为风评不好直接放弃,《月里青山淡如画》是到现在都还没播,《琉璃》完全是因为那个古装造型太丑,《致我们暖暖的小时光》是因为不打算看剧情但又没有只看你这个功能
但是还有《我的小尾巴》在我的必看榜单上
祝我们主任越来越好,争取早日拿个影帝,顶峰相见
记录看完两部电视剧的看法
昨天才想起来去看了《见面吧就现在》,许望作为男三,戏份不算很多。但我就是喜欢这种正常人(突然想起来许望好像也不正常)的恋爱,我就喜欢直球恋爱。
许望的人设真的很好。在路边看到女孩子被欺负会上前帮忙,被误会也没关系,遇到女孩子被骗就直接说出来,爱上了就勇敢说出来
我唯一不喜欢的是,为什么我们傅老师最后都没有一个归宿呢。我其实是可以接受这个时候有人追求他,他没有接受但也没有直接拒绝这样开放式结局的
《遇见你之后》是今天起床才看的,花了4个小时看完的,基本上是三倍速。原计划是到程慕就变成1.25倍速或者1.5倍速。但后来我觉得因为他是男主戏份很多,所以直接三倍速
程慕这样的人有很多,但很幸运他遇见了江思晗,有人可以成为他生命中的光,那就有了活下去的勇气就好。
但是我永远最喜欢的都是电视剧里的副CP。我真的好喜欢姐姐程钰,相比甜妹,我更喜欢御姐。而且李璟洋这样的男人,换我我也拒绝不了啊
还有睿睿这样的小可爱真的好棒,简直就是神助攻啊!
最后聊一聊我看过主任这几部电视剧的角色的一些分析
我第一个的是《一不小心捡到爱》的顾安生,这个男人真的是很完美,我真的好爱这种人设啊。“上天欠我一个顾安生这样的哥哥”是我的第一个想法,但是作为男朋友也很不错呢。不过因为是点了“只看他”所以剧情有点稍稍不连贯,但是弹幕也说:“黑化得莫名其妙,洗白也是莫名其妙”,但这都不影响他的人格魅力
第二个是《漫长的告别》里的连舟,他是一个因为女朋友惨死被人抛尸之后要追寻真相的男朋友。在这期间,他拯救了一些人,也伤害了一些人,但这途中,也拯救了自己。
这里还是想吐槽一句,连舟昏睡十年,警察都没抓到犯人真的挺没用的,但是后来犯人一直没有犯罪,的确不容易
最开始他知道陈雪喜欢他的时候只是拒绝她,因为他只是为了寻找真相而活着,后来发现自己爱上她了,那就要不遗余力去保护她
第三个是《见面吧就现在》的许望。其实我很喜欢他说的那句“我就是要拿冠军,向他们证明我父母不是所谓的心理障碍,而是我一直前进的动力”。有心理障碍又怎么了,我依旧是那个光芒万丈的我,依旧是那个可以爱别人也能让别人爱的那个人
这里心疼一下高远,从开始就能看出他喜欢宋绒绒,但他的行为确实不靠谱,最后只有一句——青梅竹马抵不过天降
第四个是《遇见你之后》的程慕,他因为父母的缘故,从小就有忧郁症和恐慌症,但还好遇见了师傅和甜品,但就算这样也还是有轻生的想法,幸好,他遇见了对的人才算度过那段“浩劫”。他有姐姐,有江思晗,有李璟洋,有师傅,还有甜品店的各位兄弟。
我当时看的时候就在想现在的电视剧没点病就不能当男女主了吗,其实普通人的恋爱也是可以很甜的。
峻纬还有些剧,但我没有打算去看。《十二谭》因为风评不好直接放弃,《月里青山淡如画》是到现在都还没播,《琉璃》完全是因为那个古装造型太丑,《致我们暖暖的小时光》是因为不打算看剧情但又没有只看你这个功能
但是还有《我的小尾巴》在我的必看榜单上
祝我们主任越来越好,争取早日拿个影帝,顶峰相见
✋热门推荐