主要收获

方面详细信息
学习表征LSTM 网络在学习视频序列表征方面举足轻重。
循环环境模拟器RNN 可以预测未来的环境状态,从而进行有效的规划和行动。
世界模型生成模型可以快速学习环境表征,用于强化学习。
场景动态GANs 可帮助识别和生成视频中的动态场景。
MoCoGAN分解运动和内容,生成视频。
对抗性视频生成DVD-GAN 可制作高保真的复杂视频样本。
动态场景生成具有逼真动态效果的长视频的新方法。
视频GPT结合 VQ-VAE 和 Transformers 生成视频。
NÜWA视觉合成预训练统一模型
视频利用文本条件扩散模型生成高清视频
潜在扩散模型LDM 可实现具有时间一致性的高分辨率视频合成。
视觉中的变形金刚Transformer 模型在图像识别任务中显示了其有效性。
ViViT用于视频分类的纯变换器模型
屏蔽自动编码器将 MAEs 作为可扩展的视觉学习器,用于自我监督学习。
NaViT可处理任何分辨率和长宽比的图像,无需调整大小。
图像的潜在扩散LDM 实现了高保真图像合成和灵活性。
变异自动编码器具有连续潜变量的概率模型的高效学习和推理。
非平衡热力学深度无监督学习的新方法
去噪扩散模型利用扩散模型合成高质量图像
文本到图像的生成基于变换器的零镜头文本到图像生成模型。
内容丰富的一代用于文本到图像生成的 Parti 模型规模自回归模型。
CLIP Latents利用鲁棒表示法生成分层文本条件图像。
SDEdit利用随机微分方程进行图像合成和编辑。

使用 LSTM 对视频表示进行无监督学习

LSTM 网络在学习视频序列表征方面发挥了重要作用。编码器-解码器框架允许执行重建输入序列或预测未来序列等任务。我们对该模型将学习到的视频表征推断到未来和过去的能力进行了定性分析。

循环环境模拟器

递归神经网络(RNN)能够对环境做出时间和空间上一致的预测,这对于代理高效地规划和行动至关重要。本文广泛分析了模型的性能因素,并介绍了一种计算效率高的模型。

世界模型

强化学习环境的生成神经网络模型(如 "世界模型")可以通过快速训练来学习环境的压缩空间和时间表示。可以在这些模型中训练代理,然后将其转移到真实环境中。

利用场景动态生成视频

生成对抗网络(GAN)可用于学习场景动态模型,这对于动作分类等识别任务和预测静态图像未来等生成任务非常有用。

MoCoGAN:分解运动和内容以生成视频

MoCoGAN 是一个将视频信号分为内容和动作的框架,可以生成动态变化但内容一致的视频,反之亦然。

在复杂数据集上生成对抗性视频

双视频判别器 GAN(DVD-GAN)可扩展到更长、更高分辨率的视频,产生高复杂度和保真度的样本。它为视频合成和预测设定了新的基准。

生成动态场景的长视频

一种视频生成模型,能准确再现物体运动和摄像机视角随时间的变化,解决了在生成新内容的同时保持逼真动态效果的难题。

VideoGPT:使用 VQ-VAE 和变压器生成视频

VideoGPT 采用 VQ-VAE 和变换器对自然视频进行建模,生成高保真样本,展示了视频生成简单架构的有效性。

NÜWA:创建神经视觉世界的视觉合成预训练

NÜWA 是一个用于生成或处理视觉数据的多模态预训练模型。它采用三维变压器编码器-解码器框架,在各种视觉合成任务中取得了最先进的结果。

Imagen Video:利用扩散模型生成高清视频

Imagen Video 使用文字提示,通过级联扩散模型生成高清视频,展示了如何通过文字提示生成高清视频。

能够制作出具有高度可控性的多样化艺术视频。

对齐你的潜像利用潜在扩散模型合成高分辨率视频

通过在图像上进行预训练和在视频上进行微调,将潜在扩散模型(LDM)应用于高分辨率视频生成,实现了最先进的性能,并展示了个性化文本到视频生成的潜力。

利用扩散模型生成逼真视频

W.A.L.T 是一种基于变压器的方法,利用扩散建模生成逼真的视频,在视频和图像生成基准测试中取得了很高的性能。

关注就是一切

在机器翻译等序列转换任务中,完全基于注意力机制的 Transformer 模型优于递归网络和卷积网络,表现出卓越的质量和效率。

语言模型是快速学习者

GPT-3是一个大型自回归语言模型,它在NLP任务中表现出强大的性能,展示了扩大语言模型以提高任务性能的潜力。

一幅图像胜过 16×16 个字:规模图像识别的变形金刚

视觉变换器(ViT)将纯变换器直接应用于图像补丁,在图像分类任务中取得了优异的成绩,并证明在视觉任务中无需依赖 CNN。

ViViT:视频视觉转换器

ViViT 是一种基于变换器的视频分类模型,它从视频中提取时空标记并用变换器层对其进行编码,在多个视频分类基准测试中取得了最先进的结果。

遮蔽式自动编码器是可扩展的视觉学习器

本文介绍了可扩展的计算机视觉自监督学习器--掩码自动编码器(MAE),它在大型模型上表现出了高效的训练能力和较高的准确性。

Patch N' Pack:NaViT:适用于任何长宽比和分辨率的视觉变形器

NaViT 可处理任意分辨率和长宽比的输入,提高了训练效率,并增强了鲁棒性和公平性基准的结果。

利用潜在扩散模型合成高分辨率图像

潜在扩散模型(LDM)通过在强大的预训练自动编码器的潜在空间中运行,实现了高保真图像合成和灵活性,为图像绘制和其他任务设定了新标准。

image

自动编码变异贝叶斯

论文介绍了一种随机变分推理和学习算法,该算法对大型数据集和连续潜变量非常有效,可使用标准随机梯度方法进行直接优化。

利用非平衡热力学进行深度无监督学习

受非平衡态统计物理学的启发,我们开发了一种新颖的深度无监督学习方法,允许在深度生成模型中快速学习和采样。

去噪扩散概率模型

针对高质量图像合成引入了扩散概率模型,并与去噪分数匹配和朗格文动力学建立了新的联系,从而在图像合成基准测试中取得了一流的性能。

改进的去噪扩散概率模型

对去噪扩散概率模型(DDPMs)进行修改后,可获得具有竞争力的对数似然和高质量的样本,同时还能进行高效采样,便于部署。

扩散模型在图像合成中击败广义泛函模型

与生成式对抗网络(GANs)相比,扩散模型可实现更高的图像样本质量,并提高了条件图像合成的保真度和多样性。

阐明基于扩散的生成模型的设计空间

该论文为基于扩散的生成模型提供了一个清晰的设计空间,通过更快的采样和更高的预训练分数网络效率,实现了最先进的新性能。

带变压器的可扩展扩散模型

我们对扩散变换器(DiTs)进行了探索,结果表明其具有良好的可扩展性,在图像基准上优于先前的扩散模型,其中最大的模型达到了最先进的保真度。

零镜头文本到图像生成

本文介绍了一种基于转换器的文本到图像生成的简单方法,该方法以零镜头方式与特定领域模型竞争。

内容丰富的文本到图像生成的比例自回归模型

Parti 模型可扩展自回归文本到图像的生成,生成高保真逼真的图像,并支持复杂的合成和世界知识。

利用 CLIP Latents 分层文本条件生成图像

一个两阶段模型利用 CLIP 图像嵌入技术从文字说明中生成图像,从而提高了多样性,并能以零镜头方式进行语言引导的图像处理。

SDEdit:利用随机微分方程引导图像合成和编辑

SDEdit 引入了一种用于图像合成和编辑的扩散模型生成先验,在逼真度和忠实于用户输入之间取得了平衡,而无需进行特定任务的训练。


常见问题

问:LSTM 网络在视频表示学习中的意义是什么?
答:LSTM 网络对于学习视频序列的固定长度表征至关重要,这些表征可在序列重建或未来预测等任务中进行解码。

问:经常性环境模拟器如何使特工受益?
答:它们使代理能够模拟未来的环境状态,从而帮助进行有效的规划和行动。

问:世界模型在强化学习中的作用是什么?
答:"世界模型 "学习环境的压缩表征,可用于快速高效地训练代理。

问:GAN 如何促进视频生成?
答:GANs 用于学习和生成场景动态,有助于识别任务和生成可信的未来场景。

问:MoCoGAN 的视频生成方法有何独特之处?
答:MoCoGAN 可将视频分解为内容和动作两个部分,从而生成具有不同动态效果的视频,同时保持相同的内容。

问:Imagen Video 如何生成高清视频?
答:Imagen Video 使用文本提示和级联扩散模型生成具有高保真和艺术风格的视频。

问:扩散模型为图像和视频合成带来了哪些进步?
答:扩散模型通过更好的架构和分类器引导实现了高质量的合成,在各种基准测试中取得了最先进的性能。

问:变压器能否有效地用于视频分类?
答:是的,像 ViViT 这样的模型表明,基于纯变换器的模型可以在视频分类中取得最先进的结果。

问:使用潜在扩散模型进行图像合成的优势是什么?
答:潜在扩散模型是在压缩的潜在空间中运行的,因此可以在降低计算要求的情况下进行高分辨率合成。

问:在图像合成和编辑过程中,SDEdit 如何平衡真实感和用户输入?
答:SDEdit 使用扩散模型先验生成技术对图像进行迭代去噪,在逼真度和忠实于用户指南之间取得了平衡,而无需进行特定任务的训练。