快收极客网

  • 常用
  • 站内搜索
  • 百度
  • 360搜索

AI视频

Phenaki

Phenaki是一个AI视频生成模型,可以通过简单的文本提示自动生成视频内容。主要利用文本中的时间变化来创造出不同的场景和动作,还可以从一张静止图像和一个提示生成相关的连续视频。

Phenaki

Phenaki的简介

Phenaki,一种能够在给定一系列文本提示的情况下进行逼真视频合成的模型。由于计算成本、高质量文本视频数据数量有限和视频长度可变,从文本生成视频尤其具有挑战性。为了解决这些问题,我们引入了一种新的因果模型来学习视频表示,它将视频压缩为离散标记的小表示。此标记器及时使用因果注意,这使其可以处理可变长度的视频。

为了从文本中生成视频标记,我们使用了一个以预先计算的文本标记为条件的双向掩码转换器。随后对生成的视频令牌进行去令牌化以创建实际视频。为了解决数据问题,我们展示了对大量图像-文本对以及少量视频-文本示例的联合训练如何导致超出视频数据集中可用的泛化。与以前的视频生成方法相比,Phenaki可以在开放域中生成以一系列提示(即时间变量文本或故事)为条件的任意长视频。

Phenaki的特点

1、Phenaki可以生成任意长度的视频,而不受固定帧数或分辨率的限制。

2、Phenaki可以根据时间变化的文本提示生成视频,例如一个故事。这与传统的基于静态图像或单一文本提示的视频生成方法不同。

3、Phenaki可以利用大量的图像-文本对数据和少量的视频-文本对数据进行联合训练,从而实现对视频数据集之外的内容的泛化。

4、Phenaki在空间-时间质量和每个视频的令牌数量方面都优于目前文献中使用的所有逐帧基线。