Meta推出Make-A-Video工具

通过 Dall-E、Midjourney 和 CrAIyon 等 AI 工具,普通用户也可以输入一些简单的文本内容,经过人工智能加工之后生产媲美艺术家的艺术插图。而 Meta 最新推出的 Make-A-Video 工具则让 AI 艺术生成工具更近一步,只要一些简单的文字就可以生成视频。

ezgif.com-gif-maker.webp

结果令人印象深刻且多种多样,而且毫无例外地都有些令人毛骨悚然。我们以前见过文本到视频模型——它是文本到图像模型(如 DALL-E)的自然扩展,它从提示中输出静止图像。但是,虽然从静止图像到移动图像的概念跳跃对于人类大脑来说很小,但在机器学习模型中实现却绝非易事。

例如输入“A dog wearing a Superhero outfit with red cape flying through the sky”,就会生成下面短视频:

例如“A teddy bear painting a portrait”,就会生成

A_teddy_bear_painting_a_portrait.webp

Meta 的研究人员表示,仅文本输入生成图像的模型在生成短视频方面同样有效。AI 使用现有的有效扩散技术来创建图像,该技术本质上是从纯视觉静态“去噪”到目标提示的反向工作。这里要补充的是,该模型还对一堆未标记的视频内容进行了无监督训练(也就是说,它在没有人类强烈指导的情况下检查了数据本身)。

Meta 的研究人员写道:“在空间和时间分辨率、对文本的忠实度和质量的所有方面,Make-A-Video 设置了文本到视频生成的最新技术水平,由定性和定量测量决定”。