真·拿嘴做视频：Meta“AI导演”一句话搞定视频素材

发表于 3年以前 | 总阅读数：990 次

好家伙，这是以后拍视频真能全靠一张嘴的节奏啊……

不错，那厢一句话让AI画画的Text to Image正搞得风生水起，这厢Meta AI的研究人员又双叒给生成AI来了个超进化。

这回是真能“用嘴做视频”了：

AI名为Make-A-Video，直接从DALL·E、Stable Diffusion搞火的静态生成飞升动态。

给它几个单词或几行文字，就能生成这个世界上其实并不存在的视频画面，掌握的风格还很多元。

不仅纪录片风格能hold住，整点科幻效果也没啥问题。

两种风格混合一下，机器人在时代广场蹦迪的画面好像也没啥违和感。

文艺小清新的动画风格，看样子Make-A-Video也把握住了。

这么一波操作下来，那真是把不少网友都看懵了，连评论都简化到了三个字母：

而大佬LeCun则意味深长地表示：该来的总是会来的。

毕竟一句话生成视频这事儿，之前就有不少业内人士觉得“快了快了”。只不过Meta这一手，确实有点神速：

比我想象中快了9个月。

甚至还有人表示：我已经有点适应不了AI的进化速度了……

文本图像生成模型超进化版

你可能会觉得Make-A-Video是个视频版的DALL·E。

实际上，差不多就是这么回事儿

前面提到，Make-A-Video是文本图像生成（T2I）模型的超进化，那是因为这个AI工作的第一步，其实还是依靠文本生成图像。

从数据的角度来说，就是DALL·E等静态图像生成模型的训练数据，是成对的文本-图像数据。

而Make-A-Video虽然最终生成的是视频，但并没有专

门用成对的文本-视频数据训练，而是依然靠文本-图像对数据，来让AI学会根据文字复现画面。

视频数据当然也有涉及，但主要是使用单独的视频片段来教给AI真实世界的运动方式。

具体到模型架构上，Make-A-Video主要由三部分组成：

文本图像生成模型P

时空卷积层和注意力层

用于提高帧率的帧插值网络和两个用来提升画质的超分网络

整个模型的工作过程是酱婶的：

首先，根据输入文本生成图像嵌入。

然后，解码器Dt生成16帧64×64的RGB图像。

插值网络↑F会对初步结果进行插值，以达到理想帧率。

接着，第一重超分网络会将画面的分辨率提高到256×256。第二重超分网络则继续优化，将画质进一步提升至768×768。

基于这样的原理，Make-A-Video不仅能根据文字生成视频，还具备了以下几种能力。

将静态图像转成视频：

根据前后两张图片生成一段视频：

根据原视频生成新视频：

刷新文本视频生成模型SOTA

其实，Meta的Make-A-Video并不是文本生成视频（T2V）的首次尝试。

比如，清华大学和智源在今年早些时候就推出了他们自研的“一句话生成视频”AI：CogVideo，而且这是目前唯一一个开源的T2V模型。

更早之前，GODIVA和微软的“女娲”也都实现过根据文字描述生成视频。

不过这一次，Make-A-Video在生成质量上有明显的提升。

在MSR-VTT数据集上的实验结果显示，在FID（13.17）和CLIPSIM（0.3049）两项指标上，Make-A-Video都大幅刷新了SOTA。

此外，Meta AI的团队还使用了Imagen的DrawBench，进行人为主观评估。

他们邀请测试者亲身体验Make-A-Video，主观评估视频与文本之间的逻辑对应关系。

结果显示，Make-A-Video在质量和忠实度上都优于其他两种方法。

One More Thing

有意思的是，Meta发布新AI的同时，似乎也拉开了T2V模型竞速的序幕。

Stable Diffusion的母公司StabilityAI就坐不住了，创始人兼CEO Emad放话道：

我们将发布一个比Make-A-Video更好的模型，大家都能用的那种！

而就在前几天，ICLR网站上也出现了一篇相关论文Phenaki。

生成效果是这样的：

对了，虽然Make-A-Video尚未公开，但Meta AI官方也表示，准备推出一个Demo让大家可以实际上手体验，感兴趣的小伙伴可以蹲一波了。

刘强东夫妇：“移民美国”传言被驳斥

京东创始人刘强东和其妻子章泽天最近成为了互联网舆论关注的焦点。有关他们“移民美国”和在美国购买豪宅的传言在互联网上广泛传播。然而，京东官方通过微博发言人发布的消息澄清了这些传言，称这些言论纯属虚假信息和蓄意捏造。

发布于：2年以前 | 808次阅读 | 详细内容 »

博主曝三大运营商，将集体采购百万台华为Mate60系列

日前，据博主“@超能数码君老周”爆料，国内三大运营商中国移动、中国电信和中国联通预计将集体采购百万台规模的华为Mate60系列手机。

发布于：2年以前 | 770次阅读 | 详细内容 »

ASML CEO警告：出口管制不是可行做法，不要“逼迫中国大陆创新”

据报道，荷兰半导体设备公司ASML正看到美国对华遏制政策的负面影响。阿斯麦（ASML）CEO彼得·温宁克在一档电视节目中分享了他对中国大陆问题以及该公司面临的出口管制和保护主义的看法。彼得曾在多个场合表达了他对出口管制以及中荷经济关系的担忧。

发布于：2年以前 | 756次阅读 | 详细内容 »

抖音中长视频App青桃更名抖音精选，字节再发力对抗B站

今年早些时候，抖音悄然上线了一款名为“青桃”的 App，Slogan 为“看见你的热爱”，根据应用介绍可知，“青桃”是一个属于年轻人的兴趣知识视频平台，由抖音官方出品的中长视频关联版本，整体风格有些类似B站。

发布于：2年以前 | 648次阅读 | 详细内容 »

威马CDO：中国每百户家庭仅17户有车

日前，威马汽车首席数据官梅松林转发了一份“世界各国地区拥车率排行榜”，同时，他发文表示：中国汽车普及率低于非洲国家尼日利亚，每百户家庭仅17户有车。意大利世界排名第一，每十户中九户有车。

发布于：2年以前 | 589次阅读 | 详细内容 »

研究发现维生素 C 等抗氧化剂会刺激癌症生长和转移

近日，一项新的研究发现，维生素 C 和 E 等抗氧化剂会激活一种机制，刺激癌症肿瘤中新血管的生长，帮助它们生长和扩散。

发布于：2年以前 | 449次阅读 | 详细内容 »

苹果据称正引入3D打印技术，用以生产智能手表的钢质底盘

据媒体援引消息人士报道，苹果公司正在测试使用3D打印技术来生产其智能手表的钢质底盘。消息传出后，3D系统一度大涨超10%，不过截至周三收盘，该股涨幅回落至2%以内。

发布于：2年以前 | 446次阅读 | 详细内容 »

千万级抖音网红秀才账号被封禁

9月2日，坐拥千万粉丝的网红主播“秀才”账号被封禁，在社交媒体平台上引发热议。平台相关负责人表示，“秀才”账号违反平台相关规定，已封禁。据知情人士透露，秀才近期被举报存在违法行为，这可能是他被封禁的部分原因。据悉，“秀才”年龄39岁，是安徽省亳州市蒙城县人，抖音网红，粉丝数量超1200万。他曾被称为“中老年...

发布于：2年以前 | 445次阅读 | 详细内容 »