阿里妹导读
Sora是一个以视频生成为核心的多能力模型,本文简单介绍了什么是Sora,主要从Sora有多强、Sora技术突破以及复刻难度、意义和启发三个方向出发展开讨论。
contents
参考Sora与Runway Gen2、Pika等能力差异对比表可见,不论是基本的视频生成能力(时长、长宽比),还是更强的视频连续性、真实世界模拟等,OpenAI Sora都有无可比拟的优势。其中,视频清晰度,OpenAI Sora默认是1080P,而且其它平台大多数默认的清晰度也都是1080P以下,只是在经过upscale等操作之后可以达到更清晰的水平。60s的时长已达开箱即用的商业价值。
上述视频生成能力项中,视频连接、数字世界模拟、影响世界状态(世界交互)、运动相机模拟等都是此前视频平台或者工具中不具备的。
另外值得一提的是,OpenAI Sora模型还可以直接生成图片,也就是说,它是一个以视频生成为核心的多能力模型。
合成数据的大量应用是通向AGI的关键一步,据说本次Sora的能力大突破,其中之一就是可能通过UE5、Unity、Nerf等大量生成了合成数据作为训练集。
Sora能模拟真实或幻想的世界,学习复杂的渲染、物理规则和长期推理。它甚至可能用虚幻引擎5(UE5是一个顶级游戏引擎)进行大量训练:
有2个具体的实例可以体现上述能力:
提示词:“两艘海盗船在一杯咖啡内航行时互相战斗的逼真特写视频。”
自主创建多个视角的视频
复刻难点:物理引擎、世界模型难度就很大。
世界模型和物理引擎是虚拟现实(VR)和计算机图形学中的两个关键概念。世界模型是描述虚拟环境的框架,包括场景、对象、光照等元素,用于呈现虚拟世界的外观和感觉。物理引擎则是用于模拟和计算物体之间的物理运动和互动,如重力、碰撞、摩擦等。简而言之,世界模型是虚拟环境的静态描述,而物理引擎则负责模拟虚拟环境中物体的动态行为。它们共同作用于虚拟现实技术中,为用户提供沉浸式的体验。
世界模型要求更高,这包括对复杂场景和物理效果的处理能力、提高在新环境中的泛化能力、以及更好地利用先验知识进行实时推理、预测和决策等。虽然Sora已经能够生成较为准确的视频内容,但当场景中涉及到多个物体的交互或复杂的物理运动时,Sora可能会出现失误或偏差。其次Sora目前主要依赖于大量的训练数据来学习视频的生成规律,但这种方式可能限制了其在新环境中的泛化能力和实时决策能力。这也是目前Sora并非一个世界模型的原因 来源:gpt4问答结果
从Sora模型的技术报告中,我们可以看到Sora模型的实现,是建立在OpenAI一系列坚实的历史技术工作的沉淀基础上的包括不限于视觉理解(Clip),Transformers模型和大模型的涌现(ChatGPT),Video Caption(DALL·E 3)
来源:ModelScope论坛文章,Sora技术图\[1\]
patches是从大语言模型中获得的灵感,大语言模型范式的成功部分得益于使用优雅统一各种文本模态(代码、数学和各种自然语言)的token。大语言模型拥有文本token,而Sora拥有视觉分块(patches)。
OpenAI在之前的Clip等工作中,充分实践了分块是视觉数据模型的一种有效表示(参考论文:An image is worth 16x16 words: Transformers for image recognition at scale.)这一技术路线。而视频压缩网络的工作就是将高维度的视频数据转换为patches,首先将视频压缩到一个低纬的latent space,然后分解为spacetime patches。
难点:视频压缩网络类比于latent diffusion model中的VAE,但是压缩率是多少,如何保证视频特征被更好地保留,还需要进一步的研究。tokenization:内容二维向量化
图解LLM训练和推理的秘密-1\[2\]
patches
图片来源:sora技术论文
给定输入的噪声块+文本prompt,它被训练来预测原始的“干净”分块。重要的是,Sora是一个Scaling Transformers。Transformers在大语言模型上展示了显著的扩展性,
难点:可能包括的难点有long context(长达1分钟的视频)的支持、复杂实体decoder一致性、对video condition,image condition,text condition的多模态支持等。
视频摘要/视频字母生成属于多模态学习下的一个子任务,大体目标就是根据视频内容给出一句或多句文字描述。所生成的caption可用于后续的视频检索等等,也可以直接帮助智能体或者有视觉障碍的人理解现实情况。通过这样的高质量的训练数据,保障了文本(prompt)和视频数据之间高度的align。Sora还使用 DALL·E 3 的recaption技巧,即为视觉训练数据生成高度描述性的caption,这让Sora能够更忠实地遵循生成视频中用户的文本指令,而且会支持长文本,这个应该是OpenAI独有的优势。在生成阶段,Sora会基于OpenAI的GPT模型对于用户的prompt进行改写,生成高质量且具备很好描述性的高质量prompt,再送到视频生成模型完成生成工作。> caption训练数据都匮乏:一方面,图像常规的文本描述往往过于简单(比如COCO数据集),它们大部分只描述图像中的主体而忽略图像中其它的很多信息,比如背景,物体的位置和数量,图像中的文字等。另外一方面,目前训练文生图的图像文本对数据集(比如LAION数据集)都是从网页上爬取的,图像的文本描述其实就是alt-text,但是这种文本描述很多是一些不太相关的东西,比如广告。
技术突破:训练一个image captioner来合成图像的caption,合成caption与原始caption的混合比例高达95%:5%;但是不过采用95%的合成长caption来训练,得到的模型也会“过拟合”到长caption上,如果采用常规的短caption来生成图像,效果可能就会变差。为了解决这个问题,OpenAI采用GPT-4来“upsample”用户的caption,下面展示了如何用GPT-4来进行这个优化,不论用户输入什么样的caption,经过GPT-4优化后就得到了长caption:DALL-E 3技术报告阅读笔记[3]
难点:这项技术并不新,难的是积累,即便是合成数据也需要大量的专业标注和评测。“大”模型,“高”算力,“海量”数据意义和启发
SORA 模型参数量预计 <10B,模型参数量不会像 LLM 需要千卡/万卡大规模 AI 集群训练(~百卡);OpenAI 尚未公布 SORA 商业化时间,视频生成距离成熟还有时间距离(< 半年);技术上输入内容控制一致性等问题仍需解决,推理算力全面爆发仍然有时间差(> 半年);目前推理算力比 SD、SDXL 要大2/3个量级,需要结合 AI 训练集群或者 AI 推理集群。
参考GPT4V计算Token 的方式:2048*4096 image detail = 1105个Token 以1080P视频为例,30FPS的视频,就是1920×1080(像素)*3(RGB通道)*30(FPS)*60(时长)。可以计算1分钟长度视频价格。
Sora官方视频截图
官方提示词:逼真的特写视频,展示两艘海盗船在一杯咖啡内航行时互相争斗的情况。
优化:
Template:cssCopy Code
Sora官方视频截图
官方提示词:一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克红色长裙,拎黑色钱包。她戴着太阳墨镜涂着红色囗红。她走路自信又随意。街道潮湿且反光,在影色灯光的照射下形成镜面效果。许多行人走来走去。
优化:
示例: 提供一段描述或者图片,展示类似场景的效果。
Template:cssCopy Code:
利好内容工作者:比如影视工作者、视频创作者、视频广告行业尤其是投手(投流素材的工业化+定制化,根据SEO需求文生视频)普通人:闲下来就能玩的?没有想到,内容创作本身尤其是到可变现的水平还是有较高的门槛。所以这个对普通人来说是一个AGI时代更普适的问题。不可替代的竞争力是什么?灵敏的嗅觉+对各类工具的活用+自身知识体系;创新只可能发生在自己真正的兴趣领域,找到你的热爱并持续玩终有一天可以真正享受科技实现创作者经济自由。
After all,in the AI industry, tomorrow is another year...
1、既要好高骛远更要脚踏实地:据投资人介绍,整体AI infra市场建设起来需要1W亿的资金,市场盘子足够大。同时openAI不断打破天花版也给明了技术路线,机会依旧很多。先做到5%~10%提效(效率,效果)再谈星辰大海;一切的基础还是先拿个入场券哪怕只是参观券。开源:闭源模型不是完美的,优化弱点就能成功。开源的LCMvsLDM就是个例子。LDM 20 步 扩 散 生 成 一 张 图;LCM 一 步生成一张图,有巨大的效益空间。应用:模型和应用市场逐渐分离,成熟用户平台、做infra中间件、数据工程等也是核心竞争力
2、如何解决冷启动的策略经验沉淀形成数据飞轮是任何AI类业务成败的关键。比如强大集成、专业顶尖的标注投入(比如在合成数据、AI评测的势头下,openAI很多标注评测工作都是科研人员)dirty work需要战略定力。
参考链接:
本文由微信公众号阿里云开发者原创,哈喽比特收录。
文章来源:https://mp.weixin.qq.com/s/MsaCUnTsJYxJFgnNGT6DTA
京东创始人刘强东和其妻子章泽天最近成为了互联网舆论关注的焦点。有关他们“移民美国”和在美国购买豪宅的传言在互联网上广泛传播。然而,京东官方通过微博发言人发布的消息澄清了这些传言,称这些言论纯属虚假信息和蓄意捏造。
日前,据博主“@超能数码君老周”爆料,国内三大运营商中国移动、中国电信和中国联通预计将集体采购百万台规模的华为Mate60系列手机。
据报道,荷兰半导体设备公司ASML正看到美国对华遏制政策的负面影响。阿斯麦(ASML)CEO彼得·温宁克在一档电视节目中分享了他对中国大陆问题以及该公司面临的出口管制和保护主义的看法。彼得曾在多个场合表达了他对出口管制以及中荷经济关系的担忧。
今年早些时候,抖音悄然上线了一款名为“青桃”的 App,Slogan 为“看见你的热爱”,根据应用介绍可知,“青桃”是一个属于年轻人的兴趣知识视频平台,由抖音官方出品的中长视频关联版本,整体风格有些类似B站。
日前,威马汽车首席数据官梅松林转发了一份“世界各国地区拥车率排行榜”,同时,他发文表示:中国汽车普及率低于非洲国家尼日利亚,每百户家庭仅17户有车。意大利世界排名第一,每十户中九户有车。
近日,一项新的研究发现,维生素 C 和 E 等抗氧化剂会激活一种机制,刺激癌症肿瘤中新血管的生长,帮助它们生长和扩散。
据媒体援引消息人士报道,苹果公司正在测试使用3D打印技术来生产其智能手表的钢质底盘。消息传出后,3D系统一度大涨超10%,不过截至周三收盘,该股涨幅回落至2%以内。
9月2日,坐拥千万粉丝的网红主播“秀才”账号被封禁,在社交媒体平台上引发热议。平台相关负责人表示,“秀才”账号违反平台相关规定,已封禁。据知情人士透露,秀才近期被举报存在违法行为,这可能是他被封禁的部分原因。据悉,“秀才”年龄39岁,是安徽省亳州市蒙城县人,抖音网红,粉丝数量超1200万。他曾被称为“中老年...
9月3日消息,亚马逊的一些股东,包括持有该公司股票的一家养老基金,日前对亚马逊、其创始人贝索斯和其董事会提起诉讼,指控他们在为 Project Kuiper 卫星星座项目购买发射服务时“违反了信义义务”。
据消息,为推广自家应用,苹果现推出了一个名为“Apps by Apple”的网站,展示了苹果为旗下产品(如 iPhone、iPad、Apple Watch、Mac 和 Apple TV)开发的各种应用程序。
特斯拉本周在美国大幅下调Model S和X售价,引发了该公司一些最坚定支持者的不满。知名特斯拉多头、未来基金(Future Fund)管理合伙人加里·布莱克发帖称,降价是一种“短期麻醉剂”,会让潜在客户等待进一步降价。
据外媒9月2日报道,荷兰半导体设备制造商阿斯麦称,尽管荷兰政府颁布的半导体设备出口管制新规9月正式生效,但该公司已获得在2023年底以前向中国运送受限制芯片制造机器的许可。
近日,根据美国证券交易委员会的文件显示,苹果卫星服务提供商 Globalstar 近期向马斯克旗下的 SpaceX 支付 6400 万美元(约 4.65 亿元人民币)。用于在 2023-2025 年期间,发射卫星,进一步扩展苹果 iPhone 系列的 SOS 卫星服务。
据报道,马斯克旗下社交平台𝕏(推特)日前调整了隐私政策,允许 𝕏 使用用户发布的信息来训练其人工智能(AI)模型。新的隐私政策将于 9 月 29 日生效。新政策规定,𝕏可能会使用所收集到的平台信息和公开可用的信息,来帮助训练 𝕏 的机器学习或人工智能模型。
9月2日,荣耀CEO赵明在采访中谈及华为手机回归时表示,替老同事们高兴,觉得手机行业,由于华为的回归,让竞争充满了更多的可能性和更多的魅力,对行业来说也是件好事。
《自然》30日发表的一篇论文报道了一个名为Swift的人工智能(AI)系统,该系统驾驶无人机的能力可在真实世界中一对一冠军赛里战胜人类对手。
近日,非营利组织纽约真菌学会(NYMS)发出警告,表示亚马逊为代表的电商平台上,充斥着各种AI生成的蘑菇觅食科普书籍,其中存在诸多错误。
社交媒体平台𝕏(原推特)新隐私政策提到:“在您同意的情况下,我们可能出于安全、安保和身份识别目的收集和使用您的生物识别信息。”
2023年德国柏林消费电子展上,各大企业都带来了最新的理念和产品,而高端化、本土化的中国产品正在不断吸引欧洲等国际市场的目光。
罗永浩日前在直播中吐槽苹果即将推出的 iPhone 新品,具体内容为:“以我对我‘子公司’的了解,我认为 iPhone 15 跟 iPhone 14 不会有什么区别的,除了序(列)号变了,这个‘不要脸’的东西,这个‘臭厨子’。