潮新闻 记者 金春华 何冬健 姚颖康 朱高祥
分镜头多角度,画面精细流畅,时长是此前市场上产品的2~5倍……2月16日,曾因ChatGPT一炮走红的人工智能研究公司OpenAI推出的文生视频大模型Sora,令全球从事文字、音视频以及科技的工作人士惊叹不已。
就在OpenAI已公布的演示视频中,我们看到一名时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街头;看到两艘海盗船在咖啡杯中缠斗,咖啡如海浪汹涌;看到可爱的水獭穿着黄色救生衣站在滑板上冲浪……惟妙惟肖,与实景拍摄、高清特效无异。网友的评价也出奇一致:炸裂!惊艳!颠覆!
而这,也被视作整个AI产业、视频产业的新挑战、新机遇。连日来,有人为新“风口”的到来振奋不已;有人如音视频领域从业者感受到了危机:“要失业了。”
Sora到底厉害在哪里?它又将掀起哪些新的浪潮?
意料之中与出乎意外
“没想到这一天来得这么快!”“没想到效果这么有颠覆性。”这是记者采访业界人士时听到最多的两句话。
尽管截至记者发稿,Sora尚未公开发布或未公测,有的只是OpenAI公布的数十段演示视频。但前有ChatGPT为证,后有Sora远超其他模型的效果——任谁都会思考,一个新的时代是否来了?
Sora可简单视作一个人工智能视频生成工具:只需我们输入一段文字,它就能创建一个与真实世界接近的虚拟世界,时长可达60秒。此前在文生视频领域,谷歌、Meta、Runway、Pika等产品大都在30秒甚至10秒之内。
更让人啧啧称奇的是,Sora生成的视频,无论是光影色彩的转变,还是多镜头多角度的切换,甚至细微到纹理结构变化,都呈现出“大片感”。
“Sora还能模拟现实世界的物理规律。这尤其有难度。”阿里巴巴大模型算法专家曹宇举例说,其中有一段视频展现的是两艘船在咖啡中战斗,Sora精准呈现了咖啡流动的流体动力学效果。
要知道,在文字、图片、视频等不同体裁中,视频生成是最难的。Sora不仅要理解文本指令的含义,即语义理解能力,不能输入“女孩”出来一“老头”,也不能违背逻辑与物理规则,如输入“狗坐在椅子上”出来“狗嵌入了椅子”;生产效果要好,画面流畅程度、稳定性、连贯性等都不能缺,比如太阳在左上角,不能右下角又无故生出阳光;还有就是时长,时间越长,视频表现力越强,AI“露馅”的可能性也越大。
Sora有远超同类的表现,其核心技术与底层逻辑却被普遍认为“还是老一套”,即时空Patch技术和DiT架构。前者的技术论文由谷歌DeepMind团队于2023年7月发表。后者的技术论文,是Sora团队领导者之一William Peebles与另一位科学家合作的。记者浏览了OpenAI公布的参考文献清单,其中有很多出自谷歌、Meta、微软、斯坦福、MIT、UC伯克利等机构的成果。也就是说,Sora的诞生源于整个AI社区多年来的探索,是“意料之中”的事情。
“事实上,Sora依然遵循OpenAI的规模理论——大量数据、大模型和大量算力。”浙江大学杭州国际科创中心求是科创学者、AI交叉中心专家丁科炎估计,Sora与ChatGPT一样,也是来自大力出奇迹的“暴力美学”。
新年伊始,丁科炎(左)与张强在一起畅聊大模型发展。记者 姚颖康 摄
此前,AI视频创业公司Runway和Pika被认为是视频生成赛道的佼佼者,如今却被Sora轻松“吊打”。业内人士分析,Sora制胜之道,一在其使用的图文对、视频等的数量比这两家大一个量级以上;二在算力堆叠的效果更好。
在杭州城市大脑有限公司CEO申永生看来,Sora体现了AI对现实世界的理解已更上一层楼,“它在训练中结合了多种先进的算法,比如masked(遮掩)算法,把一个画面随机遮掩掉30%局部,让AI根据对画面整体理解还原出来,同时利用生成式算法让画面比原作更富有创意。”
曹宇则表示,Sora的基础架构Transformer能实现“作文续写”,相比于传统“完形填空”式的技术拥有更优秀的创作能力。
“打个比方,我们可以将一堆杂乱无章的积木整理好放入一个个小盒子中。如此一来,即便面对众多积木,只要找到了这个小盒子就能轻松找到所需积木。”丁科炎也给出自己的解读,由于前期用于训练的海量视频数据被转化成一个个“小方块”,当我们向Sora提供一个新任务时,AI就会从视频数据中提取出一些包含时间和空间信息的“小方块”,并将之交给Sora,让其根据这些信息生成新视频。
“某种程度上,Sora已经可以像人一样,对世界有了一定认知。”丁科炎说。
浪漫与现实
Sora带来的产业变革,被视作技术进步产生的“浪漫”。
“相比于ChatGPT,Sora的产业空间更广,影视剧、游戏视频、广告策划、创意和设计可视化、数字孪生、自动驾驶、医疗等都是它的舞台。”申永生表示,视频与文本有着本质的区别,其开放空间很大,“比如我们在做城市大脑新场景应用的推广宣传片时,以前要么是找人拍,要么做动漫,成本很高,创新挑战的压力也很大;有了Sora这类新工具,我们可以用更少的成本、更快的速度、更贴近现实的视频来做推广,效果也会更好。”
这种强大的生成能力,或将打开AIGC新的空间,特别是突破知识产权领域的瓶颈。
浙大杭州国际科创中心借助AI工作的“合成生物学自动化科学装置”。 浙大杭州国际科创中心供图
浙江震天律师事务所律师钱航告诉记者,是否具有“独特个性”,是传统著作权法理论判断一件创作物是否是作品的关键因素之一。此前不少专家反对人工智能创作物具有独创性,主要认为人工智能的创作物是算法、模板等统一产生的结果,“但现在看来,一方面Sora等新工具的创新能力明显更强;另一方面,Sora生成视频的好坏也更受制于提示文本的好坏、文本创作者创意的好坏,其独创性也更明显。”
更重要的是,Sora一旦公开投用,其强大的能力肯定会被大量用于商业用途,成为具备经济价值的交易客体,随之也会产生越来越多的法律问题。钱航认为:“当下应该尽快立法,明确人工智能创作物的法律属性,完善相关权利保障体系,一方面激励人工智能及相关产业发展,一方面维护现有版权秩序。”
很多“浪漫遐想”已经展开。
浙江省工业和信息化研究院区域经济研究所所长赵立龙认为,随着Sora的到来,其“模拟数字世界”能力将对元宇宙发展产生颠覆性影响。它不仅能够直接根据需求生成虚拟视频,迅速构建元宇宙所需的场景,而且其展现出了直接生成可深入探索的动态虚拟空间的潜力,这意味着元宇宙将进入到全新的发展阶段。