OpenAI官网上Sora生成的视频(左),周鸿祎在微博发表对Sora的看法(右)
商报记者 沈艳 见习记者 吕文鹃
“一个时髦的女人走在东京的街道上,街道上充满了温暖发光的霓虹灯和生动的城市标志。她穿着一件黑色的皮夹克,一件红色的长裙,一双黑色的靴子,还带着一个黑色的钱包……”这是OpenAI官网在演示Sora的使用时,输入的文本。片刻工夫,一个逼真而生动的视频就诞生了,用户只需提供简单的文字描述,这款文生视频大模型让小白也化身为“专业剪辑师”。
在春节假期末尾,OpenAI往科技圈投下的一颗重磅“炸弹”让各行各业沸腾了起来——其最新发布的AI文(图)生视频模型Sora。用户只需发出简单的文本指令,Sora就可以直接输出长达60秒的视频,不仅背景细致入微,而且包含了复杂的多角度镜头和富有情感的多个角色。
多位科技大佬评论 爱好者付费买课
Sora正席卷各个角落
“里程碑”“重磅‘炸弹’”“重大突破”,是Sora问世后的几小时内,各路媒体、业内专家、科技爱好者都不约而同使用到的形容词。一位X用户在平台分享了Sora生成的视频后,X创始人(原推特)马斯克更是在评论区中回复网友道:“GG人类。”(GG是网络游戏的用语之一,原指游戏结束时玩家互相致意,后引申为“游戏结束”)。
作为OpenAI发布的首个文本到视频生成的AI模型,Sora的问世也带动了一系列连锁反应。除了马斯克,360创始人周鸿祎、全球顶尖AI学者杨立昆等科技圈名人都在社交平台发表了自己的看法;微博、B站等平台出现Sora讲解图文、视频,不到三天,一些作品点击率已破10万;一些小程序、公众号上架了讲解、试用Sora的付费产品,不少科技爱好者为此买单。
Sora发布当天,周鸿祎在微博分享自己的看法,“Sora只是小试牛刀,它展现的不仅仅是一个视频制作的能力,而是大模型对真实世界有了理解和模拟之后,会带来新的成果和突破。”他认为,Sora的诞生意味着AGI(通用人工智能)实现可能从10年缩短至一两年。
各界对Sora的关注度居高不下,国内一众科技爱好者对于这个新事物也是跃跃欲试。但目前,OpenAI尚未向公众开放Sora,该模型只分享给了一批精选的研究人员和学者。而一些关于Sora的付费课程也正在小程序等不同的渠道中陆续上架。
记者在名为“知识星球”的小程序中看见一些关于Sora的学习社群,其中有一些需要付费才能加入,价格在50-99元不等,课程内容简介大多关于Sora的一手资料、使用教程等。还有网友表示,自己之前在该小程序中出售个人GPT搭建教程,在Sora发布后明显感受到了付费率的提升。
多个科技公司领先涉足相关领域
有人担心要失业
“AI方向是否搞反了,本来让它帮我们洗碗扫地,我们有空去画画拍视频,但现在这些都被它干了,我们却还在洗碗扫地……”面对Sora这款重磅模型,有网友这样打趣道,而其中也不乏许多视频创作者对于自己“饭碗”的担忧。
记者了解到,除了海外的Sora,国内也有不少科技巨头领先涉足AI技术和大模型领域。据财联社不完全统计,包括万兴科技、当虹科技、拓尔思、国脉文化、佳都科技在内的10多家A股上市公司近期曾在互动平台披露视频生成模型领域的业务情况和取得的相关进展。
此前,佳都科技发布了自主研发的国产化大模型技术,聚焦在交通、城市治理、政务服务等垂直领域的应用。当虹科技也于2023年上半年发布了以静态照片生成三维体积视频的方案,实现高达800倍的视觉无损压缩,实现不同模态之间相互切换。
另外,大华股份、海康威视等视频分析行业领先厂商纷纷投入到多模态大模型研究和行业应用落地进程。目前,大华股份已经发布了“星汉大模型”,融合点云、语音、图像等输入,构建了多模态融合的行业视觉大模型;海康威视处于多模态大模型的研发阶段,涵盖视觉、语音、文本等多模态信号的融合训练及处理。
为何Sora能在遍地开花的文生视频大模型中脱颖而出?据悉,它生成的视频具有超长时长、世界模型、多镜头切换三大特点,不仅能够深入理解用户提示,还学会了物理世界的部分规律。如一个人吃汉堡后会留下咬痕、火车车窗上会产生逼真的倒影,Sora还可在单个视频中设计出多个镜头,可以说是视频生成技术方面的突破性进展。
如此看来,AI技术确实有“灵性”。未来它真能替代视频剪辑师、3D建模师吗?在复旦大学新闻学院教授、博士生导师邓建国看来,目前Sora生成的视频还不能做到完全真实,有的细节破绽用肉眼可以识别。因此,作者如何使用文字精确控制视频的细节和效果,目前还有待迭代发展。这也从侧面反映,主导技术前进的依旧是人本身。