2月16日凌晨,OpenAI在官网发布视频生成模型Sora,该模型可根据文字生成一段长达1分钟的视频。相比此前的其他视频生成模型,Sora在时长、精细度方面都实现了现象级突破。
“一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克,红色长裙,黑色靴子……”输入文字要求,该模型便可依据内容自动生成一段60秒的视频。视频画面中,潮湿积水的街道映照着上空的影像,光影效果、虚实变化等细节都非常逼线秒后,连女性皮肤上的毛孔、皱纹、瑕疵都清晰无遗,细节拉满让人真假难辨。
OpenAI官网还展示了多段文本生成视频作品,如两艘海盗船在一杯咖啡中航行,在泛白的咖啡泡沫中互相激斗;载满乘客的列车驶过光影交替的城市,车窗上投射出生动的车内倒影;舞龙队伍在周边人群的围观和随行中前进,远近透视真实感十足。
Sora的出现激发了网友的强烈好奇,从已公开作品来看,该模型不仅能模拟现实中存在的事物,也为想象中才能看到的画面提供了视频化的可能。有网友表示,以后能让AI描绘自己的梦了,还有网友称想看看国足勇夺世界杯冠军”
OpenAI表示,该模型可以在生成视频的同时保持视觉质量并遵守用户的提示。目前正在教人工智能理解和模拟运动中的物理世界,目标是训练模型,帮助人们解决需要现实世界互动的问题。
除了根据文本生成内容外,Sora还可以根据预先存在的图像或视频,执行广泛的图像和视频编辑任务,如创建完美的循环视频,将静态图像动态化,向前或向后扩展视频等。
OpenAI在其技术报告中展示了基于DALL·E 2和DALL·E 3的图像生成的视频,其中一段9秒长的冲浪片段,不仅动态化还原了静态图片中的场景,还将图像中原本被遮挡的部分进行了编辑和扩充。
Sora视频编辑潜力的又一体现在于其时间线扩展功能,技术报告介绍,Sora能在时间上向前或向后扩展视频。官网发布的几个片段都是从某段视频开始,向过去进行延伸,因此,尽管4个视频的开头各不相同,但其走向却都殊途同归。
除此之外,该模型还具备很强的设备兼容性,能够适配不同的尺寸和分辨率要求。
当然,OpenAI也承认,Sora目前还存在一些局限性。该模型可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系。例如,一个人咬了一口饼干,但饼干却没有咬痕,一个玻璃杯尚未破碎,杯中饮料已洒落桌面。
报告还提到,在长时间样本中,可能出现不连贯现象。该模型可能混淆提示的空间细节,例如混淆左右,并且可能难以精确描述随着时间推移发生的事件,例如遵循特定的相机轨迹。
尽管如此,作为第一代文字生成视频模型,Sora的商业价值仍然难以估量。据财联社报道,随着OpenAI与风司Thrive capital达成最新股票出售协议,OpenAI的估值已经提高到800亿美元以上,这意味着该公司的估值已达到九个月前的近3倍。
Sora刷屏后不久,关于人工智能造成行业冲击的话题便再次引发热议,影视特效等内容生产行业首当其冲。
面对Sora强大的内容生产能力,上海戏剧学院导演系副教授章文颖告诉海报新闻记者,可以预见的是,技术进步带来的制作成本降低可能会使许多后期工作被替代,如视频剪辑、后期制作。另一方面,随着技术更新,群演可以直接用技术生成,主演用复杂的模型也可以,这就意味着不只是幕后工作者,台前的演员同样可能受到威胁。
不过,新的技术也会催生新的工种和工作方式,章文颖认为,不必对此有过多担忧。更重要的是,艺术和影视创作需要有文化和精神内容,技术再高端,也很难取代作品的精神内核,“影响肯定有,起码可以降作成本,但对虚构类的影视作品来说肯定还是内容为王。”
章文颖还说,Sora能够根据输入的文字自动生成视频,这在新闻报道领域同样有应用空间。除了代劳一部分简单的新闻报道工作,此类技术模型还可能为假新闻打开方便之门。
360集团创始人周鸿祎表示,AI不一定那么快颠覆所有行业,但它能激发更多人的创作力。机器能生产一个好视频,但视频的主题、脚本和分镜头策划、台词的配合都需要人的创意。今天Sora可能给广告业、电影预告片、短视频行业带来巨大的颠覆,但它不一定那么快击败Tik Tok,更可能成为Tik Tok的创作工具。
虽然Sora风头正猛,但在章文颖看来,这款所谓史诗级模型的存在感目前还停留在宣传和金融层面,它对行业的具体影响还要等到正式投入使用时才能见分晓。
新闻信息服务许可证音像制品出版许可证广播电视节目制作经营许可证网络视听许可证网络文化经营许可证