行业震动！OpenAI首个视频生成模型震惊世界后还有这些问题

发布时间：2024-02-17 浏览次数：次

　　据介绍，Sora具备直接输出长达60秒视频的能力，其中包含高度细致的背景、复杂多角度的镜头，以及富有情感的多个角色。

　　OpenAI创始人Sam Altman在推特上疯狂安利，还亲自下场为网友生成视频。

　　目前，官网已经更新了48个视频demo，展示了Sora不仅在准确呈现细节方面的卓越表现，还在理解物体在物理世界中存在的能力上取得了显著进展。该模型还能根据提示、静止图像，甚至填补现有视频中的缺失帧，实现了对视频内容的全方位生成。

　　YouTube博主Paddy Galloway在一篇关于Sora的评论中深刻地指出，内容创作行业已经彻底改变，他毫不夸张地表示：“我在YouTube的世界已经度过了15年，但OpenAI刚刚展示的内容让我无法用言语表达。动画师和3D艺术家可能面临一些挑战，而素材网站可能会变得不再那么重要，因为任何人都可以轻松获得令人难以置信的产品。在这一切中，创意背后的‘想法’和故事将变得更加重要。”

　　在动画玩法上更是打开了更多的想象空间，渲染毛发的质感，灯光材质上都有非常大的突破，最重要的时长可以变得很长。

　　然而，OpenAI也坦率地承认了Sora目前存在的一些弱点，特别是在准确模拟复杂场景的物理原理和理解因果关系方面的挑战。例如，在描述“五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐”时，Sora可能会混淆狼的数量，导致一些凭空出现或消失。

　　此外，模型可能会在描述空间细节时混淆左右，难以准确描述随着时间推移发生的事件。比如这个篮球运动轨迹进入篮筐，不仅空间穿越，还会产生特效。‍‍‍‍‍

　　还有下面这个例子，吹蜡烛之前和吹蜡烛之后，火苗没有丝毫变化，透露出一种诡异，远处观众们的手似乎完全不受控制。

　　OpenAI明确表示，他们正在努力教导AI理解和模拟物理世界中的运动，并旨在训练模型以解决需要与现实世界进行交互的问题。

　　Sora的工作原理得到了解释，它采用了扩散模型和Transformer架构，通过多步骤逐渐去除视频中的噪声，从而将随机像素转化为清晰的图像场景。

　　视频和图像被划分为称为“补丁”的较小数据单位集合，类似于GPT中的标记（Token），通过这种方式，模型可以在更广泛的视觉数据上训练和扩散变化，包括不同的时间、分辨率和纵横比。

　　Sora是在对DALL·E和GPT的研究基础上构建的，利用了DALL·E 3的提示词技术，为视觉模型生成高度描述性的标注，使其能够更好地遵循文本指令。

　　OpenAI邀请了视觉艺术家、设计师和电影制片人加入，希望得到宝贵的反馈，推动模型不断进步，更好地服务创意工作者。据 OpenAI 博客，更多的信息将在后续的技术论文中公布。

　　特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

　　白敬亭被宋轶甩了？贾玲张小斐国外领证？杨紫邓为才是抢C鼻祖？钟楚曦侯雯元正式官宣？张云龙患上抑郁症？

　　效果炸裂！OpenAI首个视频生成模型发布，1分钟流畅高清，网友：整个行业RIP

　　谷歌Gemini 1.5深夜爆炸上线，史诗级多模态硬刚GPT-5！最强MoE首破100万极限上下文纪录