“OpenAI 12 天”活动的第三天带来了一个激动人心的消息:Sora AI现已推出。
这款文本转视频生成式人工智能模型目前表现令人惊艳,在众多行业展现出巨大的应用潜力。本文将深入探讨 OpenAI 的 Sora 模型,包括其工作原理、潜在应用场景以及未来发展方向。
Sora是什么?
Sora是 OpenAI 的文本转视频生成式 AI 模型。也就是说,你输入一段文字提示,它就能生成一段与提示内容相符的视频。以下是 OpenAI 网站上的一个示例:
提示:一位时尚女士走在东京一条霓虹灯闪烁、城市招牌生辉的街道上。她身穿黑色皮夹克、红色长裙和黑色靴子,手提黑色手提包,戴着太阳镜,涂着红色唇膏。她步伐自信而随意。潮湿的街道反射着五彩缤纷的灯光,宛如一面镜子。街上行人熙熙攘攘。
Sora 特色
Sora 拥有一些功能,可以让我们更好地控制视频生成过程。让我们逐一了解一下。
混音版
混音功能允许用户在不丢失原视频精髓的前提下,通过修改视频元素来重新构思视频。无论是更改颜色、替换背景还是调整视觉元素,混音功能都提供了一种灵活的方式来尝试视频的外观。
此功能非常适合希望更新旧内容、根据特定主题定制视频或探索品牌推广变体的创作者。
例如,请看以下两个视频:
- 原视频:“打开通往图书馆的大门”
- 混音视频:“把图书馆变成宇宙飞船”
重新剪辑
重新剪辑功能允许创作者精准定位并提取视频中最具冲击力的帧,并可向任意方向延长这些帧,从而构建完整的场景。该工具非常适合强化关键时刻、突出特定视觉元素,或确保场景之间的衔接更加流畅。通过聚焦于最精彩的帧,重新剪辑功能有助于优化叙事过程,同时赋予创作者对节奏和重点的更大控制权。
环形
循环播放功能让您轻松创建视频片段的无缝重复播放。该工具非常适合用于背景画面、音乐视频或引人入胜的动画,确保循环播放之间的过渡流畅自然。创作者可以利用它延长精彩瞬间的持续时间,或为需要连续播放的视频保持稳定的节奏。
下方我们看到一朵花不断绽放和闭合,形成一个无缝循环,过渡过程中没有任何可见的切入点:
故事板
故事板功能允许创作者在时间轴上的指定帧点生成特定镜头,从而精确控制视觉叙事。例如,使用 OpenAI 的演示,您可以为以下镜头序列创建故事板:
- 第 0-114 帧:“一片广袤的红色景观,远处停泊着一艘宇宙飞船。”
- 第 114-324 帧:“从宇宙飞船内部向外看,一个太空牛仔站在画面中央。”
- 第 324-440 帧:“宇航员眼睛的特写镜头,透过针织布口罩可以看到他的眼睛。”
混合
混合功能允许您将不同的视频或风格元素组合在一起,创作出全新的作品。通过混合素材、色彩或艺术手法,您可以打造出独具特色、耳目一新的视觉效果。这种方法非常适合实验性项目、混搭作品或探索非传统理念的创意故事。
下面这段视频融合了两个视频:
- 一段雪花飘落的视频
- 一段花瓣飘落的视频
样式预设
风格预设提供了一系列预定义的审美模板,可应用于视频。这些预设能让您轻松打造特定风格,无论是电影感、活力四射、轻松活泼,还是专业水准。
例如,这就是“黑色电影”预设的效果:
Sora是如何运作的?
与DALL·E 3、StableDiffusion和Midjourney等文本到图像生成式 AI 模型类似,Sora 也是一种扩散模型。这意味着它从视频的每一帧静态噪声开始,并利用机器学习逐步将图像转换为类似于提示描述的内容。
解决时间一致性问题
Sora 的一项创新之处在于它能够同时处理多个视频帧,从而解决了物体在进出画面时保持画面一致性的问题。在下面的视频中,请注意袋鼠的手多次移出镜头,但当它再次出现时,手的形态与之前完全一致。
提示:一只卡通袋鼠跳迪斯科舞。
结合扩散模型和变换模型
Sora 结合了扩散模型和Transformer 架构,就像 GPT 所采用的架构一样。
Jack Qiao指出,在结合这两种模型类型时,“扩散模型擅长生成底层纹理,但整体合成能力较差,而Transformer模型则恰恰相反。”也就是说,你需要一个类似GPT的Transformer模型来确定视频帧的高层布局,而用扩散模型来创建细节。
在一篇关于 Sora 实现的文档中,OpenAI 对这种组合的工作原理进行了概括性的描述。在扩散模型中,图像被分割成更小的矩形“图像块”。对于视频而言,这些图像块是三维的,因为它们会随时间推移而变化。图像块可以被视为大型语言模型中的“词元”:它们不是句子的组成部分,而是一组图像的组成部分。模型的 Transformer 部分负责组织这些图像块,而扩散部分则负责为每个图像块生成内容。
这种混合架构的另一个特点是,为了使视频生成在计算上可行,创建补丁的过程使用了一个降维步骤,这样就不需要对每一帧的每个像素都进行计算。
利用重新添加字幕提高视频保真度
为了忠实地捕捉用户提示的精髓,Sora 使用了一种重写字幕技术,该技术在 DALL·E 3 中也可用。这意味着在创建任何视频之前,GPT 会重写用户提示,使其包含更多细节。本质上,这是一种自动提示工程。
OpenAI Sora 的性能如何?
从目前提供的示例可以看出,Sora 是一款功能强大的工具,而我们仅仅触及了它功能的冰山一角。例如,请观看下面的视频片段,它展示了与电影制作人和艺术家合作时可以实现的各种功能:
这部短片感觉就像一部真正的电影预告片,展示了各种不同的镜头、角度和概念,打造出一个相当流畅的视频。
然而,OpenAI 团队成员展示的其他一些例子则略显逊色(尽管仍然令人印象深刻)。请观看下方这对情侣在海滩上的视频(该视频使用之前的 Sora 模型生成,我们计划在获得更新后的 Sora 版本后重新生成该视频):
提示:一段逼真的视频,人们在海滩上放松,然后一条鲨鱼在视频播放到一半时跃出水面,吓了所有人一跳。
虽然它显然抓住了提示的主要要点,但这个场景并不特别令人信服,而且明显落入了恐怖谷效应的陷阱。男人的三只手,比例失调的多段式鲨鱼,女人像《驱魔人》里那样猛地转头尖叫——这一切都让人感觉有点恐怖。
与生成图像一样,可能需要进行一定程度的改进提示和做出一些调整——它不可能每次都创造出完美的作品。
话虽如此,让我们将上面的视频与使用 Runway 的第二代模型,并采用完全相同的提示创建的示例进行比较:
正如你所见,它并没有很好地理解提示语,鲨鱼的位置很奇怪,而且一些人物的形象也相当扭曲变形。相比之下,OpenAI 的 Sora 在场景创建方面比 Runway Gen-2 要好得多。
最近又出现了一个令人印象深刻的 Sora 应用案例:一位导演用 Sora制作了一部音乐视频。
这可以说是Sora技术最成熟的应用案例之一,展现了它作为未来工具的巨大潜力。它既有趣(又有点迷幻),又营造出一种贯穿始终的独特氛围。
然而,这种做法也存在一些不足之处:
- 导演用6个小时的素材剪辑出了一段4分钟的视频(在H100 GPU上渲染耗时46小时)。
- 示例提示大约有1400字,相当详细具体。
- 导演仍然需要使用后期特效来修饰一些转场(但有些地方仍然感觉不自然)。
因此,我们确实感觉像是消费者在使用这款工具的一种方式,但考虑到 Sora 向艺术家和创意人士开放试用的时间窗口很短,目前的进展相当惊人。
Sora有哪些局限性?
本节概述了旧版 Sora 的一些局限性。建议您查看新版本是否解决了这些问题。一旦我们获得新版本,就会立即更新本节内容。
索拉并不具备物理学的内在理解能力,因此“现实世界”的物理定律可能并不总是适用。例如,该模型不理解因果关系。例如,在以下篮球架爆炸的视频中,篮筐爆炸后,篮网似乎又恢复了原状。
提示:篮球穿过篮筐后爆炸。
同样,物体的空间位置也可能发生不自然的偏移。在下面这段狼崽的视频中,动物会自发地出现,而且狼的位置有时会重叠。
提示:五只灰狼幼崽在一条偏僻的碎石路上嬉戏追逐,周围长满了青草。它们奔跑跳跃,互相追逐,互相轻咬,玩耍嬉戏。
Sora 的应用案例
Sora 可以用来从零开始创建视频,也可以延长现有视频的长度。它还可以填充视频中缺失的帧。
就像文本转图像的生成式人工智能工具极大地简化了无需专业图像编辑技能即可创建图像的过程一样,Sora 也承诺让用户无需图像编辑经验即可轻松创建视频。以下是一些主要应用场景。
社交媒体
Sora 可用于创建短视频,并发布到 TikTok、Instagram Reels 和 YouTube Shorts 等社交媒体平台。它尤其适合制作难以或无法拍摄的内容。例如,2056 年拉各斯的场景,如果用传统方式拍摄并发布到社交媒体,技术难度很高,但使用 Sora 却可以轻松制作。
我如何才能访问 Sora?
要访问 Sora,请访问sora.com。截至撰写本文时,Sora 已在全球大部分地区可用,但欧洲大部分地区和英国除外。
访问 Sora 需要订阅 ChatGPT Plus 或ChatGPT Pro。这两个版本都允许用户探索 Sora 的高级视频生成工具,但在功能和限制方面存在关键差异:
|
特征 |
ChatGPT Plus |
ChatGPT Pro |
|
价格 |
每月 20 美元 |
每月 200 美元 |
|
视频世代 |
最多 50 个优先视频(1000 积分) |
最多 500 个优先视频(10,000 积分)+ 无限量休闲视频 |
|
分辨率和持续时间 |
最高支持 720p 分辨率,时长 5 秒 |
最高支持 1080p 分辨率,时长 20 秒 |
|
并发世代 |
0 |
5 |
|
水印 |
下载带水印版本 |
下载无水印版本 |
Sora 的替代方案有哪些?
除了 Sora 之外,还有几款备受瞩目的替代软件,它们都允许用户通过文本创建视频内容。这些软件包括:
- Runway Gen-3是OpenAI Sora 最受瞩目的替代方案。与 Sora 一样,它也是一款文本转视频的生成式人工智能,目前可在网页和移动设备上使用。
- Lumiere。谷歌最近发布了Lumiere,目前它作为PyTorch 深度学习 Python 框架的扩展程序提供。
- Make-a-Video。Meta于 2022 年发布了Make-a-Video;同样,它可以通过 PyTorch扩展获得。
此外,还有几家规模较小的竞争对手:
- Pictory简化了文本到视频内容的转换,其视频生成工具的目标用户是内容营销人员和教育工作者。
- Kapwing提供了一个在线平台,用于根据文本创建视频,强调社交媒体营销人员和普通创作者的易用性。
- Synthesia专注于利用文本创建 AI 驱动的视频演示,提供可定制的虚拟形象视频,用于商业和教育用途。
- HeyGen 旨在简化产品和内容营销、销售推广和教育的视频制作。
- Steve AI提供了一个 AI 平台,能够将提示词转换为视频、将脚本转换为视频、将音频转换为视频,从而生成视频和动画。
- Elai 专注于在线学习和企业培训,提供将教学内容轻松转化为信息丰富的视频的解决方案。
|
模型/平台 |
开发商/公司 |
平台可用性 |
目标受众 |
主要特点 |
||||
|
|
网页、移动端 |
广泛(通用) |
备受瞩目的文本转视频人工智能,用户友好 |
||||
|
|
PyTorch 扩展 |
开发人员、研究人员 |
面向 PyTorch 用户的高级文本转视频生成功能 |
||||
|
|
PyTorch 扩展 |
创造者、研究人员 |
从文本生成高质量视频 |
||||
|
|
网站 |
内容营销人员、教育工作者 |
简化文本转视频转换,打造引人入胜的叙事体验 |
||||
|
|
网站 |
社交媒体营销人员,业余创作者 |
基于文本的视频创作平台 |
||||
|
Synthesia |
Synthesia |
网站 |
企业、教育工作者 |
由文本驱动的AI虚拟形象主导的视频演示 |
||||
|
HeyGen |
HeyGen |
网站 |
营销人员、教育工作者 |
用于销售和营销的视频制作 |
||||
|
|
网站 |
企业、个人 |
为各种应用程序创建视频和动画 |
||||
|
|
网站 |
电子学习、企业培训 |
将教学内容转化为视频 |
OpenAI Sora 对未来意味着什么?
毫无疑问,Sora 具有开创性意义。同样显而易见的是,这种生成模型的潜力巨大。Sora 对人工智能产业乃至整个世界将产生哪些影响?我们当然只能进行一些基于现有知识的推测。然而,Sora 可能带来的改变,无论好坏,都可以在以下几个方面进行探讨。
OpenAI Sora的短期影响
我们首先来看 Sora 在(可能分阶段)向公众推出后,可能会产生的直接、短期影响。
一连串的快速胜利
在上文中,我们已经探讨了 Sora 的一些潜在应用场景。如果 Sora 正式发布,其中许多场景可能会迅速得到应用。这些场景可能包括:
- 社交媒体和广告领域短视频的激增。预计X(原Twitter)、TikTok、LinkedIn等平台上的创作者将借助Sora Productions提升内容质量。
- Sora 在原型制作中的应用。无论是展示新产品还是展示拟议的建筑开发方案,Sora 都可能成为提案创意的常用工具。
- 改进数据叙事。文本转视频生成式人工智能可以为我们提供更生动的数据可视化、更精准的模型模拟,以及探索和呈现数据的交互式方式。话虽如此,Sora 在这些类型的提示下表现如何,仍然值得我们关注。
- 更优质的学习资源。借助 Sora 等工具,学习材料可以得到极大的提升。复杂的概念可以变得生动形象,而视觉型学习者也能获得更好的学习辅助工具。
危机四伏
当然,正如我们之前强调的,这类技术也存在诸多潜在弊端,我们必须加以应对。以下是我们必须警惕的一些风险:
- 虚假信息和错误信息的传播日益严重。我们必须提高对所接收内容的辨别能力,并需要更好的工具来识别捏造或篡改的信息。在选举年,这一点尤为重要。
- 版权侵权。我们需要注意自己的照片和肖像权是如何被使用的。可能需要立法和监管措施来防止我们的个人数据被以未经我们同意的方式使用。这场争论很可能会首先在粉丝开始制作基于他们喜爱的电影系列的视频时展开——也就是说,其中涉及的个人风险也十分巨大。
- 监管和伦理挑战。生成式人工智能的进步已经让监管机构难以跟上,而Sora可能会加剧这一问题。我们必须在不影响个人自由或扼杀创新的前提下,寻求Sora的合理公平使用方式。
- 对技术的依赖。像 Sora 这样的工具对许多人来说可能被视为捷径而非助手。人们或许会将其视为创造力的替代品,这可能会对许多行业及其从业人员产生影响。
生成式视频成为下一个竞争前沿
我们之前已经提到了一些 Sora 的替代方案,但预计到 2024 年及以后,这个列表还会显著增长。正如我们在 ChatGPT 的例子中看到的,越来越多的替代方案正在争夺市场份额,许多项目也在对市场上现有的开源语言学习模型 (LLM)进行迭代改进。
Sora很可能成为推动生成式人工智能领域创新和竞争的关键工具。无论是通过针对特定用途的精细化模型,还是直接竞争的专有技术,业内众多巨头都可能希望在文本转视频领域分一杯羹。
OpenAI Sora 的长期影响
随着 OpenAI 的 Sora 正式发布,尘埃落定,我们将开始看到它更长远的未来。随着各行各业的专业人士陆续使用这款工具,Sora 必将带来一些颠覆性的应用。让我们来探讨一下其中的一些可能性:
可以解锁高价值的应用场景
Sora(或类似工具)有可能成为多个行业的支柱:
- 高级内容创作。我们可以将 Sora 视为一种加速 VR 和 AR、视频游戏,甚至电视和电影等传统娱乐领域内容制作的工具。即使它不直接用于创作此类媒体,也可以帮助进行原型设计和故事板绘制。
- 个性化娱乐。当然,我们可能会看到 Sora 创建并精选专门为用户量身定制的内容。根据个人品味和偏好定制的互动式响应媒体可能会出现。
- 个性化教育。这种高度个性化的内容或许能在教育领域找到用武之地,帮助学生以最适合自身需求的方式学习。
- 实时视频编辑。视频内容可以实时编辑或重新制作,以适应不同的受众,并根据观众的喜好或反馈调整语气、复杂程度甚至叙事方式等各个方面。
物理世界和数字世界之间的界限开始变得模糊。
我们之前已经探讨过虚拟现实(VR)和增强现实(AR),但Sora与这些媒介结合后,有望彻底改变我们与数字内容的互动方式。如果未来的Sora版本能够在几秒钟内生成高质量的虚拟世界,并利用生成式文本和音频技术,让虚拟世界充满栩栩如生的虚拟角色,那么这将引发我们对未来数字世界导航方式的深刻思考。



发表回复