生成视频时代将由Sora引领?
作者:编辑部
2024-03-11
摘要:权力越大,责任越大。

就在几周前,自然语言提示似乎还不可能促成一部电影的诞生。但现在有了Sora,这种可能性似乎比以前更大了。ChatGPT和《DALL-E》改变了文字和图像的创作方式,而这项新技术可能会彻底改变视频的制作方式,从而对创意产业、学校甚至社会问题产生影响。

从根本上说,Sora是一个文本到视频模型,用户提供文本线索,模型生成相应的视频片段。Sora最令人印象深刻的功能之一是,它能根据文本输入生成几乎栩栩如生的视频。这些视频可以描述从漫步在城市中的女性到淘金热时期城镇的历史再现等任何内容。

OpenAI在预览Sora的过程中展示了它的多项功能,包括根据文字提示将生动的场景变为现实的能力。Sora的作品既有被白雪覆盖的繁忙东京街道,也有有趣的纸艺珊瑚礁,显示了对细节的出色关注,以及对Sora输出创意的深刻理解。尽管存在一些小瑕疵,如场景连续性偶尔出现故障或手部位置怪异,但Sora的作品代表了人工智能驱动的故事制作领域的一次重大飞跃。

以前的生成式视频主要集中在生成文本、叠加和特效,而不是实际的视频动画,而Sora则不同,它能够生成全动态视频。虽然它可能还达不到制作《Up》等长篇电影的复杂程度,但它的潜力几乎是无限的。电影制片人或漫画家可以利用Sora将概念形象化,教师可以利用Sora创造身临其境的历史再现,制造商可以利用Sora开发原型和演示。

虽然Sora目前的迭代版本没有声音,但人工智能声音和音乐生成技术的进步表明,这一功能可能即将实现。虽然也有其他人工智能视频生成器,但Sora的突出之处在于它能制作出具有逼真度的较长视频片段,这使它从竞争对手中脱颖而出。

Sora的与众不同之处不仅在于它能满足文本提示的要求,还在于它对电影语法的深刻理解,这使它能通过多镜头变换和动态摄影角度来创作引人入胜的叙事。这种对讲故事原理的内在理解为内容创作开辟了新的可能性,并有可能改变TikTok和Reels等社交媒体平台,使用户能够以最小的投入制作出高质量的视频。

Sora的基本运作机制与其他生成模型(如DALL-E)如出一辙,都是采用扩散模型,将随机噪音逐渐细化为与所提供提示相匹配的图像。Sora的与众不同之处在于,它能够理解场景中的物体如何真实地相互影响,例如模拟水或重力对运动的影响。这种对真实世界动态的理解,很可能是通过对数小时的视频素材进行大量训练而获得的,它使Sora能够制作出行为连贯、栩栩如生的视频。

‍此外,与山姆·奥特曼(Sam Altman)领导的数字身份计划相关的加密货币世界币(Worldcoin)的市场价值也大幅上升,价格比之前上涨了40%。自OpenAI发布Sora以来,Worldcoin的价值一路走高。尽管Worldcoin和Sora是两码事,但Worldcoin价格的上涨表明,加密货币市场上投资者对Worldcoin的兴趣和积极情绪有所提高。

然而,权力越大,责任越大。OpenAI承认与Sora相关的潜在风险,包括错误信息的传播和版权侵权问题。根据文字提示编造令人信服的视频的能力为各种形式的滥用开辟了道路,包括复杂的诈骗、未经同意的内容创作以及假新闻和虚假信息的传播。为了降低这些风险,OpenAI计划实施与《机器人总动员3》类似的内容限制,例如禁止暴力、色情和盗用真人或艺术家的风格。

尽管OpenAI承诺在其算法中嵌入保障措施,并与政策制定者、教育工作者和艺术家合作来应对这些风险,但潜在的危害仍然是一个紧迫的问题。此外,该公司还将为观众提供识别人工智能生成内容的方法,以提高透明度和问责制。

通过实现逼真视频创作的民主化,Sora有可能增强从内容创作到讲故事等各个领域的个人能力,同时还能促使人们对负责任的人工智能使用和管理进行批判性审视。


热门文章