OpenAI在今日的直播中发布了备受期待的产品——Sora Turbo,标志着2024年生成式AI领域的一大突破。Sora Turbo的生成效率显著提升,能够通过文本直接生成最多20秒的1080P视频,成为目前全球生成时长最高的视频模型之一。该模型支持文本加图片或视频的输入,生成特定视频内容,使生成效果更加可控。
Sora Turbo的技术亮点包括超分、超帧和HDR游戏阵容的全游戏支持,以及两个基于独显的自研功能升级。其中,触控动态插帧功能可以显著提升插帧准确性,减少画面破损;游戏暗夜模式则通过AI算法提升暗部细节,增强暗部可视效果,同时解决了暗光环境下玩游戏的亮度问题。
目前,Sora已进入无限制使用阶段,对于ChatGPT Plus和Pro会员来说,使用Sora无需额外费用,这一政策被认为非常良心。OpenAI还开发了全新UI,并提供社区分享服务,允许用户分享自己生成的视频,或借鉴他人的提示效果来完善自己的作品。
Sora的技术原理包括对Patch的应用,允许在大量图像和视频数据上进行密集训练,以及视频压缩网络的应用,降低视觉数据维度,提高输出质量。
Sora还融合了扩散模型与Transformer架构,采用创新的扩散式转换器方法,取代了传统的U-Net架构,有效提升了对输入图像与文本标签之间分布关系的捕捉能力。此外,Sora引入了DALL・E3的重新字幕技术,通过训练具备高度描述性的字幕模型,为训练集中的所有视频创建文本字幕,提升文本的保真度和视频的整体质量。
体验地址:https://sora.com/