Sora模型的出现正在引发文生视频领域的变革,黄礼强表示,Sora模型经过多方探索和突破,使用了DiT的技术框架,突破了扩散模型的局限。七火山通过与知名企业合作推动文生视频内容本地化和国际化发展,而超讯通信则通过战略投资七火山,将AI模型应用落地。
北京爱诗科技有限公司近日宣布,其旗下的PixVerse平台已正式对外开放文生视频和图生视频技术服务。在此之前,爱诗科技PixVerse V3 已全球同步公开上线,PixVerse V3 在底层模型能力上实现了显著提升,提供了包括创意模板、口型匹配、故事续写和风格转换在内的多模态生成能力和丰富的AI玩法。
2024年9月4日,北京智源人工智能研究院(BAAI)宣布推出全球首个包含文生视频的模型对战评测服务——FlagEval大模型角斗场。这一服务面向用户开放,覆盖了国内外约40款大模型,并支持语言问答、多模态图文理解、文生图、文生视频等四大任务的自定义在线或离线评测。F
OpenAI已选定台积电的1.6nm芯片工艺作为其主要供应商,这标志着其在人工智能硬件领域的重大战略升级,预计2026年开始大规模生产,将显著提升其技术性能。通过与博通和Marvell的合作,OpenAI计划在2024或2025年开发专用于AI应用的ASICs,基于台积电的3nm工艺系列。此外,苹果计划在新iPhone中集成OpenAI的AI解决方案,并可能对OpenAI进行大额投资,目标估值高达1000亿美元。这将影响苹果与谷歌之间的搜索服务协议,目前谷歌每年需支付苹果费用以保持在iOS设备上的默认搜索引擎地位。OpenAI还推出了一项名为SearchGPT的新AI搜索功能,旨在结合AI模型与网络信息,提供快速准确的信息搜索服务。
在数字媒体黄金时代,高质量视频的制作通常需要复杂的技能和昂贵设备。然而,新出现的Snap Video平台颠覆了这一传统,它通过自然语言输入即时生成视频。基于当前图像生成模型的成果,研究人员开发了Snap Video,这一创新的视频生成模型采纳了时间和空间上的冗余元素,从而提升生成视频的质量和一致性。 Snap Video协同处理空间和时间上的像素,自由地进行视频生成,同时采用改进的转换器结构,使其在训练时间和推理速度上都大大领先于现有技术。这种方法使得模型能够处理大量级参数,首次将文本到视频生成的质量推至业界最前沿。 Snap Video拥有显著优势,如既能处理大幅度运动,又不失文本到视频灵活的语义控制。它采用两级模型生成,先低分辨率,后高分辨率,避免了时间不一致。通过学习压缩的视频表示,进一步优化计算效率,实现了视频生成的高分辨率与真实性。 Snap Video在UCF101及MSR-VTT等平台上展现出其对动作质量和性能的特别优势,并在用户研究中也远超现有技术。此外,论文也总结了其他视频生成领域的研究,如对抗性训练、自回归生成、扩散模型在文本到视频生成中的应用。总的来说,Snap Video作为一个高效且全面的视频生成平台,标志着视频制作领域革命性的发展。