Meta 出品！Pippo：输入单张人物图片生高分辨率多视角图片

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Feb 17, 2025

486

近日，Meta Reality Labs 的研究团队联合高效发布了一项名为 “Pippo” 的创新性生成模型，能够从一张随意拍摄的照片中，生成一段高达1K 分辨率的密集周转视频。这一突破性技术，标志着计算机视觉和图像生成领域的又一重要进展。

Pippo 模型的核心在于其多视图扩散转换器的设计。与传统的生成模型不同，Pippo 不需要任何额外的输入，例如拟合的参数模型或拍摄该图像的相机参数。用户只需提供一张普通的照片，系统就能自动生成多视角的视频效果，为用户呈现出更加生动和立体的人物形象。

为了便于开发者使用，Pippo 此次发布为代码 - only 版本，没有预训练权重。研究团队提供了必要的模型、配置文件、推理代码以及 Ava-256数据集的样本训练代码。开发者可以通过简单的命令克隆和设置代码库，快速上手进行训练和应用。

Pippo 项目的未来计划包括整理和清理代码，以及推出针对预训练模型的推理脚本。这些改进将进一步提升用户体验，推动该技术在实际应用中的广泛使用。

项目:https://github.com/facebookresearch/pippo

划重点:
🌟 Pippo 模型能够从一张普通照片生成高分辨率的多视图视频，无需额外输入。
💻 代码仅发布，没有预训练权重，开发者可自行训练模型并进行应用。
🔍 团队计划未来推出更多功能和改进，以增强用户体验。

Pippo 生成模型计算机视觉多视图扩散转换器

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

开源版Suno来了！AI音乐生成模型YuE可生成专业级的歌声和伴奏

近日，由香港科技大学与音乐领域的 DeepSeek 合作开发的开源音乐生成模型 YuE 正式发布，震惊了不少乐迷和音乐创作者。这一模型不仅能够生成多种风格的音乐，还可以模拟人声，给听众带来全新的音乐体验。YuE 的特点在于其双 LLaMA 语言模型架构，这使其能够无缝适配各种大语言模型，并且能够处理长达5分钟的完整歌曲。这一创新的设计让 YuE 在音乐生成的质量上达到了前所未有的高度，甚至与市场上著名的闭源音乐生成工具 Suno 和 Udio 相抗衡。YuE 可以同时生成专业级的歌声和伴奏，实

2025年3月28号 15:06

5.5k

Ideogram 正式发布 3.0 版本模型：真实感与创意表现再突破

Ideogram 官方宣布推出其最新图像生成模型——Ideogram3.0。这一版本在真实感、创意表现力和风格一致性上实现了显著突破，被认为是图像生成领域的一次重要里程碑。新模型不仅对标 GPT-4o 等顶级 AI 系统，还以其高效性能和创新功能吸引了广泛关注。Ideogram3. 0 在文本渲染能力上取得了质的飞跃。相较于市场上大多数图像生成模型，该版本能够生成清晰可读、风格统一的艺术化文本，支持复杂排版设计，包括海报标题、宣传标语、品牌口号及多行文字组合。其支持多字体、多语言和多层次设

2025年3月27号 9:53

2.5k

AI日报：OpenAI新图像生成模型可一句话P图；可灵AI营收超1亿；谷歌上线最强推理大模型Gemini 2.5

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/1、OpenAI推出全新图像生成模型，挑战Google一句话P图OpenAI最近推出了其最新的GPT-4o模型，集成了先进的图像生成器，展现出显著的图像渲染能力和多样的输入输出支持。宝马的360度全链AI战略将优化生产流程，为智能汽车制造提供保障，计划在2026年量产新车型，赋能AI智能个人助理，带来自然流畅的用户互动体验。

2025年3月26号 15:20

180

OpenAI推出全新图像生成模型，挑战Google一句话P图

在科技界的最新动态中，OpenAI 刚刚宣布，他们在最新的 GPT-4o 模型中集成了迄今为止最先进的图像生成器。OpenAI 的首席执行官萨姆・奥特曼（Sam Altman）在社交媒体平台 X 上兴奋地分享了他第一次看到模型生成的图像时的震惊，认为这简直难以置信，并期待用户们充分发挥他们的创造力。新功能的亮点包括:- 能够精确渲染文本内容，提供高质量的图像效果。- 支持多种输入输出方式，涵盖文本、图像和音频等多种形式。- 理解复杂指令并结合上下文，创造出具有真实感的第一人称视角图像。

2025年3月26号 9:48

3.4k

OpenAI发布最新图像生成模型：GPT-4o内置多轮对话编辑功能

2025年3月25日，OpenAI宣布其最新图像生成模型正式内置于GPT-4o中，这一突破性升级为用户带来了更强大的图像生成与编辑体验。据悉，该功能已于今日开始向ChatGPT和Sora的所有Plus、Pro、Team以及免费用户逐步推出。这一消息迅速引发了科技界的广泛关注。

2025年3月26号 8:48

4.8k

新一代AI图像生成模型Reve Image震撼登场，引领创作新潮流

一款名为Reve Image的全新AI图像生成模型正式亮相，迅速引发科技与设计圈的广泛关注。据悉，该模型由Reve团队从零开始打造，专注于提升美学表现、精准的提示遵循能力以及出色的排版设计，旨在为用户提供高质量的视觉创作体验。Reve Image的推出被视为AI图像生成领域的一大突破。有业内人士表示，这款模型在生成图像时展现出强烈的设计感，产出的作品简洁大气，颇具海报风格的视觉冲击力。与此同时，其对用户输入的提示词理解能力尤为突出，能够细致还原创作者的意图，甚至对简单

2025年3月24号 11:02

6.3k

李飞飞团队推出新型图像处理技术，打破传统界限

在计算机视觉领域，如何高效地处理图像一直是研究的热点话题。近日，斯坦福大学的李飞飞教授和吴佳俊教授的团队发布了一项新的研究成果，提出了一种名为 “FlowMo” 的创新型图像 tokenizer。这种新方法在不依赖卷积神经网络（CNN）和生成对抗网络(GAN)的情况下，显著提升了图像重建的质量。当我们看到一张猫咪的照片时，大脑可以瞬间识别出那是一只猫。然而，对于计算机而言，处理图像则显得复杂得多。计算机将图像视为庞大的数字矩阵，通常需要数百万个数字来表示每一个像素

2025年3月21号 18:03

4.8k

腾讯混元推出 5 个开源3D模型： 30 秒生成，兼容多平台

腾讯混元近日宣布推出 5 个全新的3D生成模型，并全部开源。这些模型基于Hunyuan3D-2. 0 打造，具有生成速度更快、细节更丰富、材质表达更逼真的特点。同时，腾讯自研的3D AI创作引擎也进行了升级，新增多视图输入、模型智能减面和格式全兼容等功能，现已面向C端用户全面开放使用。在这些新模型中，Turbo系列模型在保证高精度和高质量的同时，对几何生成模型进行了数十倍的加速，使整个生成过程能够在 30 秒内完成。这一加速能力源于腾讯混元提出的3D生成加速框架FlashVDM，该框架突破

2025年3月18号 14:06

2.9k

谁说视频只能“一镜到底”？字节创新技术LCT，让AI像导演一样拍摄电影大片！

你是不是已经看惯了那些由AI生成的，虽然逼真但总感觉少了点“味道”的短视频?现在，一项名为长上下文调整（Long Context Tuning， LCT）的创新技术横空出世，它让AI视频生成模型拥有了执导多镜头叙事视频的能力，如同电影和电视剧那样，在不同镜头之间自由切换，构建出更连贯、更引人入胜的故事场景。过去，顶尖的AI视频生成模型，比如SoRA，Kling，Gen3，已经能够创造出长达一分钟的逼真单镜头视频。但这与真实世界中，由多个镜头组成的叙事视频（比如电影中的一个场景）的需求之

2025年3月18号 10:13

4.9k

AI日报：男子用AI撰写色情小说被判刑十个月；360智脑团队复现Deepseek强化学习效果；字节AI音效生成模型SeedFoley上线即梦

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/1、一男子因利用AI撰写色情小说被判刑十个月，非法获利超两万元湖北省大冶市人民法院近期对一起利用人工智能撰写色情小说并获利的案件作出判决。软银集团收购夏普旧厂，计划改造为AI数据中心，预计2026年投入运营，助力日本人工智能产业发展。

2025年3月14号 15:54

AI资讯

AI日报

AI时间线

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图