AI产品榜

AI产品榜

搜索全球AI产品动态

搜索全球AI信息，发现AI新机遇

新闻资讯
产品应用
变现案例
AI教程

类型 :

新闻资讯
产品应用
变现案例
AI教程

2025-01-23 15:15:54.AIbase

美图影像研究院与北交大联合研发自然图像抠图新技术,入选AAAI 2025

近日，美图影像研究院（MT Lab）与北京交通大学联合提出了一种名为 MEMatte(Memory Efficient Matting)的超高分辨率抠图技术，并成功入选人工智能领域的顶级会议 AAAI2025。MEMatte 技术的最大亮点在于它是一种显存友好的自然图像抠图框架，能够有效降低模型的计算开销。这一创新使得在显存受限的环境中，例如商用显卡和边缘设备上进行高清图像的精细抠图成为可能。随着图像处理技术的不断发展，抠图技术已广泛应用于多个领域，如视频制作、虚拟现实和增强现实等。然而，传统的抠图方法通

美图影像研究院与北交大联合研发自然图像抠图新技术,入选AAAI 2025

2025-01-06 09:18:36.AIbase

ScreenSpot-Pro：专为高分辨率环境设计的多模态 LLM 基准工具！

在专业环境中，图形用户界面（GUI）代理面临着三大关键挑战。首先，专业应用程序的复杂性远高于一般软件，要求对复杂布局有深入理解;其次，专业工具通常具备更高的分辨率，导致目标尺寸较小，从而降低了定位准确性;最后，工作流程往往依赖于额外工具和文档，增加了操作的复杂性。这些挑战凸显了开发更先进的基准和解决方案以提升 GUI 代理在这些严苛场景中的性能的必要性。目前的 GUI 定位模型和基准无法满足专业环境的要求。例如，ScreenSpot 等工具设计主要用于低分辨率任务

ScreenSpot-Pro：专为高分辨率环境设计的多模态 LLM 基准工具！

2025-01-05 09:51:19.AIbase

Snap 推出 SnapGen AI：手机上秒生成高分辨率图像

Snap Inc. 的研究团队近日推出了一款名为 SnapGen 的人工智能图像生成器，能够直接在高端手机上生成高分辨率图像。这一技术的推出，让用户在手机上也能享受高效便捷的图像创作体验，打破了传统 AI 图像生成需要强大计算能力的局限。SnapGen 的核心优势在于其模型的紧凑性与高效性。与流行的图像生成器如 SDXL 相比，SnapGen 的参数数量仅为3.79亿，约为后者的七分之一。这种小巧的设计使得 SnapGen 不仅在存储空间上占用更少，而且在运行速度上表现更为优异。根据测试结果，SnapGen 在图像与

Snap 推出 SnapGen AI：手机上秒生成高分辨率图像

2024-12-24 10:01:53.AIbase

AI图片高清修复工具InvSR：一键实现照片从模糊到高分辨率

近日，研究团队发布了一项新的图像超分辨率（SR）技术，该技术基于扩散反演(Diffusion Inversion)，旨在通过充分利用大型预训练扩散模型中的图像先验信息，提升图像的分辨率和清晰度。这项研究由来自不同学术机构的三位学者共同完成，他们的目标是为图像超分辨率领域带来新的突破。在这项技术中，研究者们设计了一种名为 “部分噪声预测”（Partial noise Prediction）的策略，该策略通过构建扩散模型的中间状态作为起始采样点。这一核心方法依赖于一个深度噪声预测器，该预测器能够为

AI图片高清修复工具InvSR：一键实现照片从模糊到高分辨率

2024-12-11 16:27:57.AIbase

字节跳动新突破：Infinity 框架重塑高分辨率图像生成！

在图像生成领域，高分辨率和逼真图像的任务一直面临多重挑战，特别是在文本到图像的合成过程中。传统的生成方法大多依赖于扩散模型和变换自回归（VAR）框架。这些模型虽然能够产生高质量的图像，但需要消耗大量计算资源，这使得它们在实时应用中显得不够灵活。与此同时，VAR 模型在处理离散标记时容易产生累积误差，导致生成的图像细节丢，从而影响图像的真实感。为了克服这些不足，字节跳动的研究团队推出了名为 “Infinity” 的全新框架，该框架旨在提升文本到图像合成的

字节跳动新突破：Infinity 框架重塑高分辨率图像生成！

2024-10-17 14:01:40.AIbase

比FLUX快100倍！英伟达联手MIT、清华推出超快AI图像生成模型Sana，笔记本也能秒速出图！

英伟达与麻省理工学院、清华大学的研究人员合作开发了一款名为Sana的全新文本到图像生成框架，该框架能够高效生成高达4096×4096分辨率的图像。Sana可以在极快的速度下合成高分辨率、高质量且与文本高度一致的图像，甚至可以在笔记本电脑的GPU上运行。Sana 的核心设计包括:深度压缩自动编码器: 与传统的自动编码器仅压缩图像8倍不同，Sana 训练的自动编码器可以将图像压缩32倍，有效减少了潜在标记的数量。线性 DiT: Sana 将 DiT 中所有普通的注意力机制替换为线性注意力机制，这在高分

比FLUX快100倍！英伟达联手MIT、清华推出超快AI图像生成模型Sana，笔记本也能秒速出图！

2024-10-11 14:08:06.AIbase

快手北大推超高清视频生成模型Pyramid-Flow 可生成24帧高分辨率视频

快手、北京大学和北京邮电大学的研究团队联手推出了一项重磅科技成果——Pyramid-Flow超高清视频模型。这一开源项目在人工智能生成视频领域取得了显著突破，为行业带来了新的可能性。Pyramid-Flow模型展现了惊人的能力，仅需文本输入即可生成长达10秒、分辨率高达1280x768、帧率24fps的高质量视频。无论是光影效果、动作连贯性、整体画质、文本语义还原，还是色彩搭配，Pyramid-Flow都表现出色，生成的视频令人叹为观止。这项技术的一大亮点在于其高效的训练过程。研究团队仅使用A100GPU在

快手北大推超高清视频生成模型Pyramid-Flow 可生成24帧高分辨率视频

2024-08-15 16:59:04.AIbase

颠覆传统！Lumina-mGPT 可以从文本中创建逼真且高分辨率的图像

多模态生成模型正引领人工智能新潮流，专注于融合视觉与文本数据，以创造多功能AI系统，执行从图像生成到跨数据类型理解与推理的多种任务。其中，关键挑战是提升自回归（AR）模型能力，使其能根据文本描述生成高细节图像。尽管扩散模型在生成高质量图像方面表现出色，AR模型在图像质量、分辨率灵活性及多任务处理能力上相对滞后。上海AI实验室和香港中文大学的研究人员推出Lumina-mGPT，一种基于解码器-only的变换器架构，采用多模态生成预训练方法，旨在克服AR模型限制，实现与扩散模型同等水平的逼真图像生成，同时保持简便性和可扩展性。Lumina-mGPT采用详尽的灵活渐进的监督微调策略，增强图像生成能力，支持高分辨率图像生成（1024×1024像素），细节丰富且与文本提示高度一致。该模型在图像质量、视觉一致性及多种任务支持方面超越前代模型，仅需较小数据集即可实现卓越性能，预示未来AI系统将更加复杂与多才多艺。

颠覆传统！Lumina-mGPT 可以从文本中创建逼真且高分辨率的图像

2024-07-31 08:57:49.AIbase

AI虚拟换衣模型CatVTON：参数小仅899.06M 支持高分辨率

CatVTON是一款专为时尚爱好者设计的轻量级AI虚拟换衣模型，总参数为899.06M，训练时只需49.57M可训练参数。推理时显存需求低于8G，支持1024x768高分辨率，适合个人电脑操作。该模型具备在ComfyUI和Gradio应用上快速部署的能力，支持VITON-HD和DressCode数据集的推理，并提供多种精度选项，以适应不同硬件条件。CatVTON利用基于Stable Diffusion v1.5的图像修复技术，结合SCHP和DensePose，能自动生成面具，提升试妆体验。

AI虚拟换衣模型CatVTON：参数小仅899.06M 支持高分辨率