随着数字艺术的发展,自动化的图像处理技术日益受到关注。近日,来自清华大学与腾讯 ARC 实验室的研究团队提出了一种名为 ColorFlow 的新型图像序列上色模型。这一模型旨在解决在黑白图像序列上色的同时,保持角色和物体身份一致性的问题,满足漫画和动画等行业的实际需求。ColorFlow 是一个三阶段的扩散基础框架,它充分利用上下文信息,通过参考图像池为黑白图像序列准确生成颜色。例如,该模型能够有效地为角色的发色和服装上色,确保与参考图像的色彩一致性。与以往需要针
随着人工智能的快速发展,视觉与语言能力的整合引发了视觉语言模型(VLMs)的突破性进展。这些模型旨在同时处理和理解视觉与文本数据,广泛应用于图像描述、视觉问答、光学字符识别以及多模态内容分析等场景。VLMs 在开发自主系统、增强人机交互以及高效文档处理工具方面发挥了重要作用,成功地弥合了这两种数据模态之间的差距。然而,在高分辨率视觉数据和多样化文本输入的处理上,仍然存在许多挑战。目前的研究已经部分解决了这些限制,但大多数模型采用的静态视觉编码
近日,NVIDIA 推出了新一代开放视觉语言模型 ——NVILA。该旨在优化准确性和效率,凭借出色的性能,成为视觉 AI 领域的佼者。根据 NVIDIA 的介绍,NVILA 在训练成本上降低了4.5倍微调所需内存减少了3.4倍,并且在预填充和解码的延迟上几乎降低了2倍。这些数据是与另一种大型视觉模型 LLaVa OneVision 进行比较得出的。在视频基准测试中,NVILA 的表现超过了 GPT4o Mini,并且在与 GPT4o、Sonnet3.5和 Gemini1.5Pro 的比较中也表现出色。此外,NVILA 还在与 Llama3.2的对比中取得了微弱胜利。尽管如此,NVIDIA 表
月之暗面科技有限公司与清华大学MADSys实验室联合发布了一项名为Mooncake的开源项目,旨在共建以KVCache为中心的大模型推理架构。2024年6月,双方曾联合发布Kimi底层的Mooncake推理系统设计方案,该方案基于PD分离和以存换算架构,显著提升了推理吞吐量,受到业界广泛关注。