zh
红薯智语
每月不到10元,就可以无限制地访问最好的AIbase。立即成为会员
首页
AI资讯
AI日报
变现指南
AI教程
AI工具导航
AI产品库
zh
红薯智语
搜索全球AI产品动态
搜索全球AI信息,发现AI新机遇
新闻资讯
产品应用
变现案例
AI教程
类型 :
新闻资讯
产品应用
变现案例
AI教程
2024-09-02 11:17:38
.
AIbase
.
11.5k
NVIDIA推全新视觉语音模型NVEagle,可以看图跟你聊天
NVIDIA 联合多所高校推出了 NVEagle,一个能看图聊天的大型视觉语言模型。NVEagle 能解析图片内容并给出准确答案,如识别图片中的人物为黄仁勋。该模型通过将图像转化为视觉标记并与文本嵌入结合,显著提升了对视觉信息的理解能力。面对高分辨率图像处理的挑战,研究团队通过探索不同的视觉编码器和融合策略,构建了包括 Eagle-X5-7B、Eagle-X5-13B 和 Eagle-X5-13B-Chat 在内的三个版本,其中 13B-Chat 特别适用于对话式 AI。NVEagle 采用混合专家机制,根据任务动态选择最佳视觉编码器,提高了对复杂视觉信息的处理能力。在多种基准测试中,NVEagle 的表现均优于其他领先模型,特别是在 OCR、视觉问答和复杂视觉信息处理任务上。