LLaVA-OneVision
多模态视觉任务的高效转换模型
普通产品图像多模态视觉识别
LLaVA-OneVision是一款由字节跳动公司与多所大学合作开发的多模态大型模型(LMMs),它在单图像、多图像和视频场景中推动了开放大型多模态模型的性能边界。该模型的设计允许在不同模态/场景之间进行强大的迁移学习,展现出新的综合能力,特别是在视频理解和跨场景能力方面,通过图像到视频的任务转换进行了演示。
LLaVA-OneVision 最新流量情况
月总访问量
74242
跳出率
57.36%
平均页面访问数
1.3
平均访问时长
00:00:33