夕小瑶科技说

发布于AI新闻资讯 · 1 分钟阅读 · 2023年10月25号 15:39

针对最近备受关注的视觉语言模型GPT-4V,有研究者构建了一个新基准测试HallusionBench用于检验其图像推理能力。结果发现,GPT-4V等模型在HallusionBench中表现不佳,易受自身参数化记忆的影响产生语言幻觉,答案错误率高达90%。此外,在几何等视觉问题上GPT-4V的表现也不尽如人意,反映出其当前的视觉能力还非常有限。简单的图像操作就可以轻易地误导GPT-4V,暴露出其脆弱性。相比之下,LLaVA-1.5的知识储备则不如GPT-4V丰富,存在一些常识性错误。本研究揭示了当前视觉语言模型在图像推理方面的局限,为未来的改进提供参考。

VLM-R1引领视觉语言模型新纪元多模态AI迎来新突破

近日，VLM-R1项目的成功推出为这一领域带来了新的曙光。该项目是 DeepSeek 团队的 R1方法在视觉语言模型中的成功迁移，意味着 AI 对视觉内容的理解将进入一个全新的阶段。VLM-R1的灵感源自于去年 DeepSeek 开源的 R1方法，该方法利用了 GRPO（Generative Reward Processing Optimization）强化学习技术，在纯文本处理上取得了优异的表现。如今，VLM-R1团队将这一方法成功地应用于视觉语言模型，为多模态 AI 的研究开辟了新天地。在项目的验证结果中，VLM-R1的表现令人惊艳。首先，R1方法在复杂场景下展现出

谷歌发布全新视觉语言模型 PaliGemma 2 Mix 集成多种功能助力开发者

近日，谷歌宣布推出一款全新的视觉 - 语言模型（Vision-Language Model， VLM），名为 PaliGemma2Mix。这款模型融合了图像处理与自然语言处理的能力，能够同时理解视觉信息和文本输入，并根据需求生成相应的输出，标志着人工智能技术在多任务处理方面的进一步突破。PaliGemma2Mix 的功能非常强大，它集成了图像描述、光学字符识别（OCR）、图像问答、目标检测和图像分割等多种视觉 - 语言任务，适用于多种应用场景。开发者可以通过预训练检查点(checkpoints)直接使用这款模型，或根据自己的需求

谷歌 DeepMind 推出千亿级视觉语言数据集 WebLI-100B

谷歌 DeepMind 团队正式推出了 WebLI-100B 数据集，这是一个包含1000亿个图像 - 文本对的庞大数据集，旨在增强人工智能视觉语言模型的文化多样性和多语言性。通过这一数据集，研究人员希望改善视觉语言模型在不同文化和语言环境下的表现，同时减少各个子组之间的性能差异，从而提升人工智能的包容性。视觉语言模型（VLMs）依赖于大量数据集来学习如何连接图像与文本，从而执行如图像字幕生成和视觉问答等任务。过去，这些模型主要依赖于 Conceptual Captions 和 LAION 等大型数据集，虽然这

IBM发布视觉语言模型Granite-Vision-3.1-2B，轻松解析复杂文档

随着人工智能技术的不断发展，视觉与文本数据的融合成为了一项复杂的挑战。传统的模型往往难以准确解析表格、图表、信息图和图示等结构化视觉文档，这一限制影响了自动内容提取和理解能力，进而影响了数据分析、信息检索和决策等应用。面对这一需求，IBM 近期发布了 Granite-Vision-3.1-2B，一款专为文档理解设计的小型视觉语言模型。Granite-Vision-3.1-2B 能够从各种视觉格式中提取内容，包括表格、图表和图示。该模型基于精心挑选的数据集进行训练，数据来源包括公共和合成源，能够

AI新闻资讯

夕小瑶科技说 | 别再吹 GPT-4V 了!连北京烤鸭都不认识,你敢信??

夕小瑶科技说

相关AI新闻推荐

VLM-R1引领视觉语言模型新纪元 多模态AI迎来新突破

谷歌发布全新视觉语言模型 PaliGemma 2 Mix 集成多种功能助力开发者

谷歌 DeepMind 推出千亿级视觉语言数据集 WebLI-100B

IBM发布视觉语言模型Granite-Vision-3.1-2B，轻松解析复杂文档

VLM-R1引领视觉语言模型新纪元多模态AI迎来新突破