AI新闻资讯

AI资讯

不错过全球AI革新的每一个时刻

AI日报

每天三分钟关注AI行业趋势

AI时间线

AI行业大事记

Al硬件

列出所有AI硬件产品。

AI变现指南

图片合集

AI图片制作变现案例分享

视频合集

AI视频制作变现案例分享

音频合集

AI音频制作变现案例分享

文案合集

AI内容写作变现案例分享

AI教程

AI产品榜

AI产品排行榜

展示AI网站的总访问量排名

AI产品流量增速榜

追踪AI网站访问量增长最快产品

AI产品流量下降榜

关注访问量下降明显的AI网站

AI产品周榜

展示AI网站的周访问量排名

AI开源项目库

全景图

github热门AI开源项目总览

产品库工具导航

清华、浙大推GPT-4V开源平替！LLaVA、CogAgent等开源视觉模型大爆发

站长之家

发布于AI新闻资讯 · 1 分钟阅读 · Jan 4, 2024

清华、浙大等学府推动了GPT-4V的开源替代方案，在中国出现了一系列性能优异的开源视觉模型。其中，LLaVA、CogAgent和BakLLaVA备受关注。LLaVA在视觉聊天和推理问答方面表现出接近GPT-4水平的能力，而CogAgent是在CogVLM基础上改进的开源视觉语言模型。另外，BakLLaVA是使用LLaVA1.5架构增强的Mistral7B基础模型，具备更好的性能和商用能力。这些开源视觉模型在视觉处理领域具有巨大的潜力。

GPT-4V LLaVA CogAgent

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

智谱华章完成超10亿元融资计划开源新一代大模型

近日，北京智谱华章科技有限公司宣布其最新一轮战略融资金额超过10亿元人民币。这轮融资的参与方包括杭州城投产业基金和上城资本等，显示了市场对智谱的强大信心与支持。作为国内最早开源大模型的 AI 公司之一，智谱的目标是在2025年成为其开源发展的关键年份。公司计划在年内推出全新的大模型系列，包括基座模型、推理模型、多模态模型及智能代理（Agent）模型，并将这些模型全部开源。这一举措不仅将推动人工智能技术的普及，还可能为开发者和企业提供更为强大的工具，助

2025年3月3号 10:04

1.7k

小而强！微软发布小型模型LLaVA-Rad，实现精准放射学报告生成

近日，微软研究院联合华盛顿大学、斯坦福大学、南加州大学、加利福尼亚大学戴维斯分校以及加利福尼亚大学旧金山分校的研究人员共同推出了 LLaVA-Rad，这是一种新型的小型多模态模型（SMM），旨在提升临床放射学报告的生成效率。该模型的推出不仅标志着医学图像处理技术的一大进步，也为放射学的临床应用带来了更多的可能性。在生物医学领域，基于大规模基础模型的研究已经展现出良好的应用前景，尤其是在多模态生成 AI 的发展下，可以同时处理文本与图像，从而支持视觉问答

2025年2月10号 9:46

2.3k

智谱GLM-PC开放体验自主操作电脑的多模态Agent升级

北京智谱华章科技有限公司近日宣布其旗下的智谱 GLM-PC 智能体已进行升级，并正式向公众开放体验。作为全球首个可以自主操作计算机的多模态智能体，GLM-PC 的技术基础是智谱的多模态大模型 CogAgent。用户只需简单的回车操作，即可体验这一革新性的电脑智能助手。自2024年11月29日 GLM-PC v1.0发布以来，它就一直处于内测阶段。这一版本带来了 “深度思考” 模式，新增了逻辑推理和代码生成功能，同时也对 Windows 系统进行了支持。GLM-PC 的能力涵盖了代码生成、逻辑执行、图形用户界面（

2025年1月23号 14:45

5.2k

基于CogAgent！智谱GLM-PC电脑智能体大模型开放体验

2025年1月23日，全球首个面向公众的、回车即用的电脑智能体GLM-PC再次升级，引发广泛关注。GLM-PC基于智谱多模态大模型CogAgent，能像人类一样“观察”和“操作”计算机，协助用户高效完成各类电脑任务。

2025年1月23号 14:08

4.2k

智谱AI开源Agent任务模型CogAgent-9B：通过屏幕截图预判操作

智谱AI旗下的GLM-PC基座模型CogAgent-9B现已开源，以促进大模型Agent生态的发展。CogAgent-9B是基于GLM-4V-9B训练而成的专用Agent任务模型，能够仅通过屏幕截图作为输入，根据用户指定的任意任务结合历史操作，预测下一步的GUI操作。这一模型的普适性使其可广泛应用于个人电脑、手机、车机设备等多种基于GUI交互的场景。

2024年12月27号 9:16

2.9k

北大团队发布多模态模型 LLaVA-o1，推理能力堪比 GPT-o1！

近日，北京大学等科研团队宣布发布了一款名为 LLaVA-o1的多模态开源模型，据称这是首个能够进行自发、系统推理的视觉语言模型，堪比 GPT-o1。该模型在六个具有挑战性的多模态基准测试中表现优异，其11B 参数的版本超越了其他竞争者，如 Gemini-1.5-pro、GPT-4o-mini 和 Llama-3.2-90B-Vision-Instruct。LLaVA-o1基于 Llama-3.2-Vision 模型，采用了 “慢思考” 推理机制，能够自主进行更加复杂的推理过程，超越了传统的思维链提示方法。在多模态推理基准测试中，LLaVA-o1的表现超出了其基础模型8.9%。该模型的

2024年11月19号 13:51

3.8k

微软推新模型OmniParser：让GPT-4V秒懂屏幕截图内容，指哪懂哪

还记得那个号称“看图说话”神器GPT-4V吗?它能理解图片内容，还能根据图片执行任务，简直是懒人福音!但它有个致命弱点:眼神不太好!想象一下，你让GPT-4V帮你点个按钮，它却像个“屏幕瞎子”一样，到处乱点，是不是很抓狂?今天就给大家介绍一个能让GPT-4V眼神变好的神器——OmniParser!这是微软发布的全新模型，旨在解决图形用户界面（GUI）自动交互的难题。OmniParser是干啥的?简单来说，OmniParser就是个“屏幕翻译官”，它能把屏幕截图解析成GPT-4V能看懂的“结构化语言”。OmniParser结合了

2024年10月25号 16:56

10.7k

AI日报：GPT-4o新版本上线；面壁智能开源手机版“GPT-4V”；华为推3D数字人新框架EmoTalk3D；阿里上线奥运时刻海报工作流

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/1、开发者狂喜！AI的能力存在问题但可解决，需要在整个开发栈中进行更多工作，同时应注意“锯齿状边缘”并保持人类参与度。

2024年8月7号 14:51

1.1k

面壁智能开源 MiniCPM-V 2.6 端侧AI多模态能力对标GPT-4V

"MiniCPM-V2.6"的端侧多模态人工智能模型，它仅有8B参数却取得了20B以下单图、多图、视频理解三项SOTA（State of the Art，即当前最佳水平）成绩，显著提升了端侧AI的多模态能力，与GPT-4V水平全面对标。

2024年8月7号 8:08

5.5k

百度推出飞桨多模态大模型开发套件 PaddleMIX 2.0版本

PaddleMIX2.0是百度推出的多模态大模型开发套件，旨在简化多模态应用开发，支持自动驾驶、智慧医疗、搜索引擎等场景。其关键亮点包括： 1. **丰富的模型库**：涵盖图像、文本、视频、音频，新增LLaVA系列模型，提供前沿技术支持。 2. **全流程开发体验**：配备DataCopilot和Auto模块，简化多模态模型训练流程。 3. **高性能训练能力**：DiT模型支持3B规模预训练，采用MixToken策略提升训练吞吐量。 4. **应用构建工具**：AppFlow和ComfyUI简化多模态应用构建和AIGC任务操作。 5. **性能提升**：在大规模预训练、高效精调和高性能推理方面均有显著优化。 PaddleMIX2.0的发布旨在降低开发门槛，推动AI应用创新，通过开源项目促进社区发展。

2024年8月1号 17:21

2.4k

AI资讯

AI日报

AI时间线

Al硬件

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图

清华、浙大推GPT-4V开源平替！LLaVA、CogAgent等开源视觉模型大爆发

站长之家

本文来自AIbase日报

相关AI新闻推荐

智谱华章完成超10亿元融资 计划开源新一代大模型