清华、浙大推GPT-4V开源平替!LLaVA、CogAgent等开源视觉模型大爆发

站长之家
本文来自AIbase日报
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
近日,北京智谱华章科技有限公司宣布其最新一轮战略融资金额超过10亿元人民币。这轮融资的参与方包括杭州城投产业基金和上城资本等,显示了市场对智谱的强大信心与支持。作为国内最早开源大模型的 AI 公司之一,智谱的目标是在2025年成为其开源发展的关键年份。公司计划在年内推出全新的大模型系列,包括基座模型、推理模型、多模态模型及智能代理(Agent)模型,并将这些模型全部开源。这一举措不仅将推动人工智能技术的普及,还可能为开发者和企业提供更为强大的工具,助
近日,微软研究院联合华盛顿大学、斯坦福大学、南加州大学、加利福尼亚大学戴维斯分校以及加利福尼亚大学旧金山分校的研究人员共同推出了 LLaVA-Rad,这是一种新型的小型多模态模型(SMM),旨在提升临床放射学报告的生成效率。该模型的推出不仅标志着医学图像处理技术的一大进步,也为放射学的临床应用带来了更多的可能性。在生物医学领域,基于大规模基础模型的研究已经展现出良好的应用前景,尤其是在多模态生成 AI 的发展下,可以同时处理文本与图像,从而支持视觉问答
北京智谱华章科技有限公司近日宣布其旗下的智谱 GLM-PC 智能体已进行升级,并正式向公众开放体验。作为全球首个可以自主操作计算机的多模态智能体,GLM-PC 的技术基础是智谱的多模态大模型 CogAgent。用户只需简单的回车操作,即可体验这一革新性的电脑智能助手。自2024年11月29日 GLM-PC v1.0发布以来,它就一直处于内测阶段。这一版本带来了 “深度思考” 模式,新增了逻辑推理和代码生成功能,同时也对 Windows 系统进行了支持。GLM-PC 的能力涵盖了代码生成、逻辑执行、图形用户界面(
2025年1月23日,全球首个面向公众的、回车即用的电脑智能体GLM-PC再次升级,引发广泛关注。GLM-PC基于智谱多模态大模型CogAgent,能像人类一样“观察”和“操作”计算机,协助用户高效完成各类电脑任务。
智谱AI旗下的GLM-PC基座模型CogAgent-9B现已开源,以促进大模型Agent生态的发展。CogAgent-9B是基于GLM-4V-9B训练而成的专用Agent任务模型,能够仅通过屏幕截图作为输入,根据用户指定的任意任务结合历史操作,预测下一步的GUI操作。这一模型的普适性使其可广泛应用于个人电脑、手机、车机设备等多种基于GUI交互的场景。
近日,北京大学等科研团队宣布发布了一款名为 LLaVA-o1的多模态开源模型,据称这是首个能够进行自发、系统推理的视觉语言模型,堪比 GPT-o1。该模型在六个具有挑战性的多模态基准测试中表现优异,其11B 参数的版本超越了其他竞争者,如 Gemini-1.5-pro、GPT-4o-mini 和 Llama-3.2-90B-Vision-Instruct。LLaVA-o1基于 Llama-3.2-Vision 模型,采用了 “慢思考” 推理机制,能够自主进行更加复杂的推理过程,超越了传统的思维链提示方法。在多模态推理基准测试中,LLaVA-o1的表现超出了其基础模型8.9%。该模型的
还记得那个号称“看图说话”神器GPT-4V吗?它能理解图片内容,还能根据图片执行任务,简直是懒人福音!但它有个致命弱点:眼神不太好!想象一下,你让GPT-4V帮你点个按钮,它却像个“屏幕瞎子”一样,到处乱点,是不是很抓狂?今天就给大家介绍一个能让GPT-4V眼神变好的神器——OmniParser!这是微软发布的全新模型,旨在解决图形用户界面(GUI)自动交互的难题。OmniParser是干啥的?简单来说,OmniParser就是个“屏幕翻译官”,它能把屏幕截图解析成GPT-4V能看懂的“结构化语言”。OmniParser结合了
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、开发者狂喜!AI的能力存在问题但可解决,需要在整个开发栈中进行更多工作,同时应注意“锯齿状边缘”并保持人类参与度。
"MiniCPM-V2.6"的端侧多模态人工智能模型,它仅有8B参数却取得了20B以下单图、多图、视频理解三项SOTA(State of the Art,即当前最佳水平)成绩,显著提升了端侧AI的多模态能力,与GPT-4V水平全面对标。
PaddleMIX2.0是百度推出的多模态大模型开发套件,旨在简化多模态应用开发,支持自动驾驶、智慧医疗、搜索引擎等场景。其关键亮点包括: 1. **丰富的模型库**:涵盖图像、文本、视频、音频,新增LLaVA系列模型,提供前沿技术支持。 2. **全流程开发体验**:配备DataCopilot和Auto模块,简化多模态模型训练流程。 3. **高性能训练能力**:DiT模型支持3B规模预训练,采用MixToken策略提升训练吞吐量。 4. **应用构建工具**:AppFlow和ComfyUI简化多模态应用构建和AIGC任务操作。 5. **性能提升**:在大规模预训练、高效精调和高性能推理方面均有显著优化。 PaddleMIX2.0的发布旨在降低开发门槛,推动AI应用创新,通过开源项目促进社区发展。