zh
AI产品榜
每月不到10元,就可以无限制地访问最好的AIbase。立即成为会员
首页
AI资讯
AI日报
变现指南
AI教程
AI工具导航
AI产品库
zh
AI产品榜
搜索全球AI产品动态
搜索全球AI信息,发现AI新机遇
新闻资讯
产品应用
变现案例
AI教程
类型 :
新闻资讯
产品应用
变现案例
AI教程
2025-02-10 09:46:56
.
AIbase
.
15.2k
小而强!微软发布小型模型LLaVA-Rad,实现精准放射学报告生成
近日,微软研究院联合华盛顿大学、斯坦福大学、南加州大学、加利福尼亚大学戴维斯分校以及加利福尼亚大学旧金山分校的研究人员共同推出了 LLaVA-Rad,这是一种新型的小型多模态模型(SMM),旨在提升临床放射学报告的生成效率。该模型的推出不仅标志着医学图像处理技术的一大进步,也为放射学的临床应用带来了更多的可能性。在生物医学领域,基于大规模基础模型的研究已经展现出良好的应用前景,尤其是在多模态生成 AI 的发展下,可以同时处理文本与图像,从而支持视觉问答
2025-01-21 11:20:27
.
AIbase
.
14.9k
月之暗面发布新一代SOTA模型 k1.5:多模态推理能力再升级
月之暗面公司隆重推出其全新的 SOTA(state-of-the-art)模型 ——k1.5多模态思考模型,标志着在多模态推理和通用推理领域的重大突破。该模型不仅具备出色的多模态处理能力,还展示了卓越的通用推理能力,能够有效应对各类复杂任务。k1.5模型的最大亮点在于其多模态推理能力。它可以同时处理来自文本、图像、声音等不同模态的信息,进而提供更加全面和准确的理解。这一特性使其在视觉问答、视觉常识推理及视觉语言导航等任务中表现尤为出色。举例来说,用户可以通过图像和文本结
2025-01-13 09:21:47
.
AIbase
.
14.6k
一体化 AI 框架Sa2VA:实现图像与视频的深度理解
在多模态大语言模型(MLLMs)的推动下,图像和视频相关的任务取得了革命性的进展,包括视觉问答、叙述生成和交互式编辑等。然而,实现细粒度的视频内容理解仍然面临重大挑战。这一挑战涉及像素级的分割、带有语言描述的跟踪,以及在特定视频提示上进行视觉问答等任务。尽管当前最先进的视频感知模型在分割和跟踪任务上表现出色,但它们在开放式语言理解和对话能力方面仍显不足。此外,视频 MLLMs 在视频理解和问答任务上表现良好,但在处理感知任务和视觉提示方面依然力不
2024-10-08 11:18:05
.
AIbase
.
12.2k
苹果发布MM1.5:多模态 AI 模型的革命,重新定义智能理解?
最近,苹果 AI 研究团队推出了他们的新一代多模态大语言模型(MLLMs)家族 ——MM1.5。这一系列模型能够结合文本、图像等多种数据类型,向我们展示了 AI 在理解复杂任务方面的新能力。像视觉问答、图像生成和多模态数据解读这样的任务,都能在这些模型的帮助下得到更好的解决。多模态模型的一个大挑战,就是如何在不同数据类型之间实现有效的交互。过去的模型常常在处理文本丰富的图像或者细粒度视觉任务时遇到困难。因此,苹果的研究团队在 MM1.5模型中引入了创新的数据中心化