AI产品榜

AI产品榜

搜索全球AI产品动态

搜索全球AI信息，发现AI新机遇

新闻资讯
产品应用
变现案例
AI教程

类型 :

新闻资讯
产品应用
变现案例
AI教程

2025-02-21 10:31:23.AIbase

腾讯元宝「混元+DeepSeek」双模聚合推出「图像理解」技能

据了解，腾讯元宝此次升级的核心在于“混元+DeepSeek”双模聚合技术的应用。过去，DeepSeek主要扮演的是信息提取的角色，类似于“扫描仪”。但在腾讯混元多模态技术的加持下，如今的DeepSeek已经能够真正理解图片中的细节、氛围，甚至是隐藏的含义。这一转变使得腾讯元宝能够“看懂”图片，并给出自己的分析和解读。

腾讯元宝「混元+DeepSeek」双模聚合推出「图像理解」技能

2024-12-16 10:05:11.AIbase

k1系列强化学习模型登场！月之暗面Kimi上线视觉思考模型

月之暗面今日宣布发布全新视觉思考模型k1。这一模型基于强化学习技术，不仅支持端到端的图像理解，还整合了思维链技术，将能力扩展到了数学之外的更多基础科学领域，包括物理和化学。在基准能力测试中，k1模型的表现超越了全球领先的标杆模型，如OpenAI的o1、GPT-4o以及Claude3.5Sonnet。

k1系列强化学习模型登场！月之暗面Kimi上线视觉思考模型

2024-11-15 11:37:40.AIbase

微软发布 LLM2CLIP:新 AI 技术使语言模型助力图像理解

在当今科技领域，CLIP（Contrastive Language-Image Pre-training）是一个重要的多模态基础模型。它通过在大规模图像 - 文本对上使用对比学习损失，将视觉信号和文本信号结合到一个共享的特征空间中。CLIP 作为检索器，能够支持零 - shot 分类、检测、分割和图像 - 文本检索等多种任务。同时，作为特征提取器，它在几乎所有跨模态表示任务中占据主导地位，例如图像理解、视频理解以及文本到图像或视频生成。CLIP 的强大之处在于它能够将图像与自然语言相连接，并捕捉人类知识，这得益于其在大

微软发布 LLM2CLIP:新 AI 技术使语言模型助力图像理解

2024-11-13 16:52:42.AIbase

DeepSeek AI 发布图像理解与生成的统一 AI 框架JanusFlow，性能超越SDXL

在人工智能驱动的图像生成与理解领域，尽管取得了快速进展，但仍存在显著挑战，阻碍了一个无缝、统一的方法的发展。目前，专注于图像理解的模型往往在生成高质量图像方面表现不佳，反之亦然。这种任务分开的架构不仅增加了复杂性，还限制了效率，使得处理同时需要理解与生成的任务变得繁琐。此外，许多现有模型在有效执行任何功能时，都过于依赖于架构修改或预训练组件，这导致了性能权衡与整合挑战。为了解决这些问题，DeepSeek AI 推出了 JanusFlow，这是一个强大的 AI 框架

DeepSeek AI 发布图像理解与生成的统一 AI 框架JanusFlow，性能超越SDXL

2024-10-29 10:44:52.AIbase

xAI为Grok添加图像理解功能还能看懂梗图的幽默

马斯克旗下xAI公司近日为其AI模型Grok增添了图像理解功能，X平台付费用户现可向AI助手上传图片并进行相关提问。这项更新已经由xAI员工和Grok官方发言人在X平台正式确认。马斯克在平台上展示了Grok的新能力，称其不仅能理解图片内容，还能解读图片中蕴含的幽默元素。不过他也坦言，目前这项功能仍处于早期阶段，团队将持续改进完善。值得注意的是，自今年8月面向高级用户推出Grok-2模型以来，xAI一直在积极扩展其功能范畴。通过与黑森林实验室（Black Forest Labs）的FLUX.1模型合作，Grok已

xAI为Grok添加图像理解功能还能看懂梗图的幽默

2024-09-20 09:06:14.AIbase

阿里国际推出最新多模态大模型 Ovis，看菜品就能提供烹饪步骤

在近日的发布会上，阿里国际 AI 团队揭晓了其最新研发的多模态大模型 Ovis，这一创新的 AI 技术无疑为各行业带来了新的机遇。Ovis 具备强大的图像理解和数据处理能力，让人耳目一新。Ovis 的多模态能力极其强大，它能够处理文本、图像等多种数据，展现出优秀的综合实力。与传统的大语言模型相比，Ovis 不仅能理解文本，还能对图像等非文本信息进行深入分析。比如说，用户只需上传一张菜品的照片，Ovis 便能迅速识别并提供详细的烹饪步骤，帮助用户轻松做出美味佳肴。Ovis通过对图片

阿里国际推出最新多模态大模型 Ovis，看菜品就能提供烹饪步骤

2024-08-30 07:55:47.AIbase

阿里通义千问团队推出Qwen2-VL模型支持实时分析动态视频

阿里巴巴达摩院的通义千问团队在2024年8月30日宣布了其最新成果——Qwen2-VL模型的重大更新。Qwen2-VL模型在图像理解、视频处理和多语言支持方面均实现了显著提升，为关键性能指标设定了新的基准。

阿里通义千问团队推出Qwen2-VL模型支持实时分析动态视频

2024-08-21 14:20:32.AIbase

为复杂视觉推理而生！微软发布Phi-3.5-vision 轻量级、多模态开源模型

微软发布Phi-3.5-vision，一款轻量级、多模态开源AI模型，专为处理文本和视觉输入设计，支持128K上下文长度。该模型适用于资源受限环境，具备图像理解、OCR、图表解析、多图像摘要等功能，展现出色性能和低延迟。由42亿参数构成，通过高质量数据训练，确保性能和隐私。包含三款模型：轻量级AI、专家混合和多模态模型，均在图像和视频处理基准测试中表现出优异成绩。此模型适合AI驱动应用，特别是端侧运行和复杂视觉推理，提供强大支持。

为复杂视觉推理而生！微软发布Phi-3.5-vision 轻量级、多模态开源模型