AI新闻资讯

AI资讯

不错过全球AI革新的每一个时刻

AI日报

每天三分钟关注AI行业趋势

AI时间线

AI行业大事记

Al硬件

列出所有AI硬件产品。

AI变现指南

图片合集

AI图片制作变现案例分享

视频合集

AI视频制作变现案例分享

音频合集

AI音频制作变现案例分享

文案合集

AI内容写作变现案例分享

AI教程

AI产品榜

AI产品排行榜

展示AI网站的总访问量排名

AI产品流量增速榜

追踪AI网站访问量增长最快产品

AI产品流量下降榜

关注访问量下降明显的AI网站

AI产品周榜

展示AI网站的周访问量排名

AI开源项目库

全景图

github热门AI开源项目总览

产品库工具导航

大核CNN UniRepLKNet：挑战Transformer多模态霸主地位

量子位

发布于AI新闻资讯 · 1 分钟阅读 · Dec 25, 2023

腾讯AI实验室与港中文团队合作推出UniRepLKNet，挑战Transformer在多模态领域的主导地位。该大核CNN架构在点云、音频、视频等任务上表现出色，无需改变模型结构。UniRepLKNet在ImageNet、COCO、ADE20K等任务中超越了Transformer，展示了大核CNN在多模态应用中的潜力。

大核CNN UniRepLKNet 多模态

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

Interview Kickstart 推出应用生成式 AI 课程，助力科技人才把握未来机遇

在人工智能（AI）领域的快速发展中，技术人才的专业知识变得愈发重要。位于加利福尼亚圣克拉拉的 Interview Kickstart 近日宣布更新其 “应用生成式 AI” 课程，旨在帮助技术专业人士适应这一快速演变的市场。这个消息恰逢中国科技巨头百度推出其新一代 AI 模型 ——Ernie4.5和 Ernie X1，引发了业界的广泛关注。百度的这两款多模态基础模型声称在多个基准平台上超过了竞争对手，如 DeepSeek 和 OpenAI。这一突破标志着中国 AI 市场竞争的加剧，DeepSeek、阿里巴巴、腾讯和字节跳动等公司都在争夺

2025年4月18号 10:04

1.0k

字节跳动发布UI-TARS-1.5：开源多模态代理引领GUI自动化新风潮

字节跳动在Hugging Face平台正式发布了UI-TARS-1.5，一款基于强大视觉语言模型构建的开源多模态代理。这一发布标志着字节跳动在AI自动化交互领域的又一重大突破，为开发者与用户提供了一个高效、智能的跨平台GUI（图形用户界面）自动化解决方案。UI-TARS-1.5:多模态代理的创新标杆UI-TARS-1.5是字节跳动继UI-TARS系列后的全新迭代，专为自动化图形界面交互设计，具备卓越的感知、推理、行动和记忆能力。该模型采用端到端架构，依托纯视觉输入，能够实时理解动态界面，并通过自然语言指令完

2025年4月18号 8:48

2.3k

字节豆包开源 Seed 智能体模型 UI-TARS-1.5

字节跳动豆包大模型团队宣布开源 UI-TARS-1.5，这是一款基于视觉 - 语言模型构建的开源多模态智能体，能够在虚拟世界中高效执行各类任务。该模型在7个典型的 GUI 图形用户界面评测基准中取得了 SOTA（State-of-the-Art）表现，并首次展现了其在游戏中的长时推理能力和在开放空间中的交互能力。这一开源项目标志着多模态智能体技术在 GUI 操作和游戏推理领域取得了重要进展。

2025年4月18号 8:01

2.5k

AI日报：字节发布豆包1.5深度思考模型；微信首个AI助手 “元宝” 上线；OpenAI发布o4-mini、满血版o3

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、OpenAI发布两款多模态推理模型o4-mini、满血版o3OpenAI在技术直播中推出了其最新的多模态模型o4-mini和满血版o3，这两款模型具备同时处理文本、图像和音频的能力，并能调用外部工具进行复杂任务的处理。o4-mini在各项测试中表现优异，准确率高于o3，并在编程竞赛中名列前茅。【AiBase提要:】🛠

2025年4月17号 16:06

5.9k

上海人工智能实验室推出升级版多模态大模型 “书生・万象 3.0”

在人工智能迅速发展的今天，上海人工智能实验室再次引领潮流，推出了全新的多模态大模型 “书生・万象3.0”。这一升级版本不仅在技术上进行了全面提升，还在多模态预训练和后训练方法的加持下，展现出了更强大的基础能力和应用潜力。“书生・万象3.0” 具备同时处理文本和多种多模态输入的能力，这使得它在多个应用场景中都能表现出色。例如，在 GUI 智能体、建筑图纸理解和空间推理等方面，该模型的表现都相当领先。这样的功能无疑为设计师、工程师以及各种需要视觉与文本

2025年4月17号 13:56

5.8k

字节发布豆包1.5深度思考模型：多模态深度思考、延迟低

在4月17日的火山引擎 AI 创新巡展杭州站上，字节跳动旗下的火山引擎总裁谭待正式发布了最新的豆包1.5・深度思考模型。此次发布会吸引了众多行业人士的关注，谭待在会上分享了该模型在多个领域的优异表现。据悉，豆包1.5模型在数学、编程、科学推理等专业领域，以及创意写作等任务中，都展现出了卓越的能力。这款新模型采用了 MoE（混合专家）架构，总参数达200亿，而激活参数仅为20亿，显著低于行业同类模型的参数规模，因而在推理成本上也具备了明显的优势。谭待还详细介绍了

2025年4月17号 11:13

7.6k

OpenAI 推出全新推理模型 o3，实现图像思考能力

OpenAI 近期发布了其最新的推理模型 o3和 o4-mini，标志着人工智能领域的一次重大突破。这两款模型不仅在推理能力上超越了以往的版本，还首次实现了图像思考的能力，能够将视觉信息直接融入到思维过程中。o3被誉为 “天才级” 模型，尤其在编程和数学等任务中表现出色，准确率高达87.5%。这次发布的 o3和 o4-mini 模型在多模态处理上表现出色，具备了图像处理、网页搜索和代码执行等功能。开发者可以通过 API 方便地接入这些模型，使用更强大的工具和功能。例如，o3不仅能够进行复杂问

2025年4月17号 8:51

1.5k

上海人工智能实验室开源小语种多模态数据集万卷·丝路2.0

由上海人工智能实验室发布的“万卷·丝路2.0”多语言多模态语料库正式开源。该语料库在原有的阿拉伯语、俄语、韩语、越南语、泰语等5个语种基础上，新增了塞尔维亚语、匈牙利语、捷克语3个稀缺语料数据，涵盖文本、图片、音频、视频四大模态，数据总量超过1150万条，音视频时长超过2.6万小时，成为小语种多模态领域的重要资源。

2025年4月17号 8:37

1.4k

OpenAI发布两款多模态推理模型o4-mini、满血版o3

在今天凌晨1点的技术直播中，OpenAI正式推出其最新且最强大的多模态模型o4-mini和满血版o3。这两款模型具备独特优势，不仅能同时处理文本、图像和音频，还可作为智能体自动调用网络搜索、图像生成、代码解析等工具，并且拥有深度思考模式，能在思维链中思考图像。

2025年4月17号 7:49

4.6k

字节跳动开源Liquid多模态模型，革新视觉与语言统一生成

人工智能领域迎来一项重大突破。AIbase从社交媒体获悉，字节跳动于近日宣布开源其全新多模态生成模型Liquid，该模型以创新的统一编码方式和单一大语言模型（LLM）架构，实现了视觉理解与生成任务的无缝整合。这一发布不仅展示了字节在多模态AI上的技术雄心，也为全球开发者提供了强大的开源工具。以下是AIbase对Liquid模型的深度解析，探索其技术创新、核心发现及行业影响。Liquid模型亮相:统一多模态生成新范式Liquid是一个基于自回归生成的多模态模型，其核心创新在于将图像和文本

2025年4月16号 17:03

6.5k

AI资讯

AI日报

AI时间线

Al硬件

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图