AI新闻资讯

AI资讯

不错过全球AI革新的每一个时刻

AI日报

每天三分钟关注AI行业趋势

AI时间线

AI行业大事记

Al硬件

列出所有AI硬件产品。

AI变现指南

图片合集

AI图片制作变现案例分享

视频合集

AI视频制作变现案例分享

音频合集

AI音频制作变现案例分享

文案合集

AI内容写作变现案例分享

AI教程

AI产品榜

AI产品排行榜

展示AI网站的总访问量排名

AI产品流量增速榜

追踪AI网站访问量增长最快产品

AI产品流量下降榜

关注访问量下降明显的AI网站

AI产品周榜

展示AI网站的周访问量排名

AI开源项目库

全景图

github热门AI开源项目总览

产品库工具导航

2023年最重要的三项人工智能创新

站长之家

发布于AI新闻资讯 · 1 分钟阅读 · Dec 22, 2023

2023年人工智能领域出现了重大创新，其中最重要的三项是多模态AI、宪法AI和文本转视频技术。多模态AI能够处理不同类型的数据，包括文本、图像、视频和音频；宪法AI通过撰写价值观宪法和使用强化学习方法来控制AI行为；文本转视频技术允许根据文本生成视频并改变视频风格。这些创新将改变人们对AI的理解和使用，对AI领域产生重大影响。

多模态AI 宪法AI 文本转视频技术

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

AI日报：国内首个多模态AI程序员上岗；字节启动Top Seed计划招募AI人才；DeepSeek R1T Chimera上线OpenRouter

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、国内首个多模态AI程序员正式上岗文心快码Coding智能体Zulu正式发布在2025年4月25日的百度Create AI开发者大会上，百度推出了文心快码3.5版本及其多模态AI程序员文心快码Comate Zulu智能体，标志着AI编程工具的新纪元。Zulu智能体通过高效的多模态交互，能够自动生成代码并支持多种开发环境，极大

2025年4月28号 15:34

1.9k

国内首个多模态AI程序员正式上岗文心快码Coding智能体Zulu正式发布

百度Create AI开发者大会在北京隆重举行。在这场备受瞩目的科技盛会中，百度正式发布了文心快码3.5版本以及国内首个多模态AI程序员——文心快码Comate Zulu智能体，标志着AI编程工具进入了一个全新的发展阶段。

2025年4月28号 10:18

850

Moonshot AI发布Kimi-Audio：开源音频基础模型树立新标杆

近日，Moonshot AI正式宣布推出Kimi-Audio，一款全新的开源音频基础模型，旨在推动音频理解、生成和交互领域的技术进步。这一发布引发了全球AI社区的广泛关注，被认为是多模态AI发展的重要里程碑。以下是对Kimi-Audio核心特性、性能表现及行业影响的全面报道。突破性特性:全能音频处理能力Kimi-Audio-7B-Instruct基于Qwen2.5-7B架构，并结合Whisper技术，展现了强大的多功能性。该模型支持多种音频相关任务，包括但不限于:语音识别（ASR）、音频问答(AQA)、音频字幕(AAC)、语音情感识别(SER)、声音事件

2025年4月27号 9:04

3.8k

Grok大更新！视觉能力、多语言音频处理与实时搜索功能震撼上线

由xAI打造的生成式人工智能聊天机器人Grok迎来了一次里程碑式的更新，其功能全面升级，不仅新增了视觉处理能力，还实现了多语言音频处理以及语音模式下的实时搜索功能。这一更新标志着Grok在多模态AI领域的重大突破，为用户提供了更智能、更便捷的交互体验。以下，AIbase将为您详细解析此次更新的亮点与意义。视觉能力突破Grok的视觉处理能力是此次更新的核心亮点之一。尽管早在2024年4月，xAI曾宣布Grok-1.5Vision（Grok-1.5V）具备处理文档、图表、截图和照片等视觉信息的能力，但该版

2025年4月23号 8:54

4.6k

苹果与索邦大学联合研究：早期融合与稀疏架构助力多模态 AI 发展

在多模态人工智能（AI）领域，苹果公司的工程师们与法国索邦大学的研究团队合作，展开了一项重要研究。近日，科技媒体 marktechpost 发布了相关博文，探讨了早期融合与后期融合模型在多模态 AI 中的应用与前景。研究表明，从头训练的早期融合模型在计算效率和可扩展性上更具优势。多模态 AI 的目标是同时处理图像、文本等多种数据类型，然而，整合这些不同来源的数据一直是一个难题。目前的技术普遍采用后期融合（late-fusion）策略，即将预训练的单模态模型(如视觉和语言模型)组合

2025年4月16号 16:30

4.6k

核能级进化！可灵AI迈入2.0时代新增多模态编辑和图片编辑功能

刚刚，国内AI生成创作平台可灵AI正式发布了全面革新的2.0版本，此次升级不仅涵盖了多个核心模型的彻底更新，还带来了一系列突破性的新功能，标志着该平台正式迈入多模态AI创作的新阶段。本次更新的核心是两大基础模型的全面革新:可灵2.0（大师版）和可图2.0。可灵2.0(大师版)专注于视频生成，在语义响应、动态质量和画面美感三方面实现了质的飞跃。该模型现在能够精确响应更复杂的时序描述，例如"女孩从静坐到慢慢离开，伴随着从晨光到暮色的天空变化"等高度复杂的场景描述。

2025年4月15号 14:45

3.2k

MiniMax MCP Server正式上线，开启多模态AI新纪元

人工智能技术的边界正在不断拓展。AIbase从社交媒体获悉，中国AI初创公司MiniMax稀宇科技于近日宣布，其MiniMax MCP Server正式上线。这一服务器通过简单的文本输入，即可调用视频生成、图像生成、语音生成及声音克隆等多项能力，并兼容多种主流MCP客户端，为开发者与创作者提供了强大的多模态AI工具。以下是AIbase对这一重磅发布的深度解析，带您探索其技术亮点与行业意义。MiniMax MCP Server亮相:一站式多模态解决方案MiniMax MCP Server基于模型上下文协议（Model Context Protocol， MCP），以统一的

2025年4月15号 10:19

2.5k

报道称OpenAI下周重磅发布GPT-4.1系列，包含Mini版和Nano版

人工智能领域的领跑者OpenAI即将在下周掀起新一波技术热潮!据科技媒体 The Verge 报道，OpenAI计划推出包括GPT-4.1系列、o3系列以及其他多款AI模型在内的重大更新。这一波密集发布不仅彰显了OpenAI加速创新的雄心，也为行业带来了更强大的AI工具。GPT-4.1系列:多模态能力的全面升级作为GPT-4.0的继任者，GPT-4.1系列被认为是OpenAI在多模态AI领域的又一力作。报道称，GPT-4.1将进一步提升在文本、图像和音频处理上的表现，带来更快的响应速度和更高的准确性。除了主模型外，OpenAI还将推出GPT-4.1mini和

2025年4月11号 10:55

9.3k

商汤科技日日新V6震撼发布：多模态AI再升级，API明日开放！

近日，商汤科技创始人徐立正式发布了其最新一代人工智能大模型“日日新V6”，这一消息迅速引发了科技圈的热烈讨论。据AIbase了解，日日新V6在多模态能力上实现了重大突破，进一步巩固了商汤科技在AI领域的领先地位。更令人振奋的是，该模型的API将于明日正式开放，为开发者提供更强大的技术支持，助力AI应用的快速落地。多模态能力全面升级日日新V6作为商汤科技SenseNova系列的最新迭代，核心亮点在于其多模态能力的显著提升。该模型能够无缝处理文本、图像、视频等多种数据类型

2025年4月11号 10:48

1.4k

Gemini Live视觉对话功能登陆Pixel 9：AI助手迈向多模态交互新阶段

近日，谷歌旗下人工智能助手Gemini迎来了一次重大功能升级，其备受期待的“Gemini Live”视觉对话能力正式在Pixel9系列手机上上线。这一更新赋予了Gemini Live全新的多模态交互能力，使其不仅能够理解用户语音指令，还能实时分析屏幕内容和摄像头捕捉的画面，并以此为基础与用户展开自然对话。这一突破标志着AI助手从单一语音交互向多维感知的智能化转变，为用户带来了更加沉浸式和实用的体验。据介绍，Gemini Live的视觉对话功能依托谷歌在多模态AI技术上的最新成果。通过深度整合语言

2025年4月8号 13:53

1.9k

AI资讯

AI日报

AI时间线

Al硬件

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图