2025年人工智能(AI)大事件时间线
全面记录2025年人工智能(AI)领域的重要里程碑事件、技术突破、产品发布及行业动态,打造最权威的AI发展历程档案库
3月
🔥 Step-Video-TI2V
Step-Video-TI2V是由上海阶跃星辰智能科技有限公司开发的一款先进的图生视频模型。它基于30B参数的Step-Video-T2V训练而成,能够根据文本和图像输入生成长达102帧的视频。该模型的核心优势在于其运动幅度可控和镜头运动可控两大特点,能够平衡视频生成结果的动态性和稳定性。此外,它在动漫风格视频生成方面表现出色,非常适合动画创作、短视频制作等应用场景。
🔥 Mistral Small 3. 1
法国人工智能初创公司Mistral AI发布了其最新的开源模型Mistral Small3.1。Mistral-Small-3.1-24B-Base-2503 是一款具有 240 亿参数的先进开源模型,支持多语言和长上下文处理,适用于文本与视觉任务。它是 Mistral Small 3.1 的基础模型,具有较强的多模态能力,适合企业需求。
🔥 文心4.5与X1
百度发布文心4.5与X1大模型,价格大幅降低
🔥 Gemma 3
Gemma 3 是基于 Gemini 2.0 技术开发的一系列轻量级、最先进的开放模型,专为在设备上运行而设计。它在同尺寸模型中表现卓越,支持超过 140 种语言,并具备先进的文本和视觉推理能力。Gemma 3 提供 128k-token 上下文窗口,支持函数调用以处理复杂任务,并有量化版本以提高性能和降低计算需求。其开发过程中注重安全性,通过严格的数据治理和安全政策对齐,确保负责任地开发和使用。Gemma 3 的推出进一步推动了 AI 技术的普及和应用,为开发者提供了强大的工具来创建各种 AI 应用程序。
🔥 Gemini Robotics
Gemini Robotics 是基于 Gemini 2.0 开发的先进视觉-语言-动作(VLA)模型,专为机器人技术设计。它通过多模态推理将 AI 引入物理世界,使机器人能够执行更广泛的真实世界任务。该模型具备通用性,能够适应不同情况并解决多种任务;具有交互性,可以理解并快速响应日常语言指令;还具备灵巧性,能够进行精细操作,如折纸或打包零食。
🔥 OpenAI Agents SDK
OpenAI Agents SDK 是一个用于构建代理型 AI 应用的轻量级、易于使用的工具包。它是 OpenAI 之前代理实验项目 Swarm 的生产就绪升级版本。该 SDK 提供了少量的基本构件,包括代理(装备有指令和工具的 LLM)、代理间任务委派的交接功能以及用于验证代理输入的护栏。结合 Python,这些构件能够表达工具和代理之间的复杂关系,并且无需陡峭的学习曲线即可构建实际应用。此外,SDK 内置了追踪功能,可帮助用户可视化和调试代理流程,还能评估流程甚至针对应用微调模型。其主要优点是功能足够实用且构件足够少,易于快速学习;开箱即用,同时可自定义具体行为。它是 OpenAI 在代理技术领域的一次重要实践,为开发者提供了一个高效、灵活的工具来构建代理型 AI 应用。
Mistral OCR
Mistral OCR 是一种光学字符识别(OCR)API,专注于文档理解。它能够以无与伦比的准确性和认知能力理解文档中的每个元素,包括文本、图像、表格、方程式等。该技术通过将图像和PDF作为输入,提取有序的文本和图像内容,支持多模态文档处理,并且在复杂文档理解方面处于行业领先水平。其重要性在于能够解锁数字化信息的集体智能,将大量存储为文档的组织数据转化为可操作的知识,推动创新。
🔥 QwQ-32B
QwQ-32B 是一款拥有 320 亿参数的推理模型,通过大规模强化学习(RL)提升模型性能,能够进行深度思考和复杂推理。它集成了与 Agent 相关的能力,可在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。该模型在数学推理、编程能力和通用能力等方面表现出色,其性能可与具备 6710 亿参数的 DeepSeek-R1 媲美,展现了强化学习在提升大语言模型智能方面的潜力,为通往通用人工智能提供了一种可能的途径。
🔥 Manus
Manus 是一个通用的人工智能代理,它连接思想和行动:它不仅会思考,还会提供结果。Manus 擅长处理工作和生活中的各种任务,可以在你休息时完成所有事情。它通过集成信息并生成定制化的解决方案,为用户提供高效、便捷的服务。Manus 的重要性在于其能够通过自动化和智能化的方式,帮助用户节省时间和精力,同时提供高质量的分析和决策支持。
CogView4
CogView4 是一个基于扩散模型的文本到图像生成系统,支持中文输入和中文文本到图像生成。它使用了级联扩散框架和 Diffusion Transformer 技术,能够生成高质量的图像。该模型在多个基准测试中表现出色,尤其是在中文文本生成方面具有独特优势。
2月
🔥 GPT-4.5
GPT-4.5 是 OpenAI 开发的最新语言模型,代表了在无监督学习和模型规模上的重大进步。该模型通过扩展计算和数据以及架构和优化创新,显著提高了对世界的理解和知识广度,减少了幻觉现象,提升了自然语言交互的自然性和对用户意图的理解能力。它在写作、编程、解决实际问题等方面表现出色,同时具备更强的情感智能(EQ)和创造力。GPT-4.5 的重要性在于其作为无监督学习的前沿模型,为未来更强大的模型奠定了基础。
🔥 Claude 3.7 Sonnet
Claude 3.7 Sonnet 是 Anthropic 推出的最新混合推理模型,具备快速响应和深度思考的能力,用户可以通过 API 细粒度控制模型的思考时间。Claude 3.7 Sonnet 在编码和前端开发方面表现出色,通过扩展思考模式显著提升了数学、物理、指令遵循和编程等任务的性能。Claude 3.7 Sonnet 在标准和扩展思考模式下均表现出色,支持用户根据需求选择响应速度和质量的平衡。Anthropic 旨在通过统一的推理模型提供更无缝的用户体验,Claude 3.7 Sonnet 体现了这一理念,优化了实际业务场景中常用的 LLM 功能,而非单纯针对竞赛问题。
🔥 Claude Code
Claude Code 是一款集成在终端中的智能编程工具,能够理解代码库并通过自然语言命令帮助开发者更快地编写代码。它直接与开发环境集成,无需额外服务器或复杂设置,支持编辑文件、修复代码中的错误、回答关于代码架构和逻辑的问题、执行测试和代码审查等功能。Claude Code 的重要性在于它能够显著提高开发效率,同时通过自然语言交互降低编程门槛。产品基于 Anthropic 的 Claude-3-7-sonnet-20250219 模型,具备强大的代码理解和生成能力。
🔥 QwQ-Max-Preview
QwQ-Max-Preview 是基于 Qwen2.5-Max 构建的预览版本,属于通义千问系列。它在深度推理、数学、编程以及与 Agent 相关的任务中表现出色。该产品计划在不久的将来以 Apache 2.0 许可协议开源发布,旨在推动智能推理技术的发展,并通过开源促进社区驱动的创新。未来还将推出 Qwen Chat APP 和更小的推理模型(如 QwQ-32B),以满足不同用户的需求。
🔥 Wan AI
Wan AI 是由阿里巴巴集团通义实验室开发的先进且强大的视觉生成模型。它能够根据文本、图像和其他控制信号生成视频。Wan 2.1 系列模型现已完全开源。该产品代表了人工智能在视觉内容生成领域的前沿技术,具有重要的创新性和应用价值。其主要优点包括强大的视觉生成能力、对多种输入信号的支持以及开源特性,这使得开发者和创作者能够灵活地利用该平台进行创意开发和内容创作。
🔥 PaliGemma 2 mix
PaliGemma 2 mix 是 Google 开发的一种多任务视觉语言模型,属于 Gemma 家族的升级版本。该模型能够处理多种视觉语言任务,包括图像分割、视频字幕生成、科学问题回答、文本相关任务等。它提供了不同大小的预训练检查点(3B、10B 和 28B 参数),并支持多种分辨率(224px 和 448px),方便开发者根据需求选择合适的模型。此外,PaliGemma 2 mix 支持多种框架,如 Hugging Face Transformers、Keras、PyTorch、JAX 和 Gemma.cpp。该模型的多功能性和易用性使其成为视觉语言任务的强大工具。
🔥 Mistral Saba
Mistral Saba 是 Mistral AI 推出的首个专门针对中东和南亚地区语言的区域语言模型。它拥有 24B 参数,基于精心策划的中东和南亚数据集进行训练,能够提供比其 5 倍大小的模型更准确、更相关的响应,同时速度更快、成本更低。该模型支持阿拉伯语以及多种印度起源语言,尤其擅长南印度起源语言(如泰米尔语)。它不仅可以通过 API 使用,还可以在客户的安全环境中本地部署,适用于单 GPU 系统,响应速度超过每秒 150 个标记。
🔥 Grok 3
Grok 3 是 xAI 开发的最新旗舰 AI 模型,旨在分析图像和回答问题,支持 xAI 的社交网络 X 的多项功能。它是一个模型家族,包括 Grok 3 mini、Grok 3 Reasoning 和 Grok 3 mini Reasoning 等版本。Grok 3 在多个基准测试中表现优异,例如在 AIME(数学问题)和 GPQA(博士级物理、生物、化学问题)中超越了 GPT-4o。其推理模型能够像 OpenAI 的 o3-mini 和 DeepSeek 的 R1 一样进行事实核查,避免常见错误。此外,Grok 3 还支持通过 Grok 应用程序的 DeepSearch 功能进行 AI 驱动的研究,扫描互联网和 X 社交网络以提供信息摘要。Grok 3 的开发使用了大量计算资源,包括在孟菲斯的数据中心的约 200,000 个 GPU,其训练数据集包括法庭文件等。
Goku
Goku是一个基于流的视频生成基础模型,专注于文本到视频的生成任务。该模型通过先进的生成技术,能够根据文本提示生成高质量的视频内容,支持多种场景和风格的视频生成。其重要性在于能够为视频创作、广告制作等领域提供高效的内容生成解决方案,降低创作成本并提高内容多样性。Goku+是其衍生版本,专门针对广告场景进行了优化,能够生成更符合广告需求的视频内容。
🔥 Gemini 2.0
Gemini 2.0 是谷歌在生成式 AI 领域的重要进展,代表了最新的人工智能技术。它通过强大的语言生成能力,为开发者提供高效、灵活的解决方案,适用于多种复杂场景。
🔥 OpenAI Deep Research
Deep Research 是 OpenAI 开发的智能代理功能,能够在短时间内完成复杂的多步骤研究任务。它通过互联网搜索和分析大量信息,为用户提供类似于专业分析师水平的综合报告。该工具基于即将推出的 OpenAI o3 模型优化,能够处理文本、图像和 PDF 文件,适用于需要进行深入研究的用户,如金融、科学、政策和工程领域的专业人士,以及需要个性化建议的消费者。
1月
🔥 OpenAI o3-mini
OpenAI o3-mini 是 OpenAI 推出的最新推理模型,专为科学、技术、工程和数学(STEM)领域优化。它在保持低成本和低延迟的同时,提供了强大的推理能力,尤其在数学、科学和编程方面表现出色。该模型支持多种开发者功能,如函数调用、结构化输出等,并且可以根据需求选择不同的推理强度。
🔥 Mistral Small 3
Mistral Small 3 是由 Mistral AI 推出的一款开源语言模型,具有 24B 参数,采用 Apache 2.0 许可证。该模型专为低延迟和高效性能设计,适合需要快速响应的生成式 AI 任务。它在多任务语言理解(MMLU)基准测试中达到 81% 的准确率,并且能够以每秒 150 个标记的速度生成文本。
🔥 ChatGPT Gov
ChatGPT Gov是OpenAI为美国政府机构量身定制的AI模型版本,旨在帮助政府机构高效利用AI技术解决复杂问题。它基于OpenAI的前沿技术,支持政府在公共健康、基础设施、国家安全等领域的工作,同时满足严格的网络安全和合规要求。
🔥 Janus-Pro
Janus-Pro 是一个由 DeepSeek 团队开发的先进多模态模型,专注于统一多模态理解和生成任务。它通过解耦视觉编码路径,解决了传统模型在理解和生成任务中的冲突问题。该模型基于强大的 Transformer 架构,能够处理复杂的多模态任务,如视觉问答、图像生成等。
Anthropic API Citations
Anthropic API 的 Citations 功能是一种强大的技术,它允许 Claude 模型在生成回答时引用源文件中的确切句子和段落。这种功能不仅提高了回答的可验证性和可信度,还减少了模型可能出现的幻觉问题。
FireRedASR
FireRedASR 是一个开源的工业级普通话自动语音识别(ASR)模型家族,旨在满足不同应用中对卓越性能和最优效率的多样化需求。它包含两个变体:FireRedASR-LLM 和 FireRedASR-AED。该技术的重要性在于推动了语音识别技术的发展,为工业级应用提供了高效且准确的解决方案。
🔥 Operator
Operator 是 OpenAI 推出的一款智能代理产品,它通过结合 GPT-4o 的视觉能力与强化学习的高级推理能力,能够像人类一样与图形用户界面进行交互。它能够处理各种重复性浏览器任务,如填写表单、订购杂货等,帮助用户节省时间。
🔥 CUA
Computer-Using Agent (CUA) 是 OpenAI 开发的一种先进的人工智能模型,结合了 GPT-4o 的视觉能力和通过强化学习的高级推理能力。它能够像人类一样与图形用户界面(GUI)交互,无需依赖特定操作系统的 API 或网络接口。CUA 的灵活性使其能够在多种数字环境中执行任务,如填写表单、浏览网页等。
🔥 Doubao-1.5-pro
Doubao-1.5-pro 是由豆包团队开发的高性能稀疏 MoE(Mixture of Experts)大语言模型。该模型通过训练-推理一体化设计,实现了模型性能与推理性能的极致平衡。它在多个公开评测基准上表现出色,尤其在推理效率和多模态能力方面具有显著优势。该模型适用于需要高效推理和多模态交互的场景,如自然语言处理、图像识别和语音交互等。
UI-TARS
UI-TARS 是由字节跳动开发的一种新型 GUI 代理模型,专注于通过类似人类的感知、推理和行动能力与图形用户界面进行无缝交互。该模型将感知、推理、定位和记忆等关键组件集成到单一的视觉语言模型中,能够实现无需预定义工作流程或手动规则的端到端任务自动化。
Hunyuan3D 2.0
Hunyuan3D 2.0 是腾讯推出的一种先进大规模 3D 合成系统,专注于生成高分辨率纹理化的 3D 资产。该系统包括两个基础组件:大规模形状生成模型 Hunyuan3D-DiT 和大规模纹理合成模型 Hunyuan3D-Paint。它通过解耦形状和纹理生成的难题,为用户提供了灵活的 3D 资产创作平台。
🔥 Trae
Trae 是一款面向开发者的 AI 驱动的集成开发环境(IDE)。它通过智能代码补全、多模态交互以及对整个代码库的上下文分析等功能,帮助开发者更高效地编写代码。
🔥 DeepSeek-R1
DeepSeek-R1 是 DeepSeek 团队推出的第一代推理模型,通过大规模强化学习训练,无需监督微调即可展现出卓越的推理能力。该模型在数学、代码和推理任务上表现优异,与 OpenAI-o1 模型相当。DeepSeek-R1 还提供了多种蒸馏模型,适用于不同规模和性能需求的场景。
🔥 Kimi k1.5
Kimi k1.5 是由 MoonshotAI 开发的多模态语言模型,通过强化学习和长上下文扩展技术,显著提升了模型在复杂推理任务中的表现。该模型在多个基准测试中达到了行业领先水平,例如在 AIME 和 MATH-500 等数学推理任务中超越了 GPT-4o 和 Claude Sonnet 3.5。
🔥 Ray2
Luma AI 推出Ray2视频生成模型,实现更快更自然的运动效果。主要支持文本生成视频功能,用户可以输入描述,生成5到10秒的短视频。
FLUX Pro Finetuning API
FLUX Pro Finetuning API 是由 Black Forest Labs 推出的生成式文本到图像模型的定制化工具。它允许用户通过少量示例图像(1-5张)对 FLUX Pro 模型进行微调,从而生成符合特定品牌、风格或视觉需求的高质量图像内容。
🔥 moonshot-v1-vision-preview
Kimi 视觉模型是 Moonshot AI 开放平台提供的先进图像理解技术。它能够准确识别和理解图片中的文字、颜色和物体形状等内容,为用户提供强大的视觉分析能力。
🔥 MiniMax-01 series
MiniMax-01系列是MiniMax发布的开源模型,包含MiniMax-Text-01和MiniMax-VL-01。该系列首次大规模实现创新的闪电注意力机制,提供与全球顶尖模型相媲美的性能,能高效处理长达400万token的超长上下文,是AI代理时代的先行者。
ReaderLM v2
ReaderLM v2是由Jina AI推出的参数量为1.5B的小型语言模型,专门用于HTML转Markdown转换和HTML转JSON提取,具有卓越的准确性。该模型支持29种语言,能处理高达512K个token的输入和输出组合长度。
🔥 Codestral 25.01
Codestral 25.01是由Mistral AI推出的一款先进的编程辅助模型,它代表了当前编程模型领域的前沿技术。该模型具有轻量级、快速以及精通80多种编程语言的特点,专为低延迟、高频率的使用场景进行了优化,并支持诸如代码填充(FIM)、代码纠正和测试生成等任务。
🔥 万相营造
万相营造是阿里妈妈推出的一款AI创意设计工具,旨在帮助商家快速生成高质量的创意素材,提升营销效果。它利用先进的AI技术,实现图片到视频的转换、智能试衣、文案生成等多种功能,满足电商商家在不同营销场景下的需求。
🔥 DeepSeek APP
DeepSeek APP正式上线,iOS和安卓版本均有。
🔥 日日新融合大模型
商汤推出“日日新”融合大模型,深度推理与多模态处理能力大幅提升。
🔥 通义万相2.1模型
阿里旗下的通义万相视频生成模型推出全新的2.1版本
🔥 Moondream2
Moondream 是一种小型视觉语言模型,旨在在边缘设备上高效运行。
🔥 OpenBMB PRIME
Eurus-2-7B-PRIME 类似 o1,使用PRIME (通过IM plicit r E ward 进行过程强化)方法进行训练,该方法是一种具有过程奖励的在线强化学习 (RL) 开源解决方案,以提高语言模型超越模仿的推理能力或蒸馏。它从Eurus-2-7B-SFT开始,并在Eurus-2-RL-Data上进行训练。
🔥 Nvidia Cosmos
NVIDIA Cosmos™ 是一个由最先进的生成世界基础模型(WFM)、高级标记器、护栏以及加速数据处理和管理管道组成的平台,旨在加速自动驾驶汽车 (AV)等物理 AI系统的开发)和机器人。。
🔥 J1 Assistant
罗永浩旗下的人工智能初创项目 Jarvis 悄然上线了一款名为 “J1Assistant” 的 AI 助理软件,目前该软件仅在海外提供安卓版本