9月25日,OpenAI为旗下热门对话AI ChatGPT推出了语音交互和图片识别等多模态功能。新功能支持用户通过语音对话以及上传图片进行交互,可实现语音识别、文本识别、物体检测等功能。多模态版ChatGPT称为GPT-4V,与GPT-4同期训练完成,考虑到安全性才推迟发布。OpenAI表示新功能会先在ChatGPT Plus订阅用户和企业版用户中推出。
相关AI新闻推荐

国内首个多模态AI程序员正式上岗 文心快码Coding智能体Zulu正式发布
百度Create AI开发者大会在北京隆重举行。在这场备受瞩目的科技盛会中,百度正式发布了文心快码3.5版本以及国内首个多模态AI程序员——文心快码Comate Zulu智能体,标志着AI编程工具进入了一个全新的发展阶段。

智谱与生数科技达成战略合作 专注大模型联合创新
4月27日,清华大学旗下的两家明星人工智能公司智谱(Z.ai)和生数科技(shengshu.com)宣布达成重大战略合作。此次合作旨在通过双方在大语言模型和多模态生成模型的技术积累与优势,共同推进国产大模型的技术创新与产业落地。
芯驰发布新一代4纳米 AI 座舱芯片 X10,提升智能驾驶体验
在2025上海车展上,芯驰科技正式推出了最新研发的 AI 座舱芯片 ——X10。这款芯片采用了先进的4纳米制程工艺,具备强大的计算能力,能够支持7B 参数的多模态大模型在端侧的本地部署。这标志着芯驰科技在智能座舱芯片领域的一次重大突破,预计将大幅提升智能驾驶体验。从技术规格来看,X10芯片配备了200K DMIPS 算力的 Arm v9.2架构 CPU,搭载1.8TFLOPS 算力的 GPU 以及40TOPS 算力的 NPU,确保其在处理复杂计算任务时具备极高的效率。该芯片还支持128bit 位宽的9600MT/s LPDDR5x 内存,系统内存带宽达

OpenAI 推出 ChatGPT 新版本:更智能、更直观的 GPT-4o
OpenAI 最近宣布对其 ChatGPT 的 GPT-4o 版本进行了更新。这次更新主要集中在如何保存记忆的时机以及在科学、技术、工程和数学(STEM)等领域的技能提升。此外,新版本还旨在更有效地引导对话朝着 “富有成效的结果” 发展。OpenAI 希望通过这些改进,使模型在各种任务中显得更加 “直观和高效”。OpenAI 首席执行官山姆・阿尔特曼表示,这次更新不仅提升了智能水平,还改善了模型的人格特质。然而,他也坦言目前模型在某些情况下仍存在 “光滑” 过度的问题,并承诺未来会对此进行改

Moonshot AI发布Kimi-Audio:开源音频基础模型树立新标杆
近日,Moonshot AI正式宣布推出Kimi-Audio,一款全新的开源音频基础模型,旨在推动音频理解、生成和交互领域的技术进步。这一发布引发了全球AI社区的广泛关注,被认为是多模态AI发展的重要里程碑。以下是对Kimi-Audio核心特性、性能表现及行业影响的全面报道。突破性特性:全能音频处理能力Kimi-Audio-7B-Instruct基于Qwen2.5-7B架构,并结合Whisper技术,展现了强大的多功能性。该模型支持多种音频相关任务,包括但不限于:语音识别(ASR)、音频问答(AQA)、音频字幕(AAC)、语音情感识别(SER)、声音事件
Step1X-Edit:开源图像编辑新标杆 媲美GPT-4o等闭源模型
2025年4月27日,AIbase报道:由Stepfun AI团队推出的Step1X-Edit图像编辑模型于近日正式开源,引发业界广泛关注。这一通用图像编辑框架以其卓越性能和实用的开源特性,展现了媲美GPT-4o和Gemini 2 Flash等闭源模型的潜力。以下是对Step1X-Edit的全面解析,涵盖其技术亮点、应用场景及未来影响。创新技术架构Step1X-Edit采用多模态大语言模型(MLLM)与扩散变换器(DiT)的结合,通过处理用户提供的参考图像和编辑指令,生成高质量的目标图像。其核心创新在于将多模态语言模型的语义理解能力与扩散
GPT-4o图像生成功能现已集成至自定义GPTs
2025年4月26日 AIbase报道:OpenAI近日宣布,其旗舰多模态模型GPT-4o的图像生成功能现已正式集成至ChatGPT的自定义GPTs功能中。这一更新标志着用户创建的定制化AI助手能够直接生成和编辑图像,为内容创作、设计和教育等领域带来更多可能性。无缝集成的图像生成体验GPT-4o的图像生成功能此前已于2025年3月25日起在ChatGPT和Sora平台向免费、Plus、Pro和Team用户逐步开放。与过去依赖DALL-E3等外部模型不同,GPT-4o的图像生成能力内嵌于模型本身,支持直接根据文本提示生成高质量图像。如今,这一功能

AI日报:百度大招!发布文心大模型X1Turbo和AI开放计划;OpenAI免费开放轻量版Deep Research;即梦视频3.0内测
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、李彦宏发布文心大模型双星:X1Turbo 直指 DeepSeek,4.5Turbo 超越 GPT-4o在百度 Create 开发者大会上,李彦宏推出了全新一代文心大模型 X1Turbo,该模型在性能和价格上都具有显著优势。X1Turbo 的输入和输出价格分别为1元和4元,仅为竞品 DeepSeek-R1的25%。此外,文心4.5Turbo 的输入和输出价格更低,分别为

Meta 发布 WebSSL 模型:无语言视觉学习的新探索
在人工智能领域,Meta 公司最近推出了 WebSSL 系列模型,这一系列模型的参数规模从3亿到70亿不等,基于纯图像数据进行训练,旨在探索无语言监督的视觉自监督学习(SSL)的巨大潜力。这一新研究为未来的多模态任务带来了新的可能性,也为我们理解视觉表征的学习方式提供了新的视角。过去,OpenAI 的 CLIP 模型因其在视觉问答(VQA)和文档理解等多模态任务中的优异表现而备受关注。然而,由于数据集的获取复杂性及其规模限制,基于语言的学习方法面临诸多挑战。为了应对这一问题,

OpenAI 因版权争议遭起诉,回应称遵循合理使用
近日,著名数字媒体公司 Ziff Davis 对人工智能公司 OpenAI 提起诉讼,指控其侵犯版权,未经许可使用旗下多个媒体平台的内容进行 AI 模型训练。Ziff Davis 旗下拥有 CNET、PCMag、IGN 和 Everyday Health 等知名品牌,指控 OpenAI 在未经授权的情况下,故意且持续地复制其作品,并用于训练其 AI 产品 ChatGPT。诉状中,Ziff Davis 指出,尽管该公司通过 robots.txt 文件明确禁止网络爬虫抓取其数据,但 OpenAI 依然使用这些内容进行模型训练,并且还涉嫌删除内容中的版权信息。据了解,Ziff Davis 是目前起诉 OpenA