开源声音与音乐生成模型 AudioLDM2 只需提供文本即可生成高质量音频

站长之家
本文来自AIbase日报
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
中国初创公司 Moonshot AI 最近推出了一款名为 Kimi-VL 的开源模型。该模型在处理图像、文本和视频方面表现出色,以其高效的性能引起了广泛关注。Kimi-VL 最大的亮点在于其处理长文档、复杂推理和用户界面的能力。据 Moonshot AI 介绍,Kimi-VL 采用了一种专家混合架构,仅在执行特定任务时激活部分模型。尽管只有2.8亿个活跃参数,但 Kimi-VL 在多个基准测试中表现出与许多大型模型相媲美的结果,其效率远超许多同类产品。Kimi-VL 的最大上下文窗口可达128,000个标记,这使其能够处理整本书籍
4月29日,通义App与通义网页版(tongyi.com)全面上线阿里新一代通义千问开源模型Qwen3(简称千问3)。用户可以第一时间在通义App和网页版中的专属智能体“千问大模型”,以及主对话页面,体验到全球最强开源模型的顶级智能能力。据了解,千问3一经发布便登顶全球最强开源模型。本次发布的千问3开源模型包含8款不同尺寸,均为全新的“混合推理模型”,智能水平大幅提升的同时也更省算力。其中,千问3旗舰模型Qwen3-235B-A22B是一款混合专家(MoE)模型,该模型创下所有国产模型及全球开源
近日,知名音乐样本公司 Splice 宣布,将收购位于伦敦的音响工作室 Spitfire Audio。这一交易标志着 Splice 在音乐创作领域的一次重要布局,尤其是在人工智能音乐制作日益兴起的背景下。Spitfire Audio 以其丰富的管弦乐声音库而闻名,这次收购将为 Splice 提供更多样的音乐素材,进一步丰富其产品线。Splice 成立于2013年,是一家以提供音乐样本、音效以及制作工具为主的科技公司。该公司致力于为音乐制作人提供高质量的音频资源和便捷的制作平台。此次收购的 Spitfire Audio,同样是一家具有良
Google DeepMind正式发布其最新音乐生成模型Lyria2,标志着人工智能在音乐创作领域的又一重大突破。这一全新模型通过高保真音频生成和专业级音质,为音乐家、制作人和创作者提供了更强大的创作工具。Lyria2:高保真音质,捕捉音乐细微之美Lyria2是DeepMind在音乐生成技术上的最新成果,相较于前代模型,它在音质和创作灵活性上实现了显著提升。据DeepMind官方介绍,Lyria2能够生成高保真音乐和专业级音频,覆盖多种音乐风格和复杂编曲,精准捕捉不同乐器和演奏风格的细微差别。无论是古典
微软在其官网上正式开源了 DeepSeek-R1的魔改版 ——MAI-DS-R1。这一新模型在保留原有推理性能的基础上,进行了显著的增强,尤其在对敏感话题的响应能力上取得了巨大的突破。MAI-DS-R1的响应能力达到了99.3%,是原版 R1的两倍多。这一进步将对政治学、社会问题以及伦理道德的研究提供极大的支持。尽管其响应了更多的敏感话题,但在安全风险方面,MAI-DS-R1的有害内容降低了50%,展现出良好的安全控制能力。因此,渴望体验 “放飞自我” 版的用户可以尝试这一模型,探索新的可能性。在模
北京市人工智能产业投资基金宣布在去年已有投资基础上,继续追加投资智谱(Z.ai)2亿元人民币,支持智谱的开源模型研发与开源社区生态建设。智谱是基金成立以来投资的第一家 AI 大模型企业,也是目前成长最快的企业。智谱在包括文本、推理、语音、图像、视频、代码等在内的模型能力上有全面积累,商业化布局完善,拥有超过百万规模的开发者社区和企业用户。
北京市人工智能产业投资基金近日宣布,向北京智谱华章科技股份有限公司(简称"智谱")追加投资2亿元人民币。据基金方面透露,智谱是该基金成立以来投资的第一家AI大模型企业,也是目前成长最快的企业之一。智谱在文本、推理、语音、图像、视频和代码等领域的模型能力建设方面积累深厚,同时拥有完善的商业化布局,已经建立了超过百万规模的开发者社区和企业用户基础。此次投资旨在进一步推动智谱在开源模型和算法创新方面的能力建设。4月14日,智谱开源了32B/9B系列GLM模型
智谱技术团队宣布开源32B 和9B 系列的 GLM(General Language Model)模型,并正式上线了全新的交互体验平台 Z.ai。这一系列模型包括基座模型、推理模型和沉思模型,均遵循宽松的 MIT 许可协议,为开发者提供了极大的使用和开发自由度,可免费用于商业用途和自由分发。
近日,AI代码生成领域掀起了一波开源热潮,多款重量级模型接连亮相,其中Deep Cogito推出的Cogito v1Preview系列尤为引人注目。据AIbase了解,这一全新开源模型家族涵盖3B、8B、14B、32B和70B等多种规格,不仅在性能上全面超越同级别竞争者,其70B版本更是力压Meta最新发布的Llama4109B MoE模型,成为业界热议的焦点。这一系列模型的发布,不仅为开发者提供了强大的编程利器,也预示着AI技术在编码领域的全新突破。多规格覆盖,性能领跑行业Cogito v1Preview系列提供了从3亿到70亿参数的多种选择,满
2025年4月8日,英伟达推出Llama3.1Nemotron Ultra253B,这一基于Llama-3.1-405B优化的开源模型以253亿参数超越Meta的Llama4Behemoth和Maverick,成为AI领域焦点。该模型在GPQA-Diamond、AIME2024/25及LiveCodeBench等测试中表现卓越,推理吞吐量达DeepSeek R1的四倍。通过优化训练和算法,英伟达证明高效设计可让小模型媲美巨型对手。Llama3.1Nemotron Ultra253B通过HuggingFace开放权重,并采用商业友好许可。英伟达此举不仅便利开发者,也推动了AI技术的广泛应用和生态发展。以较小参数挑战万亿级模型,该模型展现“少即是多