富士康旗下的鸿海研究院近日发布了一款全新的传统中文大型语言模型(LLM)——FoxBrain。这一模型的推出引起了业界的广泛关注,标志着在中文人工智能领域的一次重要进展。FoxBrain 的训练过程在短短四周内完成,展示了强大的技术能力和高效的研发速度。图源备注:图片由AI生成,图片授权服务商MidjourneyFoxBrain 的研发旨在提升传统中文的处理能力,满足日益增长的市场需求。在互联网及社交媒体的推动下,中文内容的生成和处理对技术的要求越来越高,FoxBrain 的推出正是为了应对这种
AI21Labs 近日发布了其最新的 Jamba1.6系列大型语言模型,这款模型被称为当前市场上最强大、最高效的长文本处理模型。与传统的 Transformer 模型相比,Jamba 模型在处理长上下文时展现出了更高的速度和质量,其推理速度比同类模型快了2.5倍,标志着一种新的技术突破。Jamba1.6系列包括 Jamba Mini(12亿参数)和 Jamba Large(94亿参数),并且专门针对商业应用进行了优化,具备函数调用、结构化输出(如 JSON)和基于现实的生成能力。这些模型的应用范围广泛,从企业级的智能助手到学术研究,均能发挥
近年来,基于 Transformer 架构的大型语言模型(LLMs)取得了显著进展,诸如 Gemini-Pro1.5、Claude-3、GPT-4和 Llama-3.1等新模型能够处理成百上千的token。然而,这些扩展的上下文长度带来了实际应用中的一些重大挑战。随着序列长度的增加,解码延迟上升,内存限制也成为了一个严重的瓶颈。KV 缓存在推理过程中储存上下文信息,随着上下文长度的增加,缓存的大小也呈比例增长,这导致内存饱和,严重影响了处理长输入序列的效率,因此迫切需要优化解决方案。虽然市场上存在一些无训练的方
阿里巴巴达摩院开源了一款多语言大型语言模型Babel,其宏伟目标正是弥合语言鸿沟,让AI能够理解并使用全球九成以上人口的语言进行交流。当前许多大型语言模型往往更青睐英语、法语、德语等资源丰富的语言。然而,如同全球会议中鲜少被提及的小语种使用者一样,印地语、孟加拉语、乌尔都语等拥有庞大用户群体的语言在AI领域也常常被忽视。阿里巴巴的Babel正是要改变这种局面。它支持全球使用人数最多的前25种语言,覆盖了超过90%的世界人口。更值得称赞的是,Babel还将目光投向