亚马逊训练比GPT-4参数多两倍的大型语言模型Olympus

站长之家

发布于AI新闻资讯 · 1 分钟阅读 · 2023年11月9号 11:04

据站长之家11月9日消息,亚马逊正在秘密开发一个代号为“Olympus”的大型语言模型,参数高达惊人的2万亿个,是OpenAI最新推出的GPT-4参数的两倍。这将使Olympus成为当前公开的模型参数最多的之一。亚马逊拥有云计算领域的雄厚实力,有望通过Olympus在AI领域掀起波澜。但参数数量并不能决定一个模型的优劣,关键还取决于模型结构设计和训练数据质量。目前Olympus的详细情况以及亚马逊的发布时间表还不明确,业界将继续关注其动向。

字节跳动发布豆包大模型1.5Pro，性能超越GPT-4o与Claude3.5Sonnet

字节跳动正式推出其最新的豆包大模型1.5Pro（Doubao-1.5-pro），这一新模型在多个领域的综合能力上表现出色，成功超越了行业内知名的 GPT-4o 和 Claude3.5Sonnet。该模型的发布标志着字节跳动在人工智能领域又向前迈出了重要一步。豆包1.5Pro 采用了新型的稀疏 MoE（混合专家）架构，使用较小的激活参数进行预训练。这种设计的创新之处在于其可以提供等效于7倍激活参数的 Dense 模型性能，使其在效率上远超行业常规的 MoE 架构，带来了约3倍的效率提升。这样的设计使得豆包大模型在知识、代码

英语文学毕业生开发AI工具，轻松解读Twitter个人简介

在当今数字化的世界里，短文本的使用已成为在线交流的核心。然而，由于这些文本往往缺乏共同的词汇或背景，使得人工智能（AI）在分析时面临诸多挑战。对此，悉尼大学的一名英语文学研究生兼数据科学家贾斯汀・米勒(Justin Miller)提出了一种新方法，利用大型语言模型(LLMs)对短文本进行深入理解和分析。米勒的研究重点在于如何将大量短文本，如社交媒体个人资料、顾客反馈或与灾难事件相关的在线评论，进行有效的分类。他开发的 AI 工具可以将数以万计的 Twitter 用户个人简介聚类

谷歌发布Titans:仿生设计突破200万Token上下文长度

谷歌研究院近日发布了革新性的"Titans"系列模型架构，通过仿生设计实现了突破性的200万Token上下文长度，并计划在未来开源相关技术。这一架构的核心创新在于引入深度神经长期记忆模块，其设计灵感来源于人类记忆系统。Titans巧妙地结合了短期记忆的快速响应能力和长期记忆的持久性特征，同时运用注意力机制来处理即时上下文，形成了一个高效的信息处理体系。据谷歌介绍，Titans在长序列处理任务中展现出显著优势。无论是在语言建模还是时间序列预测方面，这一架构都实现了突破性

豆包App推出新语音模式，抢先GPT-4o实现唱歌和角色扮演

2025年1月20日，豆包 App 正式发布了其最新的 “端到端” 语音大模型，并对实时语音通话功能进行了重要更新。这一进展标志着豆包在语音交互领域的又一次飞跃，超越了之前的 ASR（自动语音识别）、LLM(大语言模型)和 TTS(文生音频)的级联方案，将语音识别、理解和生成整合在同一个模型中。经过《智能涌现》的测试，新版豆包的最大亮点在于其具备了人类般的表达能力和情感输出，提升了对话的流畅度与智能水平。尤其是 “灵魂歌手” 和 “百变大咖” 模式，让豆包不仅能够进行唱歌，