字节跳动联合北京大学的研究团队在arXiv发表论文,介绍了他们用于训练大语言模型的生产系统MegaScale。MegaScale搭建了超过10000块GPU的单一集群,实现了55.2%的模型FLOP利用率。该系统还包含一套诊断工具用于监控系统组件和事件,找出根本原因,并实现容错和缓解滞后问题。
字节跳动联合北京大学的研究团队在arXiv发表论文,介绍了他们用于训练大语言模型的生产系统MegaScale。MegaScale搭建了超过10000块GPU的单一集群,实现了55.2%的模型FLOP利用率。该系统还包含一套诊断工具用于监控系统组件和事件,找出根本原因,并实现容错和缓解滞后问题。
最近,AI 大型语言模型(LLM)在各种任务中表现出色,写诗、写代码、聊天都不在话下,简直是无所不能!但是,你敢相信吗?这些“天才”AI 居然是“数学菜鸟”!它们在处理简单的算术题时经常翻车,让人大跌眼镜。一项最新的研究揭开了 LLM 算术推理能力背后的“奇葩”秘诀:它们既不依赖强大的算法,也不完全依靠记忆,而是采用了一种被称为“启发式大杂烩”的策略! 这就好比一个学生,没有认真学习数学公式和定理,而是靠着一些“小聪明”和“经验法则”来蒙答案。研究人员以算
随着 ServiceTitan 向美国证券交易委员会提交首次公开募股(IPO)申请文件,该公司在风险因素部分特别提到了大型语言模型(LLMs)可能带来的潜在风险。此类警告或许标志着未来 IPO 文档中的新标准:使用 AI 技术的同时也伴随风险。在 ServiceTitan 的申请文件中,有一段长达1150字的风险提示,详细阐述了其使用生成性 AI 的可能负面影响。公司警告称,LLMs 可能产生 “虚假” 信息,并可能表现出 “歧视性” 行为。此外,使用这些模型可能涉及侵犯他人的版权或知识产权,而在数据的使用上,若不
近日,字节跳动研究院和清华大学的研究人员联合发布了一项新研究,指出目前的 AI 视频生成模型,比如 OpenAI 的 Sora,虽然能创造出令人惊叹的视觉效果,但在理解基本物理规律方面却存在重大缺陷。这项研究引发了人们对 AI 在模拟现实时能力的广泛讨论。研究团队对 AI 视频生成模型进行了测试,设定了三种不同的场景,分别是已知模式下的预测、未知模式下的预测,以及熟悉元素的新组合。他们的目标是看看这些模型是否真的学习了物理规律,还是仅仅依赖于训练中的表面特征。通过
在当今科技领域,CLIP(Contrastive Language-Image Pre-training)是一个重要的多模态基础模型。它通过在大规模图像 - 文本对上使用对比学习损失,将视觉信号和文本信号结合到一个共享的特征空间中。CLIP 作为检索器,能够支持零 - shot 分类、检测、分割和图像 - 文本检索等多种任务。同时,作为特征提取器,它在几乎所有跨模态表示任务中占据主导地位,例如图像理解、视频理解以及文本到图像或视频生成。CLIP 的强大之处在于它能够将图像与自然语言相连接,并捕捉人类知识,这得益于其在大