类型 :
- 新闻资讯
- 产品应用
- 变现案例
- AI教程
2024-07-29 11:34:37.AIbase.10.6k
Llama 4启动训练 Meta科学家揭秘Llama 3.1训练背后的故事
Meta的科学家Thomas Scialom揭示了Llama3.1的开发秘诀,其405B的参数规模是为了对抗GPT-4。通过增加训练的token数而非架构,Llama3.1实现了模型规模与训练数据总量的优化平衡,达到了知识深度与广度的飞跃。数据选择上,Scialom更倾向于合成数据而非公开互联网文本。Llama3.1的评估与改进采用奖励模型和多样化基准,同时引入了Toolformer等agent工具的开发,标志着AI领域的创新探索。Llama3.1的开源是Meta对未来AI的一次大胆尝试。Llama4的启动将重点放在agent技术上,预示着Meta在AI领域的持续领导地位和未来AI的重新定义。
2024-03-06 16:53:05.AIbase.6.4k
OpenAI与DeepMind的Scaling Laws之争
["OpenAI和DeepMind在Scaling Laws研究中的观点和方法不同","Scaling Laws能预测大模型在参数量、数据量和计算量变动时的损失变化","竞争将推动人工智能发展和人机共存的未来塑造","大语言模型的预训练涉及模型大小、数据量、训练成本的权衡博弈","Scaling Laws可以帮助优化设计决策","DeepMind提出模型大小和数据量应按相等比例扩展,OpenAI倾向选择更大的模型","DeepMind开发了AlphaGo和AlphaFold,展示深度强化学习和神经网络潜力","OpenAI开发了GPT系列模型,展示在生成式模型上的能力","研究结论表明影响模型性能的三个要素相互影响","DeepMind的Chinchilla模型优于之前的大语言模型","国内百川智能和明德大模型也在Scaling Laws研究中有所贡献","DeepMind提出Levels of AGI分类方法,揭示人工智能不同发展阶段"]