AI产品榜

AI产品榜

搜索全球AI产品动态

搜索全球AI信息，发现AI新机遇

新闻资讯
产品应用
变现案例
AI教程

类型 :

新闻资讯
产品应用
变现案例
AI教程

2025-02-10 10:31:26.AIbase

腾讯申请“大语言模型训练方法”专利，提升模型泛化能力与准确性

天眼查App显示，腾讯科技（深圳）有限公司近日申请了一项名为“大语言模型的训练方法、装置、计算机设备及存储介质”的专利。这项专利的摘要揭示了该方法通过引入第一摘要文本和第二摘要文本，在大语言模型的训练过程中为模型提供更多可学习的信息。根据专利描述，第一摘要文本和第二摘要文本所包含的信息量不同，其中第一摘要文本中还包含了正确语句和错误语句。通过对同一文本的这两个不同摘要进行对比学习，并区分学习其中的正确语句与错误语句，能够有效避免摘要文

腾讯申请“大语言模型训练方法”专利，提升模型泛化能力与准确性

2025-02-08 17:52:43.AIbase

腾讯发布大语言模型训练新专利，提升模型泛化与准确性

近日，腾讯科技（深圳）有限公司在天眼查 App 上公布了一项关于大语言模型的训练方法及相关设备的专利。这项专利的名称为 “大语言模型的训练方法、装置、计算机设备及存储介质”，旨在通过创新的训练方式，提升大语言模型的学习能力和准确性。在大语言模型的训练过程中，传统方法往往依赖于单一的文本摘要，可能导致模型过拟合，生成内容的准确性和多样性受到影响。然而，腾讯的新方法引入了两种不同的信息来源 —— 第一摘要文本和第二摘要文本。这两个摘要文本的信息

腾讯发布大语言模型训练新专利，提升模型泛化与准确性

2025-02-06 13:59:48.AIbase

重磅！斯坦福等高效联手推出AI训练新方法S1，成本暴降性能飙升！

斯坦福大学和华盛顿大学的研究团队近日联合发布了一项突破性的AI训练方法，该方法名为S1，其核心理念在于利用极简的测试时缩放技术来显著提升语言模型的推理能力。与以往依赖庞大算力或复杂算法不同，S1方法巧妙地通过控制模型在测试时的计算资源分配，实现了性能的飞跃。S1方法首先精心构建了一个名为s1K的小型数据集，其中包含1000个高质量的推理问题。该数据集的筛选标准非常严格，必须同时满足难度高、多样性强、质量优良三个条件。研究团队通过详尽的消融实验验证了这

重磅！斯坦福等高效联手推出AI训练新方法S1，成本暴降性能飙升！

2024-10-14 16:32:13.AIbase

以前的训练方法是错的？用REPA训练效率提升17.5倍

扩散模型（Diffusion Model）作为AI绘画领域的"顶流"技术，一直以其卓越的生成效果备受瞩目。然而，其漫长的训练过程一直是制约其进一步发展的瓶颈。近日，一项名为REPA（REPresentation Alignment）的创新技术为解决这一问题带来了突破性进展，有望将扩散模型的训练效率提升17.5倍。扩散模型的核心原理是通过逐步向图像添加噪声，然后训练模型反向还原出清晰图像的过程。这种方法虽然效果显著，但训练过程耗时耗力，往往需要数百万步的迭代才能达到理想效果。研究人员发现，这一问题的

以前的训练方法是错的？用REPA训练效率提升17.5倍

2024-08-16 09:26:00.AIbase

英伟达开源新突破：新模型训练算力节省1.8倍！

英伟达开源了两款新型大模型Nemotron-4-Minitron-4B和Nemotron-4-Minitron-8B，采用结构化剪枝和知识蒸馏高效训练方法，显著降低训练需求，减少数据和算力消耗。与传统方法相比，新模型的训练token数据减少40倍，算力成本节省1.8倍。通过优化Llama-3.18B，结构化剪枝简化模型结构，知识蒸馏提升性能，Minitron-4B和Minitron-8B在MMLU上的评分提升16%，性能媲美Mistral7B等知名模型。这一开源举措展示了英伟达在AI领域的领导地位，并为AI社区提供了宝贵资源，推动AI技术向更高效、更智能方向发展。

英伟达开源新突破：新模型训练算力节省1.8倍！

2024-07-02 11:10:12.AIbase

北大等提出医疗专家模型训练方法将8B模型提升至GPT-4级性能

北大和香港科技大学的团队搞了个大新闻，他们提出了一种训练方法，让8B尺寸的医疗专家模型达到了GPT-4级的性能。这可不是小打小闹，他们还引入了一个新概念——「稳定性差距」，来解释大语言模型在持续预训练过程中出现的一些现象。

北大等提出医疗专家模型训练方法将8B模型提升至GPT-4级性能

2023-11-01 10:15:47.AIbase

研究团队提出新训练方法，提高DALL-E3图像生成能力

["研究团队提出全新训练方法，增强DALL-E3的图像生成能力。","方法结合了合成标题和真实标题，解决了空间感知和文本呈现问题。","高级语言模型如GPT-4在提高文本质量和深度方面发挥关键作用。","研究展示了DALL-E3在图像生成质量和准确性方面的显著改进。","这一策略为未来文本到图像生成技术的持续发展奠定基础。"]