阿里通义Qwen团队推出Soft Adaptive Policy Optimization(SAPO),旨在解决大语言模型强化学习中策略优化不稳定的问题。相比传统硬剪切方法,SAPO通过自适应调整更新幅度,避免过于严格限制,提升训练稳定性和效率。
京东云JoyBuilder平台升级,成功支撑GR00T N1.5模型完成千卡级训练,成为行业首家支持具身智能千卡级LeRobot开源训练框架的AI开发平台。训练效率较开源社区版本提升3.5倍,通过软硬件深度调优和算法突破,大幅提升训练效率与稳定性,显著缩短训练时间。
OpenAI收购初创公司Neptune,后者专注于AI模型训练监控与调试工具开发,旨在提升训练效率与准确性。双方此前合作开发了指标仪表盘,为基础模型团队提供支持。Neptune首席执行官皮奥特・涅兹维耶茨对此表示肯定。
未来不远公司推出F1机器人,具备22个关节和轮式底盘,能自动执行起床任务,如推床、拉窗帘、热牛奶等,全程无需遥控。它还能扫地、哄娃,续航8小时,通过RVLA模型离线训练动作,遇障碍自动重试,提升家务效率。
Steev 是一款用于优化 AI 模型训练的工具,帮助用户提升训练效率和模型性能。
AI驱动的训练和评估平台,提升员工培训效率。
Google
$2.1
Input tokens/M
$17.5
Output tokens/M
1k
Context Length
$0.7
$2.8
Alibaba
$8
$240
52
$2
-
256
Tencent
$0.75
$3
$9
16
$2.4
$9.6
32
Huawei
$1.6
$4
128
4
Anthropic
$21
$105
200
Stepfun
$12
28
Minimax
$16
Baidu
$1
$10
MedSwin
本项目是使用mergekit对预训练语言模型进行合并的成果,结合了多个医学领域的预训练模型,为医学问答任务提供了更强大的支持,可有效提升医学问题回答的准确性和效率。
QuantTrio
DeepSeek-V3.2-Exp-AWQ是基于DeepSeek-V3.2-Exp模型的量化版本,通过vLLM框架实现高效文本生成。该模型引入了DeepSeek稀疏注意力机制,在长上下文训练和推理效率上有显著提升,同时保持了模型输出质量。
deepseek-ai
变换器库是一个强大的自然语言处理工具库,提供丰富的预训练模型和便捷的使用接口,广泛应用于文本生成、分类、翻译等NLP任务,极大提升开发效率。
Mungert
MiniCPM4.1-8B GGUF是专为端侧设备设计的高效大语言模型,在模型架构、训练数据、训练算法和推理系统四个关键维度进行了系统创新,实现了极致的效率提升。支持65,536个标记的上下文长度和混合推理模式。
cpatonn
Llama-3.3-Nemotron-Super-49B-v1.5是基于Meta Llama-3.3-70B-Instruct的大语言模型,经过多阶段后训练增强了推理、聊天偏好和代理任务能力。采用神经架构搜索技术,在保持高准确性的同时显著提升效率,支持128K令牌上下文长度和多语言处理。
RedHatAI
专为Qwen/Qwen3-8B设计的推测解码模型,采用EAGLE-3算法提升文本生成效率和质量,通过多个优质数据集训练获得优秀的泛化能力
MiniCPM4-8B是专为端侧设备设计的高效大语言模型,通过模型架构、训练数据、训练算法和推理系统四个维度的创新,实现了极致的效率提升。
openbmb
MiniCPM4是专为端侧设备设计的高效大语言模型,通过系统创新在模型架构、训练数据、训练算法和推理系统四个关键维度实现极致的效率提升。
MiniCPM4是专为端侧设备设计的高效大语言模型,通过系统创新在模型架构、训练数据、训练算法和推理系统四个维度实现极致效率提升,在端侧芯片上可实现超5倍的生成加速。
GSAI-ML
LLaDA 1.5是一款通过方差缩减偏好优化(VRPO)方法训练的大型扩散语言模型,专注于提升文本生成的质量和效率。
nvidia
基于Meta Llama-3.1-405B-Instruct开发的高效大语言模型,经过多阶段后训练提升推理和非推理能力,在准确性和效率之间取得良好平衡,支持128K上下文长度,适用于商业用途。
microsoft
微软研究院开发的首个开源20亿参数规模原生1比特大语言模型,在4万亿token语料上训练完成,证明了原生1比特大语言模型在保持与同规模全精度开源模型相当性能的同时,能显著提升计算效率。
由微软研究院开发的开源原生1位大语言模型,参数规模达20亿,在4万亿token的语料库上训练而成,显著提升计算效率。
zhangchenxu
基于Qwen/Qwen2.5-1.5B-Instruct模型进行微调,使用了TinyV奖励系统,能在高效强化学习(RL)后训练中提供更准确的奖励信号,显著提升RL效率和最终模型性能。
summykai
基于mlabonne/gemma-3-27b-it-abliterated微调的大语言模型,采用Unsloth加速框架和Huggingface的TRL库进行训练,效率提升2倍。
attn-signs
基于Qwen2.5架构优化的俄语文本生成模型,采用LoRA适配器进行两阶段训练,显著提升俄语生成效率
HoangHa
Pensez是一个英法双语推理模型,通过显著减少训练数据来最大化效率。该模型基于Qwen 2.5 Instruct 7B构建,专注于日常推理任务和科学问题,采用简洁推理和扩展推理等优化策略提升性能。
Eagle2是NVIDIA推出的高性能视觉语言模型家族,专注于通过数据策略和训练方案提升开源视觉语言模型的性能。Eagle2-2B是该系列中的轻量级模型,在保持强劲性能的同时实现卓越效率和速度。
suayptalha
Komodo是基于Qwen 2.5-7B-Instruct微调的数学增强模型,在TIGER-Lab/MathInstruct数据集上训练,专门提升数学问题解决能力,采用4比特量化技术优化推理效率。
namangarg110
Hiera是一种高效的分层式Transformer架构,通过MAE训练优化空间偏置特性,显著提升参数利用效率