大模型公司正在加大对“长文本”处理能力的研发,但真正的挑战在于如何克服Transformer结构的限制。这一趋势将为金融、司法、科研等领域带来更深层次的应用。
大模型公司关注“长文本”:上下文长度的真正挑战在Transformer结构

大模型公司正在加大对“长文本”处理能力的研发,但真正的挑战在于如何克服Transformer结构的限制。这一趋势将为金融、司法、科研等领域带来更深层次的应用。
月之暗面研究员Flood Sung近日发表万字长文,首次详细披露了k1.5模型的研发思路,并就OpenAI o1模型带来的技术启示进行深度反思。据Flood Sung介绍,Long-CoT(长链条思维)的重要性其实早在一年多前就已被月之暗面联合创始人Tim周昕宇验证。通过使用小型模型训练多位数运算,并将细粒度运算过程转化为长链条思维数据进行SFT(有监督微调),就能获得显著效果。然而,受限于成本考虑,月之暗面此前将重点放在了Long Context(长文本输入)的优化上。Flood Sung解释道,Long Context主要处理输入端,
据报道,美国商务部将智谱AI列入出口管制实体清单,指控其推动中国军事现代化,侵犯美国国家安全与外交利益。**这一决定使智谱AI成为首家被列入美国实体清单的中国大模型公司,标志着美国对中国人工智能产业的新一轮打压。智谱AI随后发布声明,强调公司源自清华大学的技术成果转化,并详细回顾了其技术发展历程。智谱AI自2020年起开始研发 GLM预训练架构,2022年推出开源的 GLM-130B模型,并在2023年发布 ChatGLM,至2024年推出 GLM-4 和 GLM-4-Plus 等新一代大模型。智谱AI表示,尽管遭遇美
字节跳动旗下豆包大模型于今日发布2024年度技术进展报告,透露其最新版本Doubao-pro-1215在综合性能上已经实现与GPT-4的全面对齐,并在部分专业领域表现出更强的能力。这一进展标志着中国大模型技术正式跻身全球第一梯队。自今年5月首次亮相以来,豆包大模型仅用7个月时间就实现了32%的能力提升。据官方介绍,通过优化海量数据处理和创新模型架构,包括提高模型稀疏度和引入强化学习等技术手段,豆包在理解精度和生成质量方面都取得了显著进步。特别是在数学和专业知识等复杂场
在2024年12月19日的发布会上,智源研究院与腾讯宣布推出LongBench v2,这是一个专为评估大语言模型(LLMs)在真实世界长文本多任务中的深度理解与推理能力而设计的基准测试。该平台旨在推动长文本模型在理解和推理方面的进步,回应了当前长文本大语言模型在应用中的挑战。