AI新闻资讯

AI资讯

不错过全球AI革新的每一个时刻

AI日报

每天三分钟关注AI行业趋势

AI时间线

AI行业大事记

AI变现指南

图片合集

AI图片制作变现案例分享

视频合集

AI视频制作变现案例分享

音频合集

AI音频制作变现案例分享

文案合集

AI内容写作变现案例分享

AI教程

AI产品榜

AI产品排行榜

展示AI网站的总访问量排名

AI产品流量增速榜

追踪AI网站访问量增长最快产品

AI产品流量下降榜

关注访问量下降明显的AI网站

AI产品周榜

展示AI网站的周访问量排名

AI开源项目库

全景图

github热门AI开源项目总览

产品库工具导航

比GPT-4还强,20亿参数模型做算术题,准确率几乎100%

学术头条

发布于AI新闻资讯 · 1 分钟阅读 · Sep 19, 2023

学术头条报道,来自清华大学、TAL AI Lab和智谱AI的研究者提出了20亿参数语言模型MathGLM,用于探索大语言模型在数学推理方面的效率。该模型采用Transformer解码器架构,在大规模算术数据集上训练,数学运算能力得到显著提升。实验结果表明,MathGLM在一系列算术运算任务上的准确率接近100%,明显优于GPT-4。即使参数量只有1亿,MathGLM也优于GPT-4和ChatGPT。研究还发现,随着参数量的增加,MathGLM的算术运算能力也在增强。在处理数字格式复杂的混合算术运算时,MathGLM也优于GPT-4和ChatGPT。该研究表明,语言模型在 Parameter 和数据量足够大的条件下,可以准确地进行复杂的数学运算。

语言模型算术运算 MathGLM

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

Gemini-2.5-pro在MathArena评测中展现卓越数学能力远超其他模型

2025年4月3日消息：根据MathArena最新发布的大语言模型数学能力评测结果显示，Google的Gemini-2.5-pro以绝对优势领跑，在未污染的高难度数学竞赛中展现出令人瞩目的表现。突破性成绩Gemini-2.5-pro在MathArena平台的严格评测中取得了24.40%的准确率，这一成绩不仅位居榜首，更是与第二名DeepSeek-R1 的4.76%形成鲜明对比，领先优势达到惊人的五倍之多。这一突破性成绩表明Gemini-2.5-pro在高级数学推理能力上实现了质的飞跃。多项竞赛中的优异表现特别值得关注的是，Gemini-2.5-pro在"AIME 2025 I"竞赛测试中取

2025年4月3号 14:00

1.4k

OpenAI推出AI Agent评测基准PaperBench

OpenAI 团队推出了一个名为 PaperBench 的基准测试，旨在评估AI代理在复制先进 AI 研究方面的能力。该测试要求 AI 代理从头开始复制20篇2024年国际机器学习会议（ICML）中的重点和口头论文，整个过程涉及理解论文贡献、开发代码库以及成功执行实验。为确保评估的客观性，研究人员设计了详细的评分标准。这些标准将每项复制任务分解为多个层级的子任务，并设定明确的评分标准。PaperBench 一共包含8316个可以单独评分的任务，所有评分量规均与每篇论文的作者合作开发，以保证其准确性和真

2025年4月3号 9:31

3.1k

GPT-4.5首度以“人格扮演”通过图灵测试：AI对话能力迈向新高度

近日，一项由加州大学圣地亚哥分校认知科学系主导的研究为人工智能领域带来了里程碑式的突破:OpenAI最新模型GPT-4.5在标准图灵测试中，以“人格扮演”方式首次实现了超越人类的表现，成为目前最具类人对话能力的AI系统。这一成果不仅刷新了人们对AI语言能力的认知，也为AI在社会智能领域的应用潜力打开了新的想象空间。此次实验选取了四款具有代表性的AI系统进行对比测试，包括经典的1960年代聊天机器人ELIZA、Meta AI研发的LLaMa-3.1-405B，以及OpenAI的GPT-4o和GPT-4.5。研究人员设计了两组

2025年4月2号 14:19

4.4k

英伟达AI研究人员推出FFN融合技术:加速大型语言模型推理

人工智能芯片巨头英伟达的研究人员近日发布了一项名为“FFN融合”（FFN Fusion）的创新架构优化技术。该技术旨在通过解决Transformer架构中固有的串行计算瓶颈，显著提升大型语言模型（LLMs）的推理效率，为更广泛地部署高性能AI应用铺平道路.近年来，大型语言模型在自然语言处理、科学研究和对话代理等领域展现出强大的能力。然而，随着模型规模和复杂性的不断增加，其推理过程所需的计算资源也大幅增长，导致了效率瓶颈。Transformer架构是LLM的基础，其交替的注意力机制和前馈网络

2025年3月31号 13:48

1.9k

研究发现:RAG系统中文档数量影响AI语言模型性能

耶路撒冷希伯来大学的研究人员最近发现，在检索增强生成（RAG）系统中，即使总文本长度保持不变，处理的文档数量也会显著影响语言模型的性能。研究团队利用MuSiQue验证数据集中的2，417个问题进行实验，每个问题链接到20个维基百科段落。其中两到四段包含相关答案信息，其余段落作为干扰项。为研究文档数量的影响，团队创建了多个数据分区，逐步将文档数量从20个减少到最少只保留包含相关信息的2-4个文档。为确保总标记数一致，研究人员使用原始维基百科文章的文本扩展了保留

2025年3月31号 10:42

1.3k

告别AI“一本正经”!Midjourney联手NYU解锁创意文本新维度，多样性飙升23%!

Midjourney 和纽约大学的研究人员近日联手开发出一种创新方法，旨在显著提升语言模型生成创意文本的多样性，同时将质量损失控制在最低限度。这项发表在最新研究论文中的技术，核心在于将“偏差指标”引入人工智能的训练过程。其运作原理是通过量化每个生成的文本与针对同一提示创建的其他文本之间的差异。研究人员利用嵌入文本及其成对余弦距离来计算这些差异，从而为系统提供了一种理解文本变异性的数学框架。这种新的训练方法能够评估大型语言模型（LLM）响应之间的差异

2025年3月31号 10:34

1.1k

谷歌 AI 发布 TxGemma:全新大规模语言模型助力药物开发

药物开发是一个复杂且成本高昂的过程，伴随着高失败率和漫长的开发周期。传统的药物发现过程需要从靶点识别到临床试验的各个阶段进行大量的实验验证，这往往消耗大量的时间和资源。然而，随着计算方法，特别是机器学习和预测建模的兴起，这一过程有望得到优化。为了应对当前计算模型在多种治疗任务中的局限性，谷歌 AI 推出了 TxGemma，这是一个专为药物开发中的各种治疗任务设计的通用大规模语言模型（LLM）系列。TxGemma 的独特之处在于，它整合了来自不同领域的数据集，包

2025年3月28号 14:32

2.1k

开源模型逆袭：Databricks TAO 技术微调 Llama 超越 GPT-4o

近日，数据智能公司 Databricks 推出了一种全新的大语言模型微调方法 ——TAO（Test-time Adaptive Optimization），这一技术的出现为开源模型的发展带来了新的希望。通过运用无标注数据和强化学习，TAO 不仅在降低企业成本方面表现出色，更是在一系列基准测试中取得了令人瞩目的成绩。根据科技媒体 NeoWin 的报道，TAO 微调后的 Llama3.370B 模型在金融文档问答和 SQL 生成等任务中，展现出了优于传统标注微调方法的性能，甚至逼近了 OpenAI 的顶级闭源模型。这一成果标志着开源模型在与商用 AI 产品

2025年3月27号 14:39

2.2k

亚马逊推出个性化购物提示，推动生成式 AI 应用

亚马逊近日在其购物工具中进一步融合了人工智能，以鼓励消费者增加购买。该公司在周三宣布推出新功能 “兴趣”，旨在打造个性化和对话式的搜索体验。通过这一新功能，用户可以在搜索栏中输入与自身兴趣、偏好甚至预算相关的定制化提示。例如，用户可以搜索 “适合爱好者的模型制作套件及配件” 或 “咖啡爱好者的冲泡工具和小玩意”。“兴趣” 功能利用大型语言模型（LLMs），将日常语言转换为传统搜索引擎可以理解的查询，从而提供更相关的产品建议。此外，该工具会在后

2025年3月27号 10:44

5.5k

亚马逊 Alexa 基金扩展投资范围，青睐人工智能初创企业

亚马逊于2015年成立了 Alexa 基金，最初旨在支持早期语音技术初创企业。随着大型语言模型的崛起以及亚马逊推出基于生成性人工智能的 Alexa+，该基金决定扩展投资范围，更多地关注人工智能初创企业。Alexa 基金负责人保罗・伯纳德表示，随着人工智能的迅速发展，基金的使命已经超越了最初的语音技术，开始投资包括人工智能硬件和智能助手等多个领域。伯纳德指出:“虽然 Alexa 基金的使命已经随着时间的推移而演变，但人工智能的快速发展为我们提供了一个关键的转折点，使基金能够

2025年3月27号 10:01

930

AI资讯

AI日报

AI时间线

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图