zh
红薯智语
每月不到10元,就可以无限制地访问最好的AIbase。立即成为会员
首页
AI资讯
AI日报
变现指南
AI教程
AI工具导航
AI产品库
zh
红薯智语
搜索全球AI产品动态
搜索全球AI信息,发现AI新机遇
新闻资讯
产品应用
变现案例
AI教程
类型 :
新闻资讯
产品应用
变现案例
AI教程
2024-07-18 13:54:07
.
AIbase
.
10.3k
微软Q-Sparse模型:8B参数性能直逼7B模型 训练微调轻松搞定!
大型语言模型(LLMs)因出色的自然语言处理能力而闻名,但在实践中,它们的推理阶段面临高计算成本和内存占用的挑战。为了提高LLMs效率,研究人员引入了一项名为 Q-Sparse 的技术。Q-Sparse 方法通过在激活中应用 top-K 稀疏化和直通估计器,实现了完全稀疏激活的状态压缩,显著提升推理效率。研究发现,Q-Sparse 能在保持结果与 baseline LLMs相当的条件下,提高推理效率。这种方法适用于全精度和 1 位(如 BitNet b1.58)LLMs。 稀疏激活通过减少矩阵乘法和输入/输出传输量来提高效率。Q-Sparse 在每个线性投影中实现全激活稀疏化,通过 top-K 稀疏化函数实现与反向传播中梯度计算的直通估计器相结合,进一步提高了激活稀疏性。采用平方 ReLU 函数提高激活稀疏性。 实验结果揭示,随着模型大小和稀疏比率的增加,稀疏激活模型的性能提高,这也适用于从头开始训练、已有的 LLMs 继续训练和微调。Q-Sparse 还被应用于包括 BitNet b1.58 和混合专家(MoE)在内的 LLMs,并探索兼容批量模式的优化以增加训练和推理的灵活性。
2024-07-12 09:36:37
.
AIbase
.
10.2k
大语言模型推理能力被高估了 在不熟悉场景中有很大的弱点
近期,麻省理工学院研究团队对大型语言模型(LLMs)在不同任务下的表现进行了深入探讨。研究发现,LLMs在熟悉任务上表现良好,但却在面对非典型或未知情境时显现出推理能力的严重局限。通过比较“默认任务”与“反事实场景”,以及调整任务设计以测试模型反应,结果表明,尽管模型在十进制算术运算相当出色,但在非十进制环境以及音乐、空间推理和国际象棋等其他任务中表现出完全不同的表现。模型的不稳定表现和对训练数据的直接记忆依赖,揭示了其在面对变动环境中较为有限的逻辑应用能力。研究主要作者指出,LLMs更加擅长于在熟悉场景下利用已知信息,而非灵活运用逻辑推理处理环境变化。这一发现对未来模型设计具有重要意义,尤其是在适应性和多任务处理能力提升方面,并指出了研究领域的新方向,力图构建更具普适性和鲁棒性的AI模型原型,应对真实世界复杂多变的挑战。当前研究的局限性在于对候选模型评估的维度和环境的限制,未来需进一步扩大评估范围,以全面揭示模型在真实世界应用中的潜在限制。
2024-07-09 10:14:04
.
AIbase
.
10.1k
Poe社交平台推出Previews功能:让AI编程直接可视化
Poe平台新推出的Previews功能是一项创新性工具,它允许用户在与AI应用对话时直接查看和操作AI生成的Web应用程序,开创了AI社交互动的新纪元。该功能最大的亮点是其实时性和交互性,用户能够如同与朋友聊天一般轻松体验复杂的AI应用,尤其适用于大型语言模型(如Claude3.5Sonnet、GPT-4和Gemini1.5Pro)生成的Web应用。这一举措不仅提升了用户体验,也为非专业用户提供了接触高级AI技术的机会,预计将吸引大量对AI技术感兴趣的用户,特别是那些缺乏专业编程知识的人群。
2024-07-08 08:48:46
.
AIbase
.
10.1k
阿里通义音频生成大模型 FunAudioLLM 开源 支持情绪语音对话、有声读物等场景
阿里通义实验室最近开源了名为FunAudioLLM的音频生成大模型项目,旨在提升人类与大型语言模型(LLMs)间的自然语音交互体验。该项目由两个核心模型组成:SenseVoice和CosyVoice。