AI新闻资讯

AI资讯

不错过全球AI革新的每一个时刻

AI日报

每天三分钟关注AI行业趋势

AI时间线

AI行业大事记

Al硬件

列出所有AI硬件产品。

AI变现指南

图片合集

AI图片制作变现案例分享

视频合集

AI视频制作变现案例分享

音频合集

AI音频制作变现案例分享

文案合集

AI内容写作变现案例分享

AI教程

AI产品榜

AI产品排行榜

展示AI网站的总访问量排名

AI产品流量增速榜

追踪AI网站访问量增长最快产品

AI产品流量下降榜

关注访问量下降明显的AI网站

AI产品周榜

展示AI网站的周访问量排名

AI开源项目库

全景图

github热门AI开源项目总览

产品库工具导航

逻辑推理大翻车！GPT-4、Gemini被曝重大缺陷，LLM严重降智

站长之家

发布于AI新闻资讯 · 1 分钟阅读 · Feb 26, 2024

近期研究发现，大型语言模型在逻辑推理任务中受前提信息呈现顺序影响，乱序可能导致性能下降。谷歌DeepMind和斯坦福研究人员指出，逻辑自然顺序排列的前提可以提高模型表现。对于LLM等模型，改变前提顺序会导致性能下降，需要进一步研究解决。前提顺序对大型语言模型推理表现具有重大影响，仍是挑战。Gemini、GPT-4等存在重大缺陷，LLM表现严重下降。

GPT-4 Gemini LLM

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

OpenAI CEO 透露 GPT-4o 存在 “过度谄媚” 问题，计划一周内推出修复

OpenAI 首席执行官萨姆・奥尔特曼（Sam Altman）在社交媒体上回应了用户对于最新版本 GPT-4o 的一些反馈，指出该模型在情感表达上出现了 “过度谄媚” 的倾向。奥尔特曼承诺，OpenAI 将在一周内推出解决方案，以修复这一问题。根据 OpenAI 的更新记录，GPT-4o 于3月27日进行了一次全面的更新，随后在4月25日进行了进一步的调整，重点提升了模型在科学、技术、工程和数学（STEM）领域的能力。此外，更新还改变了模型在对话中的响应方式，使其更加主动，并能够更好地引导对话走向有效结论。

2025年4月29号 9:57

1.3k

谷歌每月向三星支付巨额款项，确保 Gemini AI 助理成为默认选择

在谷歌的反垄断审判中，有关谷歌与三星之间财务交易的细节浮出水面。根据《彭博社》的报道，谷歌为了将 Gemini AI 应用程序预装在三星设备上，每月向三星支付 “巨额资金”。这一消息是在法官阿米特・梅塔裁定谷歌的搜索引擎构成非法垄断的背景下披露的。谷歌平台与设备合作伙伴关系的副总裁彼得・菲茨杰拉德在审判中作证表示，谷歌的支付安排从今年1月开始，这正是谷歌被发现违反反垄断法后所做出的举措之一。作为回应，三星在1月份推出的 Galaxy S25系列手机中，将 Gemini 设置

2025年4月28号 15:23

4.7k

开源界核弹！Step1X-Edit 登陆 Hugging Face，用自然语言“画”出新世界，性能直逼 GPT-4o！

开源人工智能的星空，昨夜骤然被一颗新星照亮!备受瞩目的 Step1X-Edit 图像编辑框架，已于2025年4月24日正式登陆 Hugging Face 社区，瞬间点燃了全球开发者和创意工作者的热情。这不仅仅是又一个开源工具的发布，更像是一次对现有图像编辑格局的强力挑战。据悉，Step1X-Edit 巧妙地将强大的多模态大语言模型（Qwen-VL）与先进的扩散变换器(DiT)深度融合，赋予用户通过简单的自然语言指令，即可实现令人惊叹的高精度图像编辑能力。其表现出的卓越性能，甚至敢于直接叫板像 GPT-4o 与 Gemini2Flash

2025年4月28号 10:59

1.8k

字节跳动推出 QuaDMix：大型语言模型预训练数据质量与多样性的统一框架

近日，字节跳动宣布推出其全新的数据选择框架 QuaDMix，旨在提升大型语言模型（LLM）预训练的效率和泛化能力。众所周知，模型的训练效果受基础数据集的质量和多样性影响很大。然而，传统的数据筛选方法往往将质量和多样性视为两个独立的目标，先进行质量过滤，再进行领域平衡。这种逐步优化的方式忽略了质量与多样性之间的复杂相互关系。优质数据集往往存在领域偏差，而多样化的数据集可能会降低质量。因此，在固定的训练预算下，如何同时优化这两个维度以最大化模型性能

2025年4月28号 9:38

3.2k

谷歌被曝每月巨资贿赂三星，助推 Gemini 应用预装

近日，谷歌在反垄断审判中陷入了新的风波。据报道，谷歌每月向三星支付巨额资金，以促使其在 Galaxy S25系列智能手机中预装 Gemini 人工智能应用。这一消息引发了广泛关注，尤其是在谷歌被指控违反反垄断法后，这种商业行为是否构成新的不当竞争仍待观察。据了解，谷歌与三星的这一合作协议是在谷歌被判定存在非法垄断行为之后开始的。根据协议，Gemini 将成为 Galaxy S25的默认 AI 助手。这一策略显然是谷歌为巩固其市场地位而采取的措施，试图通过预装应用来吸引更多用户。然而，

2025年4月28号 9:28

2.1k

谷歌在垄断审判中被曝向三星支付巨款预装Gemini应用

据彭博社报道，正在进行的谷歌反垄断审判本周的证词显示，谷歌每月向三星支付“巨额资金”，以在其设备上预装其Gemini人工智能应用程序。这一信息正值法官阿米特·梅塔(Amit Mehta)已裁定谷歌的搜索引擎构成非法垄断之后，目前谷歌的律师正与美国司法部就潜在的处罚力度展开辩论。谷歌平台和设备合作副总裁彼得·菲茨杰拉德周一作证称，谷歌与三星之间的这笔付款协议始于今年1月份。值得注意的是，这笔交易启动于谷歌被认定违反反垄断法之后，而此前谷歌被判定垄断的部分原因

2025年4月27号 17:06

6.4k

GPT-4o图像生成能力集成GPTs，开启个性化图像机器人新篇章

OpenAI宣布GPT-4o的图像生成能力正式集成到GPTs（自定义GPT）平台，为开发者与创作者提供了构建个性化图像生成机器人的强大工具。据AIbase了解，这一更新允许用户通过GPTs打造专属图像生成应用，如海报设计机器人或特定艺术风格生成器，极大地提升了创作灵活性与共享性。社交平台上的热烈讨论凸显了其广泛影响力，相关功能已向ChatGPT Plus、Pro及Team用户开放。AIbase为您带来详细报道。核心功能:GPTs赋能个性化图像生成GPT-4o的图像生成能力融入GPTs，标志着AI创作从通用工具向个性化应用的

2025年4月27号 16:51

5.2k

开发者注意!AI 推荐软件包五分之一是假的，“Slopsquatting”威胁来袭

网络安全研究人员发出警告，一种名为“Slopsquatting”的新型软件供应链攻击正浮出水面。该攻击利用生成式 AI（如 LLMs）在代码编写时可能产生的“包幻觉”——即推荐不存在的软件包名称——的漏洞。攻击者可以抢先注册这些虚构的名称，并植入恶意代码。图源备注:图片由AI生成，图片授权服务商Midjourney研究团队发现，AI 虚构的软件包名称往往具有高度可信性和重复性，约38% 的幻觉包名与真实包名相似，仅13% 是简单拼写错误，这使得开发者在不加验证的情况下更容易直接采用。通过对

2025年4月27号 10:09

4.7k

Ema推新型语言模型EmaFusion：成本和准确性方面击败了 O3、Gemini

在 AI 行业竞争日益激烈的今天，Ema 公司推出了一款新型语言模型 EmaFusion，声称在成本和准确性上超越了包括 O3、Gemini 和 Sonnet 在内的多款知名 AI 模型。与传统的单一策略系统不同，EmaFusion 采用了一种 “级联” 判断系统，能够动态平衡成本和准确性，同时用户也可以根据具体任务的需求进行微调。Ema 的首席执行官 Surojit Chatterjee 表示，EmaFusion 像一个 “任务智能大脑”，能够智能地拆解复杂的问题，并将其分配给最合适的 AI 模型来解决。他举例说，当处理合同分析、复杂客户支持问题或

2025年4月27号 9:46

6.5k

OpenAI 推出 ChatGPT 新版本:更智能、更直观的 GPT-4o

OpenAI 最近宣布对其 ChatGPT 的 GPT-4o 版本进行了更新。这次更新主要集中在如何保存记忆的时机以及在科学、技术、工程和数学（STEM）等领域的技能提升。此外，新版本还旨在更有效地引导对话朝着 “富有成效的结果” 发展。OpenAI 希望通过这些改进，使模型在各种任务中显得更加 “直观和高效”。OpenAI 首席执行官山姆・阿尔特曼表示，这次更新不仅提升了智能水平，还改善了模型的人格特质。然而，他也坦言目前模型在某些情况下仍存在 “光滑” 过度的问题，并承诺未来会对此进行改

2025年4月27号 9:14

4.8k

AI资讯

AI日报

AI时间线

Al硬件

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图