MAG-SQL：利用多智能体生成方法提升文本到SQL转换精度至 61%

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Aug 20, 2024

459

在自然语言（NLP）领域，文本转 SQL(Text-to-SQL)技术正在快速发展项技术使得普通用户可以使用日语言轻松查询数据库，而不需要掌握 SQL 这种专业的程语言。然而，随着数据库结构的日益复杂，如何准确地将自然语言转为 SQL 命令，成为了一个不小的挑战。

华南理工大学与清华大学的研究团队最近提出了一种新型的解决方案 ——MAG-SQL（多智能生成模型），旨在提升文本转 SQL 的效果。该方法利用多个智能体合作，致力于提高 SQL 生成的准确性。

MAG-SQL 的工作原理相当巧妙。的核心组件包括 “软模式链接器”、“目标 - 条件分解器”、“子 SQL 生成器” 和 “子 SQL 修正器”。首先，软模式链接器会筛选出与查询最相关的数据库列，从而减少不必要的信息干扰，提高生成 SQL 命令的准确度。接着，目标 - 条件分解器将复杂的查询分解为更小的子查询，便于处理。

随后，子 SQL 生成器根据之前的结果生成子 SQL 查询，确保 SQL 令能够逐步精炼。而最后，子 SQL 修正器则负责纠正生成 SQL 错误，进一步提高整体的准确性。这样的多步骤处理方式，使得 MAG-SQL 在复杂数据库时表现出色。

在最近的测试中，MAG-SQL 在 BIRD 数据集上的表现相当亮眼。使用 GPT-4模型时，该系统达到了61.08% 的执行准确率，相比于传统 GPT-4的46.35% 有了显著提升。即使在使用 GPT-3.5的情况下，MAG-SQL 的准确率也达到了57.62%，超越了之前的 MAC-SQL 方法。此外，MAG-SQL 在另一复杂数据集 Spider 上的表现同样出色，显示出其良好的通用性。

MAG-SQL 的推出不仅提升了文本转 SQL 的准确率，也为解决复杂查询提供了新的思路。这种多智能体的框架，通过反复迭代的精细化处理，极大地增强了大语言模型在实际应用中的能力，特别是在应对复杂数据库和高难度查询时。

论文入口：https://arxiv.org/pdf/2408.07930

划重点:
📊 ** 准确性提升 **:MAG-SQL 在 BIRD 数据集上达到了61.08% 的执行准确率，远超传统 GPT-4的46.35%。
🔍 ** 多智能体协作 **:该方法利用多个智能体进行分工合作，使得 SQL 生成过程更加高效和准确。
💡 ** 广泛应用前景 **:MAG-SQL 在其他数据集（如 Spider）上同样表现优秀，了其良好的用性与适用性。

文本转SQL MAG-SQL 自然语言处理华南理工大学

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

重大突破！研究团队揭示大语言模型内部潜藏的 “奖励机制”

近日，南京大学的周志华教授团队发布了一项重要研究，首次理论证明了在大语言模型中可以发现内源性奖励模型，并有效应用强化学习（RL）来提升模型表现。当前，许多对齐方法依赖于人类反馈强化学习（RLHF），这种方法需要大量高质量的人类偏好数据来训练奖励模型。然而，构建这样一个数据集不仅耗时费力，还面临成本高昂的挑战。因此，研究者们开始探索替代方案，其中基于 AI 反馈的强化学习(RLAIF)受到关注。这种方法利用强大的大语言模型自身生成奖励信号，以降低对人类标

2025年7月2号 17:50

1.1k

开源端到端语音大模型Step-Audio-AQAA：听懂音频直接生成自然语音

在人工智能领域，尤其是生成式对抗网络（AIGC）方面的不断进展，语音交互已成为一个重要的研究方向。传统的大语言模型(LLM)主要专注于文本处理，无法直接生成自然语音，这在一定程度上影响了人机音频交互的流畅性。为了突破这一局限，Step-Audio 团队开源了一款全新的端到端语音大模型 ——Step-Audio-AQAA。该模型能够直接从原始音频输入生成自然流畅的语音输出，使得人机交流更加自然。Step-Audio-AQAA 的架构由三个核心模块组成:双码本音频标记器、骨干 LLM 和神经声码器。其中，双码本

2025年7月2号 16:19

1.2k

浙大与阿里联合发布OmniAvatar:音频驱动全身数字人模型震撼登场

浙江大学与阿里巴巴联合推出全新音频驱动模型OmniAvatar，标志着数字人技术迈向新高度。该模型以音频为驱动，可生成自然流畅的全身数字人视频，尤其在歌唱场景下表现突出，口型与音频唇形同步精准，效果逼真。OmniAvatar支持通过文本提示精细控制生成细节，用户可自定义人物动作幅度、背景环境及情绪表达，展现出极高的灵活性。此外，该模型能够生成虚拟人物与物体互动的视频，为电商广告、营销广告等商业场景提供了广阔应用空间。例如，品牌可利用OmniAvatar制作动态广告，增强

2025年7月2号 15:33

660

大模型革命！Gemini 2.5 Pro 如何颠覆我们的信息处理方式

近日，谷歌 DeepMind 推出的 Gemini2.5Pro 模型引起了科技界的广泛关注。作为当前行业领先的 AI 大语言模型之一，Gemini2.5Pro 凭借其百万级的长上下文处理能力，展示了前所未有的应用潜力。然而，尽管技术领先，模型的运行成本仍然高昂，且其质量还有提升空间。Gemini 系列的核心竞争力在于其能够处理超长上下文，这一特性使得它在 AI 编程、信息检索等领域的表现格外突出。与其他模型相比，Gemini2.5Pro 能够一次性读取整个项目的内容，带来更为流畅和高效的用户体验。这一技术的问世标志

2025年7月1号 17:52

5.6k

Qwen-TTS重磅发布：方言语音合成新突破，真实感媲美真人

昨日，阿里巴巴通义团队正式推出了Qwen-TTS模型，这款文本转语音（TTS）模型以其超高真实感和多方言支持引发行业热议。AIbase编辑团队整理最新信息，为您深入解析这款通过Qwen API提供服务的语音合成利器，及其在AI语音技术领域的突破性意义。Qwen-TTS:超真实语音合成Qwen-TTS是通义团队基于大规模语音数据集研发的最新文本转语音模型，通过数百万小时的语音训练，生成的声音在自然度、韵律、节奏和情感表达上达到了极高水平。用户通过Qwen API即可体验到接近真人发声的语音效果，适用于

2025年7月1号 11:01

3.0k

苹果 AI 团队遭遇动荡:顶尖研究员离职引发信任危机

最近，苹果公司在人工智能领域面临了一场不小的风波。一位重要的高级研究员汤姆・冈特（Tom Gunter）在公司工作八年后选择离职，这一消息引发了内部的广泛关注。冈特在大型语言模型方面的专业知识被认为是无可替代的，尤其是在当前竞争对手如 Meta 和 OpenAI 都在通过高额薪资挖角人才的情况下。随着冈特的离去，苹果的人工智能战略似乎正经历着内部的信任危机。公司内部围绕 AI 战略的分歧日益加深，导致了关键团队的流失。在这种情况下，苹果似乎很难再保持其在机器学习领域的

2025年7月1号 9:07

1.4k

新开源 AI 系统 OmniGen 2：像GPT-4o 一样融合了图像和文本生成

近日，北京人工智能研究院推出了全新的开源系统 ——OmniGen2。这一系统专注于文本到图像的生成、图像编辑和上下文图像创作。与2024年发布的第一代 OmniGen 相比，OmniGen2采用了两条独立的解码路径:一条用于文本生成，另一条用于图像生成，且各自拥有独立的参数和解耦的图像标记器。这种设计让模型在保持文本生成能力的同时，有效地提升了多模态语言模型的表现。OmniGen2的核心是一个基于 Qwen2.5-VL-3B 变换器的大型多模态语言模型（MLLM）。在图像生成方面，该系统使用了一种自定义的扩

2025年6月30号 14:54

3.3k

飞利浦重磅推出 8 号 Pro AI 耳机，解锁多语言沟通新体验！

在近日于西安举行的2025新品发布会上，飞利浦影音及配件公司推出了三款颠覆性产品，吸引了众多科技爱好者的关注。这些新产品包括专为年轻白领和 Z 世代打造的 “刀片” 磁吸充电宝、针对商务精英的8号 Pro AI 耳机以及适合家庭娱乐的 KTV・云・音箱。这一系列创新产品不仅彰显了飞利浦在消费电子领域的领导地位，也标志着其在中国市场开辟了全新的赛道。其中，最引人瞩目的当属8号 Pro AI 耳机。这款耳机采用了腾讯的混元 AI 语言大模型，能够精准支持17种语言的互译和27种方言的识

2025年6月30号 11:16

2.0k

Runway AI重磅推出“游戏世界” 大型互动文本冒险来了

近日，AI技术先锋企业Runway宣布即将推出其全新生成式AI平台“游戏世界”（Game Worlds），这一创新产品不仅标志着Runway从影视领域的成功拓展至游戏行业，更为广大创作者和玩家带来了全新的互动体验。“游戏世界”:AI驱动的互动文本冒险Runway的“游戏世界”平台以生成式AI为核心，允许用户通过简单的文字输入即可创建并体验基于文本的冒险游戏。与传统游戏开发需要大量资源和专业技能不同，该平台通过AI自动生成游戏的文本叙述和配套图像，大幅降低了创作门槛。用户只需提供游戏世

2025年6月30号 9:27

3.8k

大语言模型搜索优化与传统 SEO 策略的惊人相似

近期，ERGO 创新实验与 ECODYNAMICS 联合开展了一项研究，重点分析了保险类内容在 AI 驱动搜索中的展现方式。这项研究涵盖了超过33，000个 AI 搜索结果和600个网站，探讨了大型语言模型（LLM）如 ChatGPT 在处理这些内容时的偏好。研究发现，LLM 更倾向于展示易于阅读、结构良好且值得信赖的内容，这些特征与传统 SEO 策略密切相关。图源备注：图片由AI生成，图片授权服务商Midjourney在内容呈现方面，模块化的内容，特别是采用问答形式呈现的内容，更容易出现在 AI 生成的答案中。这与经典 SE

2025年6月30号 9:12

1.9k

AI资讯

AI日报

AI时间线

Al硬件

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图