在人工智能的应用中,如何实现与 AI 的实时互动一直是开发者和研究人员面临的重大挑战。这其中,整合多模态信息(如文本、图像和音频)以形成一个连贯的对话系统显得尤为复杂。尽管像 GPT-4这样的先进大型语言模型取得了一些进展,但许多 AI 系统在实现实时对话流畅性、上下文意识以及多模态理解方面仍然存在困难,这限制了它们在实际应用中的效果。此外,这些模型的计算需求也使得在没有大量基础设施支持的情况下实现实时部署变得极为困难。为了解决这些问题,Fixie AI 推出
最近,一项新研究显示,即便是先进的 AI 语言模型,比如 OpenAI 最新的 o1-preview,在复杂的规划任务中也显得力不从心。这项研究是由复旦大学、卡内基梅隆大学、字节跳动和俄亥俄州立大学的科学家们共同进行的,测试了 AI 模型在两个规划基准上的表现:BlocksWorld 和 TravelPlanner。在 BlocksWorld 这个经典的规划任务中,大多数模型的准确率都低于50%,只有 o1-mini(略低于60%)和 o1-preview(接近100%)的表现相对较好。然而,当研究者将目光转向更复杂的 TravelPlanner 时,所有模型的表现都令人失望。
在人工智能快速发展的今天,一个国际研究团队正在为欧洲AI语言模型的发展铺平道路。他们推出了名为MOSEL(Massive Open-source compliant Speech data for European Languages)的项目,为欧盟 24 种官方语言编制了一个全面的开源语音数据集。这一举措旨在推动欧洲开放AI语言模型的发展,挑战目前由英语数据集和大型科技公司专有系统主导的局面。MOSEL项目汇集了来自 18 个不同来源的语音数据,包括CommonVoice、LibriSpeech和VoxPopuli等知名项目。这个庞大的数据库包含了带转录的语音录音和未标记的音频数据
最近,米拉研究所、谷歌 DeepMind 和微软研究院的研究人员对 AI 语言模型的推理能力进行了深入调查,发现小型和便宜的模型在解决复杂问题时存在显著不足。这项研究的是一个名为 “组合 GSM” 的测试,目的是评估这些模型在解决链式的基础数学问题方面的表现。图源备注:图片由AI生成,图片授权服务商Midjourney研究人员结合了 GSM8K 数据集中的两个问题,使用第一个问题的答案作为第二个问题的变量进行测试。结果显示,大多数模型在这些复杂的推理任务中表现远低于预期,尤其是在小型