zh
AI产品榜
每月不到10元,就可以无限制地访问最好的AIbase。立即成为会员
首页
AI资讯
AI日报
变现指南
AI教程
AI工具导航
AI产品库
zh
AI产品榜
搜索全球AI产品动态
搜索全球AI信息,发现AI新机遇
新闻资讯
产品应用
变现案例
AI教程
类型 :
新闻资讯
产品应用
变现案例
AI教程
2024-08-15 14:53:25
.
AIbase
.
11.1k
OpenAI推出SWE-bench Verified:提升AI软件工程能力评估
OpenAI发布SWE-bench Verified,旨在更精确评估AI在软件工程任务中的表现,解决原SWE-bench存在的评估局限性,如过于严格的单元测试、不明确的问题描述和难以设置的开发环境。新基准通过引入容器化Docker环境,提高了评估的一致性和可靠性,显著提升了AI模型的表现评分。GPT-4o在新基准下解决了33.2%的样本,而最佳开源代理框架Agentless的得分也显著提高。这一改进有助于更准确地捕捉AI模型在软件工程任务中的真实能力,为AI在软件开发领域的应用提供更精确的评估工具,对推动相关技术发展具有重要意义。
2024-08-13 08:34:48
.
AIbase
.
11.0k
号称全球最强AI程序员 “Genie” 横空出世,击败Devin与GPT-4!
AI初创公司Cognition推出了AI程序员“Genie”,在权威测试平台SWE-Bench上得分30.08%,远超Devin和GPT-4,成为全球最强AI编程助手。Genie的联合创始人Alistair Pullen在2022年展示了该项目,目标是创造能像人类一样自动编码、调试和优化的AI。经过一年多的开发,Genie使用包含人类程序员推理过程的特殊数据集进行训练,通过自我改进机制提升能力,甚至能在未见过的问题上展现创造性解决方案。Genie支持多种开发任务,包括功能开发、BUG修复、代码重构和测试,覆盖多种编程语言。目前,Genie已开放申请试用,预计未来将推出更多功能。