智源研究院发布了名为 TACO 的代码生成训练集,旨在为代码生成模型提供更具挑战性的训练数据和评测基准。TACO 在数据规模、质量和评测方案上具有优势,包括更大规模的训练集和测试集,多样化的解题答案,以及细粒度的标签。实验结果显示,当前流行的代码生成模型在 TACO 评测中与 GPT-4 存在显著差异,说明该领域仍有提升空间。TACO 不仅是一个挑战性的测试方法,还可用作改进模型性能的训练数据,促进代码生成领域的发展。