Meta最近发布了新一代开源模型系列Llama3.1,其中包括一个405B参数的版本,其性能接近甚至在某些基准测试中超越了GPT-4等闭源模型。Llama3.1-8B-Instruct是该系列中的一个8B参数版本,支持英语、德语、法语、意大利语、葡萄牙语、西班牙语、印地语和泰语,上下文长度高达131072tokens,知识截止日期更新至2023年12月。

为了增强Llama3.1-8B-Instruct的能力,Meta在训练中使用了超过2500万条合成数据,这些数据由更大的405B模型生成。这使得Llama3.1-8B-Instruct在代码、数学等测试中表现出与GPT3.5Turbo相近的认知和推理能力。

微信截图_20240725083410.png

OpenBuddy利用Llama3.1-8B-Instruct模型,通过在少量中文数据上进行训练,发布了OpenBuddy-Llama3.1-8B-v22.1-131K,这是一个具备中文问答和跨语言翻译能力的新一代开源跨语言模型。尽管Llama3.1本身不具备中文能力,但经过训练后,该模型在一些容易产生概念混淆的问题上能够生成通常只有更大模型才能生成的答案,显示出更强的认知潜力。

然而,由于训练数据集和时间的限制,OpenBuddy-Llama3.1-8B-v22.1在中文知识,特别是传统文化知识上仍存在局限。尽管如此,模型在长文理解等任务上表现出相对稳定的表现,这得益于其原本的长文能力。

未来,OpenBuddy计划对8B和70B模型进行更大规模的训练,以增强模型的中文知识储备、长文能力和认知能力,并探索微调405B模型的可能性。

项目地址:https://modelscope.cn/models/OpenBuddy/openbuddy-llama3.1-8b-v22.1-131k