テンセント、大規模言語モデルHunyuan-largeをオープンソース化、最大256Kトークンのテキストシーケンスに対応

テンセントは本日、オープンソースの大規模言語モデル「HunYuan-large」を発表しました。パラメータ総数は3980億、活性化パラメータ数は520億です。公開された評価結果によると、テンセントHunYuan-largeは、CMMLU、MMLU、CEva-1、MATHなどの複数分野の総合評価セット、および中国語と英語のNLPタスク、コード、数学など9つの分野でLlama 3.1、Mixtralなどのトップクラスのオープンソース大規模モデルを上回っています。

このモデルは、技術革新において高品質の合成データの作成を実現しており、合成データによるトレーニング強化を通じて、自然データの不足を効果的に補っています。コンテキスト処理能力に関しては、事前トレーニングモデルは最大256Kのテキストシーケンスをサポートし、長いコンテキストを持つタスクの処理能力を大幅に向上させています。

また、テンセントHunYuanは、業界における実際のロングテキスト評価セットの不足を解消するため、「ペンギン・スクロール」評価セットを公開します。これは業界の応用研究を支援するためのものです。「ペンギン・スクロール（PenguinScrolls）」は、公開されている金融、法律、学術論文など、様々な自然言語の長文テキスト（長さ1K～128K）に基づいており、様々な深層読解、長文推論タスクを網羅しています。

テンセントHunYuan-large大規模言語モデルの発表とペンギン・スクロール評価セットの公開は、業界により強力な言語モデルと評価ツールを提供し、自然言語処理と人工知能分野の発展を促進するでしょう。

公式サイトアドレス:https://llm.hunyuan.tencent.com

AIニュース

テンセント、大規模言語モデルHunyuan-largeをオープンソース化、最大256Kトークンのテキストシーケンスに対応

AIbase基地

関連AIニュースの推奨

MiniMax、国内初のMoE大規模言語モデルabab6を発表