最近、テンセント科技(深圳)有限公司が天眼查App上で、大規模言語モデルの訓練方法とその関連機器に関する特許を発表しました。この特許の名称は「大規模言語モデルの訓練方法、装置、計算機設備および記憶媒体」で、革新的な訓練方法を通じて、大規模言語モデルの学習能力と正確性を向上させることを目的としています。
大規模言語モデルの訓練において、従来の方法では単一のテキスト要約に依存することが多く、モデルの過学習につながり、生成されるコンテンツの正確性と多様性に影響を与える可能性がありました。しかし、テンセントの新しい方法は、異なる2つの情報源——第一要約テキストと第二要約テキスト——を導入しています。これらの要約テキストの情報量は異なり、第一要約テキストには正しい文と間違った文が含まれており、対照学習の基礎を形成しています。
この対照学習方法は、モデルが同一テキストの異なる要約間で学習することを可能にし、第一要約テキストにおける正しい文と間違った文を区別することで、要約が単一であることによる学習誤差を効果的に回避します。この革新的な方法は、モデルの汎化能力を高め、未知のデータに対しても優れたパフォーマンスを発揮できるようにするだけでなく、モデルの正確性を向上させ、誤ったコンテンツを生成する確率を低減します。
人工知能技術の進歩に伴い、大規模言語モデルの応用範囲はますます広がり、自然言語処理からインテリジェントカスタマーサービス、コンテンツ作成など、様々な分野で大きな可能性を示しています。テンセントによるこの特許の発表は、大規模言語モデル訓練分野における新たな技術的ブレークスルーを示しており、将来の関連研究や応用に新たな方向性を提供する可能性があります。
この技術の更なる発展が、インテリジェントアプリケーションの継続的な進歩を推進し、様々な業界がデジタルトランスフォーメーションにおいて人工知能がもたらす利便性をより効果的に活用することを支援すると考えられます。