淘天グループと愛橙科技が巨大言語モデル訓練フレームワークMegatron-LLaMAをオープンソース化

机器之心

公開日AIニュース · 1 分で読めます · Sep 13, 2023

淘天グループと愛橙科技は、大規模言語モデルのトレーニング性能向上、トレーニングコスト削減、そしてLLaMAコミュニティとの互換性を目的とした大規模モデルトレーニングフレームワーク「Megatron-LLaMA」をオープンソース化しました。このフレームワークは、32枚のGPUを用いたトレーニングにおいて176%の高速化を実現し、ネットワーク不安定性に対しても高い耐性を示します。Megatron-LLaMAは、最適な設定の自動選択、モデル構造変更への対応、そして様々なハードウェア環境下での最高性能トレーニングソリューションに焦点を当てています。

Manus創業者季逸超氏：Manus製品は阿里ババの千問大規模言語モデルに基づき開発

中国のスタートアップ企業Monicaが発表したAIエージェント製品Manusが、Xプラットフォームで最近話題になっています。その創業者である季逸超（Ji Yichao）氏は本日、ソーシャルメディアを通じて製品の技術詳細をさらに明らかにしました。季氏によると、Manusは阿里巴巴の千問(Qwen)大規模言語モデルに基づいて開発されており、複数の微調整モデルを用いて独自の機能を実現しています。この発表は、Manusの技術ソースに関する議論を引き起こしただけでなく、世界中のAIコミュニティにおけるその潜在力への関心をさらに高めています。季氏

大規模言語モデルの効率を1.7倍に向上：バイトダンスのCOMET技術がオープンソース化

バイトダンス傘下の豆包大規模言語モデルチームは先日、混合専門家モデル（MoE）アーキテクチャにおける主要なボトルネックを克服し、COMETという名称の重要な最適化技術をオープンソース化したと発表しました。この技術は、大規模言語モデルのトレーニング効率を大幅に向上させ、最大1.7倍の効率向上を実現し、トレーニングコストを40％削減することに成功しました。画像注記：画像はAIによって生成され、画像ライセンス提供サービスMidjourneyを使用しています。COMET技術は、バイトダンスの万規模GPUクラスタトレーニングで実際に適用されており、数百万GPU時間の節約に貢献しています。

智元、家庭用ロボットベースの大規模言語モデルGO-1を発表成功率が大幅に向上

3月10日、智元ロボットは、初の汎用具象ベースの大規模言語モデルであるGenie Operator-1（GO-1と略称）を発表しました。この発表は大きな注目を集め、特に家庭用サービスロボットの可能性という点において、将来の家事管理に新たな希望をもたらすものとして期待されています。智元ロボットの公式発表によると、GO-1大規模言語モデルは大量の人間のビデオ学習を通じて、コップの水を運ぶ、食事を作る、客を迎えるなど、多くの家事タスクをこなす優れた能力を示しています。技術性能に関しては、