バイトダンスの大規模言語モデル最新情報：視覚的定位を初導入、細粒度マルチモーダル統合理解を実現、オープンソース化＆デモ公開

新智元

公開日AIニュース · 1 分で読めます · Aug 15, 2023

バイトダンスのBuboGPTモデル

この記事では、バイトダンスが開発したBuboGPTモデルについて紹介します。このモデルは、テキスト、画像、音声の3種類のモダリティを統合的に理解できる多様なモダリティ統合モデルであり、画像内のオブジェクトを正確に特定できる視覚位置特定技術を初めて導入しました。

研究者たちは、多様なモダリティ指示調整トレーニングスキームを採用することで、BuboGPTが多様なモダリティタスクで良好な結果を達成することに成功しました。このモデルは既にオープンソース化されており、実際に試せるデモページも提供されています。

大規模言語モデルの効率を1.7倍に向上：バイトダンスのCOMET技術がオープンソース化

バイトダンス傘下の豆包大規模言語モデルチームは先日、混合専門家モデル（MoE）アーキテクチャにおける主要なボトルネックを克服し、COMETという名称の重要な最適化技術をオープンソース化したと発表しました。この技術は、大規模言語モデルのトレーニング効率を大幅に向上させ、最大1.7倍の効率向上を実現し、トレーニングコストを40％削減することに成功しました。画像注記：画像はAIによって生成され、画像ライセンス提供サービスMidjourneyを使用しています。COMET技術は、バイトダンスの万規模GPUクラスタトレーニングで実際に適用されており、数百万GPU時間の節約に貢献しています。

ファーウェイ昇騰と階躍星辰、オープンソースのマルチモーダルモデルを発表 AI新分野に進出

先日、魔楽コミュニティ（Modelers）で、階躍星辰が開発したオープンソースのマルチモーダル大規模モデルであるStep-VideoとStep-Audioが正式に公開されました。これらのモデルは、それぞれ動画生成と音声対話に使用され、開発者と企業ユーザーにより強力なAIツールを提供することを目指しています。Step-Videoモデルの正式名称はStep-Video-T2Vで、300億パラメーターという世界最大のオープンソース動画生成モデルです。このモデルは、20秒の動画を直接生成できます。

AIニュース

バイトダンスの大規模言語モデル最新情報：視覚的定位を初導入、細粒度マルチモーダル統合理解を実現、オープンソース化＆デモ公開

新智元

関連AIニュースの推奨

大規模言語モデルの効率を1.7倍に向上：バイトダンスのCOMET技術がオープンソース化

ファーウェイ昇騰と階躍星辰、オープンソースのマルチモーダルモデルを発表 AI新分野に進出

智源がBGE-VLマルチモーダルベクトルモデルを発表、検索の新時代を開幕

Portkey AI Gateway：様々な大規模言語モデルを簡単に統合できるオープンソースAIソリューション