PaddleMIX 2.0は、百度が発表したマルチモーダル大規模モデル開発キットです。画像、テキスト、音声、ビデオなど、様々なマルチモーダルデータを統合し、自動運転、スマート医療、検索エンジンなど、幅広いアプリケーションシナリオを網羅しており、AIアプリケーションのイノベーションを推進します。PaddleMIX 2.0のリリースは、マルチモーダル分野の開発者の開発難易度を下げ、高性能アルゴリズム、簡便な開発、効率的なトレーニング、そして完全な展開サポートを提供することを目的としています。

微信截图_20240801172012.png

PaddleMIX 2.0の3つの主な特長は以下の通りです。

  1. 画像、テキスト、ビデオ、音声モダリティを網羅した豊富なマルチモーダルモデルライブラリ。LLaVAシリーズなどの最先端モデルも追加されています。

  2. マルチモーダルデータ処理ツールボックスDataCopilotとAutoモジュールを含む、エンドツーエンドのフルプロセス開発エクスペリエンス。マルチモーダル大規模モデルのトレーニングプロセスを簡素化します。

  3. 高性能な大規模トレーニングと推論能力。DiTモデルは3B規模の事前トレーニングをサポートし、性能は業界トップクラスです。新しいMixTokenトレーニング戦略により、トレーニングスループットが大幅に向上しました。

PaddleMIX 2.0は、AppFlowツールも提供しており、パイプライン方式の組み合わせにより、様々なマルチモーダルアプリケーションを構築できます。また、ComfyUIプラグインもサポートし、マルチモーダル機能を提供することで、AIGCタスクの操作を簡素化します。さらに、PaddleMIX 2.0は大規模事前トレーニング、効率的なファインチューニングトレーニング、高性能推論において、顕著な性能向上を実現しています。

オープンソースプロジェクトページ:https://github.com/PaddlePaddle/PaddleMIX