中国発の大規模言語モデルDeepSeekが、新しいマルチモーダル大規模言語モデルJanus-Proを発表し、テキストから画像を生成する分野に正式参入しました。これはDeepSeekのマルチモーダルAI技術における大きな進歩を示しています。

GenEvalとDPG-Benchのベンチマークテストにおいて、Janus-Pro-7BはOpenAIのDALL-E3を凌駕し、Stable Diffusion、Emu3-Genなどの主要なモデルをも上回りました。Janus-ProはMITオープンソースライセンスを採用しているため、商業利用に制限はありません。DeepSeekによると、Janus-Proは2024年11月13日にリリースされたJanusFlow大規模言語モデルの上位版です。

DeepSeekが深夜に新しいマルチモーダル大規模言語モデルを発表 OpenAIを圧倒する性能

前世代のモデルと比較して、Janus-Proはトレーニング戦略の最適化、トレーニングデータの拡張、モデル規模の拡大を実現しました。これらの改善により、Janus-Proはマルチモーダル理解とテキストから画像への指示追従機能において大幅な進歩を遂げ、テキストから画像への生成の安定性も向上しました。

DeepSeekが深夜に新しいマルチモーダル大規模言語モデルを発表 OpenAIを圧倒する性能

Janus-Proは現在、384x384ピクセルの解像度の画像しか処理できませんが、コンパクトなモデルサイズを考慮すると、このレベルの性能は驚くべきものです。

マルチモーダルモデルとして、Janus-Proは画像の生成だけでなく、画像の説明、ランドマークの認識、画像内のテキストの認識、画像内の知識の紹介なども行うことができます。

重要なポイント:

🌟 DeepSeekがJanus-Proマルチモーダル大規模言語モデルを発表し、テキストから画像を生成する分野に進出。

📈 ベンチマークテストで、Janus-Pro-7BはOpenAIのDALL-E3などの主要なモデルを上回る性能を示しました。

✅ Janus-ProはMITオープンソースライセンスを採用しており、商業利用に制限はありません。