最近、研究チームが共同でMeissonicというオープンソースのAI画像生成モデルを発表しました。驚くべきことに、このモデルはわずか10億個のパラメータしか使用していませんが、高品質な画像を生成できます。このコンパクトな設計により、Meissonicはモバイルデバイスでのローカライズされたテキストから画像へのアプリケーションの実現に大きな可能性を秘めています。
この技術の背後には、アリババ、Skywork AI、そして複数の大学の研究者からなる研究開発チームがいます。彼らは独自のトランスフォーマーアーキテクチャと斬新なトレーニング方法を採用することで、Meissonicを一般的なゲーミングPCで動作させ、将来的にはスマートフォンでの使用も可能にしています。
Meissonicのトレーニング方法では、「マスキング画像モデリング」と呼ばれる技術が採用されています。簡単に言うと、トレーニング中に画像の一部を隠す方法です。モデルは、見える領域とテキストの説明に基づいて、欠けている部分を再構築する方法を学習します。この方法は、画像要素とテキスト間の関係をモデルが理解するのに役立ちます。
Meissonicのアーキテクチャにより、1024x1024ピクセルの高解像度画像を生成できます。リアルな風景から、スタイリッシュなテキスト、絵文字、さらには漫画風ステッカーまで、あらゆるものを簡単に処理できます。
従来の自己回帰モデルが画像を段階的に生成するのと異なり、Meissonicは並列反復最適化によってすべての画像情報を同時に予測します。この革新的な手法により、デコードの手順が大幅に削減され、約99%の時間短縮を実現し、画像生成速度が大幅に向上しました。
モデルの構築過程では、研究者たちは4つのステップを踏みました。
まず、2億枚の256x256ピクセルの画像を使用して、モデルに基本的な概念を教え込みました。次に、厳しく選別された1000万組の画像とテキストのペアを使用して、テキスト理解能力を高めました。その後、特別な圧縮層を追加することで、モデルが1024x1024ピクセルの画像を出力できるようにしました。最後に、人間の好みを反映したデータを用いて微調整を行い、モデルの性能を向上させました。
興味深いことに、Meissonicのパラメータ数は少ないにもかかわらず、SDXLやDeepFloyd-XLなど、より大きなモデルを上回る性能を複数のベンチマークテストで示しました。「人間の好みスコア」では28.83の高得点を獲得しています。さらに、Meissonicは追加のトレーニングなしで画像の修復と拡張が可能であり、ユーザーは簡単に欠けている画像部分を補うことや、既存の画像を創造的に拡張することができます。
研究チームは、この方法が、カスタマイズされたAI画像ジェネレーターの迅速かつ低コストな開発を促進し、モバイルデバイスでのテキストから画像へのアプリケーションの発展にもつながると考えています。興味のある方は、Hugging Faceでデモ版をご覧いただき、GitHubでモデルのコードをご確認ください。一般的な8GBのVRAMを搭載した消費者向けGPUでも簡単に実行できます。
デモ:https://huggingface.co/spaces/MeissonFlow/meissonic
プロジェクト:https://github.com/viiika/Meissonic
重要なポイント:
🌟 Meissonicは、わずか10億個のパラメータで高品質な画像を生成できるオープンソースのAIモデルであり、一般的なゲーミングPCや将来のモバイルデバイスでの使用に適しています。
⚡ 並列反復最適化によるトレーニング方法を採用することで、Meissonicは画像生成速度において従来のモデルよりも99%高速です。
🏆 パラメータ数が少ないにもかかわらず、Meissonicは複数のテストでより大きなモデルを上回る性能を示しており、トレーニングなしで画像の修復と拡張機能を実現しています。