北京大学、スタンフォード大学、そしてPika Labsが共同で、新しいオープンソースのテキストから画像生成フレームワーク「RPG」を発表しました。これは、マルチモーダルLLMの能力を活用することで、テキストから画像生成における2つの大きな課題を解決することに成功しました。
このフレームワークは、テキストプロンプトの分解、画像空間の分割、そしてサブ領域画像の独立した生成といったコア戦略を通じて、顕著な研究成果を上げており、テキストから画像生成の分野に新たなブレークスルーをもたらしています。
北京大学、スタンフォード大学、そしてPika Labsが共同で、新しいオープンソースのテキストから画像生成フレームワーク「RPG」を発表しました。これは、マルチモーダルLLMの能力を活用することで、テキストから画像生成における2つの大きな課題を解決することに成功しました。
このフレームワークは、テキストプロンプトの分解、画像空間の分割、そしてサブ領域画像の独立した生成といったコア戦略を通じて、顕著な研究成果を上げており、テキストから画像生成の分野に新たなブレークスルーをもたらしています。
【AIデイリー】へようこそ!ここは、毎日人工知能の世界を探求するためのガイドです。毎日、開発者に焦点を当て、技術トレンドを洞察し、革新的なAI製品アプリケーションを理解するのに役立つ、AI分野のホットなコンテンツをお届けします。
AIメディアテクノロジー企業Runwayは、最新のテキストから画像生成モデル「Frames」を発表しました。AIビデオモデルで知られるRunwayが、画像創作分野における影響力の拡大を目指した取り組みです。Framesは、特に映画のような視覚効果の生成において高い評価を得ており、ユーザーから広く好評を得ています。このモデルは2024年11月に初めて発表され、過去数週間はRunwayクリエイタープログラムのユーザーに先行体験版が提供されていました。
AI画像生成技術は急速に発展していますが、モデルのサイズが大きくなり、一般ユーザーにとっての学習や使用コストが高くなっています。今、"Sana"と呼ばれる新しいテキストから画像へのフレームワークが登場し、最大4096×4096ピクセルの超高解像度画像を効率的に、そして驚くべき速度で生成します。ノートPCのGPUでも動作可能です。Sanaの中核設計には、深層圧縮自己符号化器が含まれています。従来の自己符号化器が画像を8倍に圧縮するのに対し、Sanaが使用する自己符号化器は…
専門環境において、グラフィカルユーザーインターフェース(GUI)エージェントは3つの主要な課題に直面しています。まず、専門アプリケーションは一般ソフトウェアよりもはるかに複雑で、複雑なレイアウトに対する深い理解が求められます。次に、専門ツールは通常、より高い解像度を持ち、ターゲットサイズが小さくなるため、位置特定の精度が低下します。最後に、ワークフローは多くの場合、追加のツールやドキュメントに依存しており、操作の複雑さを増しています。これらの課題は、これらの厳しい状況におけるGUIエージェントのパフォーマンスを向上させるための、より高度なベンチマークとソリューションを開発する必要性を浮き彫りにしています。現在
バイトダンス傘下のAIアシスタントDoubaoは、テキストから画像を生成する機能をアップグレードし、指定テキストを含む画像をワンクリックで生成できるようになりました。Doubaoの大規模言語モデルチームの責任者によると、Doubaoのテキストから画像生成モデルは、LLM(大規模言語モデル)とDIT(デジタル画像技術)を統合したアーキテクチャを採用し、中国語データの学習能力を最適化することで、漢字の生成能力を強化し、生成効果を大幅に向上させました。
今週、阿里云通義万相チームは新しい画像編集モデルACEを発表しました。ユーザーにより便利でスマートな画像生成と編集サービスを提供することを目的としています。ユーザーは簡単な口語的な指示だけで画像を生成または編集でき、画像編集の複雑さを大幅に簡素化します。このツールは、スタイル写真、分鏡制作、室内デザインなど、幅広い用途に対応しています。ACEモデルは、テキストから画像を生成する機能だけでなく、強力な画像編集機能も備えています。ユーザーは対話形式で制御可能なビジュアル編集や要素修正を行うことができます。
生成AIは目覚ましい発展を遂げていますが、その性能を包括的に評価することは依然として課題です。様々なモデルが登場し、その効果はますます驚異的になっています。しかし、これらのテキストから画像を生成するモデルの効果をどのように評価すれば良いのでしょうか?従来の評価方法は、人間の目による評価に頼るため主観性が強すぎるか、CLIPScoreのような単純な指標を使用しますが、これらの指標は、オブジェクト間の関係や論理的推論など、複雑なテキストプロンプトの細部を捉えきれないことが多々あります。そのため、多くのテキストから画像を生成するモデルの評価結果が不正確になったり、誤った評価がされる可能性があります。
アリババの通義实验室による最新の研究によると、既存のテキストから画像を生成するDiffusion Transformerモデルは、特定の関係を持つ複数の画像を生成する能力を既に備えており、少し「ヒント」を与えるだけで「統合理解」し、高品質の複数画像セットを生成できることが示されました。従来のDiffusionモデルは「丸暗記」をする生徒のようなもので、高品質の画像を生成するには大量のデータによるトレーニングが必要でした。しかし、IC-LoRAの活用により、「類推」が得意な秀才のようなモデルとなり、少量のデータで済むようになります。
Canvaは先日、一連の新しいAI機能を発表しました。中でも最も注目すべきは、新たな画像生成ツール「Dream Lab」です。このツールは、Canvaが生成AIスタートアップのLeonardo.aiを買収した後に発表されたもので、LeonardoのPhoenixモデル(AdobeのFirefly AIと混同しないでください)を利用しています。ユーザーはテキストによる説明から、様々なスタイルの画像を生成できます。例えば、
昨日夜、Stability AIは、その最強のモデルであるStable Diffusion 3.5を発表しました。これは単一のモデルではなく、研究者からビジネス愛好家、スタートアップ企業、企業まで、多様なニーズを満たすことを目的とした3つのバージョンを含むファミリーパックです。この3つのバージョンは、Stable Diffusion 3.5 Large、Stable Diffusion 3.5 Large Turbo、そして10月29日にリリース予定のバージョンです。
NVIDIA、マサチューセッツ工科大学、清華大学の研究者らが協力して開発した、Sanaと呼ばれる新しいテキストから画像生成フレームワークが登場しました。このフレームワークは、最大4096×4096ピクセルの高解像度画像を効率的に生成できます。Sanaは、高解像度で高品質、テキストとの整合性の高い画像を非常に高速に合成でき、ノートパソコンのGPUでも動作します。Sanaの中核となる設計には、深層圧縮オートエンコーダーが含まれています。従来のオートエンコーダーが画像を8倍にしか圧縮できないのに対し、Sanaで訓練されたオートエンコーダーは…