AIニュース

世界のAIイノベーションの瞬間をお見逃しなく

AIデイリー

毎日の3分AI業界トレンド

AIタイムライン

AI業界のマイルストーン

Alハードウェアです

すべてのAIハードウェアをリストアップします。

AIマネタイズガイド

画像コレクション

AI画像生成マネタイズ事例

ビデオコレクション

AIビデオ生成マネタイズ事例

オーディオコレクション

AIオーディオ生成マネタイズ事例

コンテンツコレクション

AIコンテンツ作成マネタイズ事例

AIチュートリアル

AIプロダクトランキング

AIウェブサイトの総訪問数ランキングを表示

AIトラフィック成長ランキング

トラフィックによる最も急速に成長しているAIウェブサイトを追跡

AIトラフィック減少ランキング

トラフィックが大幅に減少しているAIウェブサイトに焦点を当てる

AI週間ランキング

AIウェブサイトの週間訪問数ランキングを表示

AIオープンソースプロジェクトライブラリ

概要

GitHubの人気のあるAIオープンソースプロジェクトの概要

プロダクトライブラリツールナビゲーション

北京大学とスタンフォード大学、Pikaと共同でRPGフレームワークを発表、テキストから画像生成研究に新たな突破口

新智元

公開日AIニュース · 1 分で読めます · Feb 18, 2024

北京大学、スタンフォード大学、そしてPika Labsが共同で、新しいオープンソースのテキストから画像生成フレームワーク「RPG」を発表しました。これは、マルチモーダルLLMの能力を活用することで、テキストから画像生成における2つの大きな課題を解決することに成功しました。

このフレームワークは、テキストプロンプトの分解、画像空間の分割、そしてサブ領域画像の独立した生成といったコア戦略を通じて、顕著な研究成果を上げており、テキストから画像生成の分野に新たなブレークスルーをもたらしています。

テキストから画像生成 RPGフレームワークマルチモーダルLLM

この記事はAIbaseデイリーからのものです

【AIデイリー】へようこそ！ここは、毎日人工知能の世界を探求するためのガイドです。毎日、開発者に焦点を当て、技術トレンドを洞察し、革新的なAI製品アプリケーションを理解するのに役立つ、AI分野のホットなコンテンツをお届けします。

—— AIbase デイリーグループによって作成

豆包の深層思考とテキストから画像生成3.0モデルが正式にAPIを公開企業顧客向けに開放

豆包大規模言語モデルは先日、一連のアップデートを発表しました。その中で、豆包1.5・深層思考モデルと豆包テキストから画像生成モデル3.0が火山エンジンを通じてAPIを正式に公開し、開発者と企業顧客が利用できるようになりました。これらの2つのモデルは、推論タスクと汎用タスクにおける総合的なパフォーマンスが業界最先端レベルに達しており、視覚的推論と画像生成において顕著な進歩を遂げています。

Apr 17, 2025

バイトダンスSeedream 3.0テキストから画像生成モデル技術レポート発表：複数性能の大幅アップグレード

バイトダンスSeedチームは、Seedream 3.0テキストから画像生成モデルの技術レポートを発表しました。このモデルは性能において大幅な向上を実現し、ネイティブの高解像度をサポートし、中国語と英語の両言語に対応した画像生成基礎モデルです。解像度、画像構造の正確性など多くの点でブレークスルーを達成し、以前のバージョンと比較して顕著な優位性を示しています。Seedream 3.0の様々な側面でのパフォーマンス。図中の各次元のデータは、最適な指標を基準として正規化されています。機能のハイライトとしては、Seedream 3.0はネイティブで…

Apr 16, 2025

Runway、映画レベルのビジュアル表現を生み出す新たなAI画像ジェネレーター「Frames」を発表

AIメディアテクノロジー企業Runwayは、最新のテキストから画像生成モデル「Frames」を発表しました。AIビデオモデルで知られるRunwayが、画像創作分野における影響力の拡大を目指した取り組みです。Framesは、特に映画のような視覚効果の生成において高い評価を得ており、ユーザーから広く好評を得ています。このモデルは2024年11月に初めて発表され、過去数週間はRunwayクリエイタープログラムのユーザーに先行体験版が提供されていました。

Jan 20, 2025

4.4k

NVIDIAがオープンソース化したテキストから画像生成モデルSana：ノートPCでも4K超高画質画像を高速生成

AI画像生成技術は急速に発展していますが、モデルのサイズが大きくなり、一般ユーザーにとっての学習や使用コストが高くなっています。今、"Sana"と呼ばれる新しいテキストから画像へのフレームワークが登場し、最大4096×4096ピクセルの超高解像度画像を効率的に、そして驚くべき速度で生成します。ノートPCのGPUでも動作可能です。Sanaの中核設計には、深層圧縮自己符号化器が含まれています。従来の自己符号化器が画像を8倍に圧縮するのに対し、Sanaが使用する自己符号化器は…

Jan 14, 2025

1.9k

ScreenSpot-Pro：高解像度環境向けに設計されたマルチモーダルLLMベンチマークツール！

専門環境において、グラフィカルユーザーインターフェース（GUI）エージェントは3つの主要な課題に直面しています。まず、専門アプリケーションは一般ソフトウェアよりもはるかに複雑で、複雑なレイアウトに対する深い理解が求められます。次に、専門ツールは通常、より高い解像度を持ち、ターゲットサイズが小さくなるため、位置特定の精度が低下します。最後に、ワークフローは多くの場合、追加のツールやドキュメントに依存しており、操作の複雑さを増しています。これらの課題は、これらの厳しい状況におけるGUIエージェントのパフォーマンスを向上させるための、より高度なベンチマークとソリューションを開発する必要性を浮き彫りにしています。現在

Jan 6, 2025

1.6k

バイトダンスAIアシスタントDoubao、指定テキスト付き画像の一括生成に対応

バイトダンス傘下のAIアシスタントDoubaoは、テキストから画像を生成する機能をアップグレードし、指定テキストを含む画像をワンクリックで生成できるようになりました。Doubaoの大規模言語モデルチームの責任者によると、Doubaoのテキストから画像生成モデルは、LLM（大規模言語モデル）とDIT（デジタル画像技術）を統合したアーキテクチャを採用し、中国語データの学習能力を最適化することで、漢字の生成能力を強化し、生成効果を大幅に向上させました。

Dec 5, 2024

4.8k

阿里云通義万相、新しい画像編集モデルACEを発表　ワンクリックで画像編集を実現

今週、阿里云通義万相チームは新しい画像編集モデルACEを発表しました。ユーザーにより便利でスマートな画像生成と編集サービスを提供することを目的としています。ユーザーは簡単な口語的な指示だけで画像を生成または編集でき、画像編集の複雑さを大幅に簡素化します。このツールは、スタイル写真、分鏡制作、室内デザインなど、幅広い用途に対応しています。ACEモデルは、テキストから画像を生成する機能だけでなく、強力な画像編集機能も備えています。ユーザーは対話形式で制御可能なビジュアル編集や要素修正を行うことができます。

Dec 2, 2024

3.1k

CMUとMetaが共同開発！VQAScoreでテキストから画像生成モデルの評価を向上

生成AIは目覚ましい発展を遂げていますが、その性能を包括的に評価することは依然として課題です。様々なモデルが登場し、その効果はますます驚異的になっています。しかし、これらのテキストから画像を生成するモデルの効果をどのように評価すれば良いのでしょうか？従来の評価方法は、人間の目による評価に頼るため主観性が強すぎるか、CLIPScoreのような単純な指標を使用しますが、これらの指標は、オブジェクト間の関係や論理的推論など、複雑なテキストプロンプトの細部を捉えきれないことが多々あります。そのため、多くのテキストから画像を生成するモデルの評価結果が不正確になったり、誤った評価がされる可能性があります。

Nov 6, 2024

2.1k

Diffusionモデルでも「応用が利く」？アリババIC-LoRAが画像生成モデルにストーリー記憶能力を追加

アリババの通義实验室による最新の研究によると、既存のテキストから画像を生成するDiffusion Transformerモデルは、特定の関係を持つ複数の画像を生成する能力を既に備えており、少し「ヒント」を与えるだけで「統合理解」し、高品質の複数画像セットを生成できることが示されました。従来のDiffusionモデルは「丸暗記」をする生徒のようなもので、高品質の画像を生成するには大量のデータによるトレーニングが必要でした。しかし、IC-LoRAの活用により、「類推」が得意な秀才のようなモデルとなり、少量のデータで済むようになります。

Nov 4, 2024

5.1k

Canva、新たなテキストから画像生成ツール「Dream Lab」を発表！ワンクリックで3Dイラストを作成可能に！

Canvaは先日、一連の新しいAI機能を発表しました。中でも最も注目すべきは、新たな画像生成ツール「Dream Lab」です。このツールは、Canvaが生成AIスタートアップのLeonardo.aiを買収した後に発表されたもので、LeonardoのPhoenixモデル（AdobeのFirefly AIと混同しないでください）を利用しています。ユーザーはテキストによる説明から、様々なスタイルの画像を生成できます。例えば、

Oct 23, 2024

2.1k

AIニュース

AIデイリー

AIタイムライン

Alハードウェアです

最新事例

画像コレクション

ビデオコレクション

オーディオコレクション

コンテンツコレクション

最新チュートリアル

AIプロダクトランキング

AIトラフィック成長ランキング

AIトラフィック減少ランキング

AI週間ランキング

アメリカ合衆国

中国

インド

ブラジル

画像生成

パーソナルアシスタント

キャラクター生成

ビデオ生成

AIプロジェクトランキング

AIプロジェクト成長ランキング

AI開発者ランキング

AI組織ランキング

Deepseek

TTS

LLM

ChatGPT

概要