GLIGEN

プロンプトベースのオープンソース画像生成モデル

一般製品画像コンピュータビジョン深層学習

GLIGENは、テキストプロンプトに基づいたオープンソースの画像生成モデルです。テキスト記述やバウンディングボックスなどの制約条件に基づいて画像を生成できます。このモデルは、事前学習済みのテキストから画像への拡散モデルのパラメータを固定し、そこに新しいデータを追加することで実現されています。このモジュール式設計により、効率的なトレーニングと高い推論柔軟性が得られます。GLIGENは、オープンワールドにおける条件付き画像生成をサポートし、新しく出現する概念やレイアウトに対しても高い汎化能力を備えています。

Best AI Websites & Tools

GLIGEN

GLIGEN 最新のトラフィック状況

GLIGEN 訪問数の傾向

GLIGEN 訪問地理的分布

GLIGEN トラフィックソース

GLIGEN 代替品

GLIGEN — プロンプトベースのオープンソース画像生成モデル

BioEmu — BioEmuは、タンパク質平衡系アンサンブルを拡張可能なシミュレーションを行うための生成型深層学習モデルです。

TryOffAnyone — 着用している人物から平面状の布地モデルを生成します。

StableAnimator — 高品質のアイデンティティ保持型人物アニメーション合成ツール。

LLaMA-Mesh — 3Dメッシュ生成と大規模言語モデルの統合

diffusion-e2e-ft — 画像条件拡散モデルのファインチューニングツール

FluxMusic — テキストから音楽を生成するモデル

MixTeX-LaTeX-OCR — 高性能CPU搭載ローカルオフラインLaTeX認識ツール

VGGSfM — 深層学習による3次元再構成技術

MASt3R — 3D画像マッチングの先進モデル

Comic Translate — 漫画を自動翻訳するデスクトップアプリケーション

GaussianCube — 高精度かつ構造化された放射表現による3D生成モデリング

AIオンラインコース — 人工知能に関する最高の学習リソースを提供。機械学習、データサイエンス、自然言語処理などを学習できます。

CoreNet — CoreNetは、深層ニューラルネットワークの訓練に使用されるライブラリです。

FRESCO — CVPR 2024会議論文プロジェクト。ゼロショットビデオ翻訳のための空間時間対応手法

DUSt3R — カメラキャリブレーション情報不要の高密度ステレオ3D再構成

YOLOv8 — YOLOv8物体検出追跡モデル

VisFusion — ビデオベースの3Dシーン再構築

SCEPTER — オープンソースの生成モデルの学習、微調整、推論フレームワーク

Vision Mamba — 双方向状態空間モデルに基づく、効率的な視覚表現学習フレームワーク

FMA-Net — 動画の超解像度とデノイズのための深層学習モデル

syn-rep-learn — 合成データを用いた視覚表現モデルの学習

UniRef++ — 画像および動画オブジェクト分割のための統一モデル

YOLO-NAS Pose — PyTorchを用いたコンピュータビジョンモデルのトレーニングに使用できるオープンソースライブラリです。

Segment Anything — あらゆる画像からあらゆるオブジェクトを抜き出すことができるオンラインAI画像切り抜きツール

HunyuanVideo-I2V — HunyuanVideo-I2Vは、テンセントがHunyuanVideoに基づいて開発した、画像から動画を生成するフレームワークです。

SRM — ノイズ除去生成モデルによる空間推論を通じて、複雑な分布下でのビジョンタスクを解決します。

QwQ-32B — QwQ-32Bは、複雑な問題解決とテキスト生成のために設計された、強力な推論モデルであり、優れたパフォーマンスを発揮します。

GaussianCity — 3Dガウス描画技術を使用して、高速生成を実現する効率的な境界のない3D都市生成フレームワークです。