CogView

Transformerベースの汎用ドメインテキストツーイメージ生成モデル

一般製品画像Transformerテキストツーイメージ

CogViewは、汎用ドメインのテキストから画像を生成するための事前学習済みTransformerモデルです。410億個のパラメータを含み、高品質で多様な画像を生成できます。モデルの学習アプローチは抽象的なものから具体的なものへと段階的に進めるもので、まず事前学習によって汎用的な知識を獲得し、その後、特定のドメインでファインチューニングを行い画像を生成することで、生成品質を大幅に向上させています。特筆すべき点として、論文では大規模モデルの安定した学習を支援する2つの手法、PB-relaxとSandwich-LNが提案されています。

Best AI Websites & Tools

CogView

CogView 最新のトラフィック状況

CogView 訪問数の傾向

CogView 訪問地理的分布

CogView トラフィックソース

CogView 代替品

CogView — Transformerベースの汎用ドメインテキストツーイメージ生成モデル

Ideogram 1.0 — AIアシストによるクリエイティブな画像生成

SRM — ノイズ除去生成モデルによる空間推論を通じて、複雑な分布下でのビジョンタスクを解決します。

QwQ-32B — QwQ-32Bは、複雑な問題解決とテキスト生成のために設計された、強力な推論モデルであり、優れたパフォーマンスを発揮します。

ART — 可変多層透明画像生成のための匿名領域変換技術です。

CogView4 — CogView4は、中国語と英語に対応した高解像度テキストツーイメージ生成モデルです。

Microsoft Muse — Museは、ゲームのアイデア構想のための生成AIモデルとしてマイクロソフトが初めて発表したもので、ゲームのビジュアルエフェクトと操作動作を生成できます。

BioEmu — BioEmuは、タンパク質平衡系アンサンブルを拡張可能なシミュレーションを行うための生成型深層学習モデルです。

MoBA — MoBAは、長文コンテキストに対応した混合ブロックアテンション機構であり、大規模言語モデルの効率化を目的としています。

DiffSplat — DiffSplatは、テキストプロンプトと単一視点画像から3Dガウシアン点群を生成するジェネレーティブフレームワークです。

Janus-Pro-1B — Janus-Pro-1Bは、統一的な多様なモダリティを理解し生成する自己回帰フレームワークです。

SplineによるSpell — Spellは、画像から3Dワールドを生成できるAIモデルで、様々なレンダリング技術に対応しています。

ViTPose — TransformerベースのViTPoseモデル群

EurusPRM-Stage2 — EurusPRM-Stage2は、生成モデルの推論能力向上を目的とした、暗黙的過程報酬に基づく強化学習モデルです。

EurusPRM-Stage1 — EurusPRM-Stage1は、暗黙的過程報酬に基づく強化学習モデルであり、生成モデルの推論能力向上を目的としています。

FlexRAG — 情報検索と生成のための柔軟で高性能なフレームワーク

ModernBERT-large — 高性能の双方向エンコーダーTransformerモデル

VMix — テキストツーイメージ拡散モデルの美的品質向上ツール

ModernBERT — ModernBERTは、卓越した性能を誇る次世代エンコーダーモデルです。

Sana_600M_512px — 高効率・高解像度テキストツーイメージ生成フレームワーク

Llama-3.3-70B-Instruct — 70億パラメーターの多言語大規模言語モデル

Sana_1600M_1024px — 高解像度、高効率のテキストツーイメージ生成フレームワーク

MV-Adapter — 多視点一貫性画像生成のための簡便なソリューション

Sana — 高効率高解像度画像合成フレームワーク

OLMo 2 13B — 高性能の英語学術ベンチマーク言語モデル

Star-Attention — 効率的な長系列大型言語モデル推論技術

FLUX.1 Tools — 最先端テキストツーイメージモデルツールキット

MobileLLM-1B — Metaが開発した10億パラメーター以下の言語モデルで、デバイス上での利用に適しています。