ROCKET-1

オープンワールドインタラクションを習得した視覚的・時間的コンテキストプロンプトモデル

一般製品プログラミング視覚言語モデル具象化された意思決定

ROCKET-1は、オープンワールド環境における具象化された意思決定のために設計された視覚言語モデル（VLMs）です。このモデルは、視覚的・時間的コンテキストプロンプトプロトコルを通じて、VLMsとポリシーモデル間の通信を繋ぎ、過去と現在の観測からのオブジェクト分割を利用してポリシーと環境のインタラクションを導きます。ROCKET-1はこの方法により、VLMsの視覚言語推論能力を解き放ち、特に空間理解において、複雑な創造的なタスクを解決することを可能にします。Minecraftにおける実験では、この手法によりエージェントが以前は不可能だったタスクを達成できることが示され、具象化された意思決定における視覚的・時間的コンテキストプロンプトの有効性を強調しています。

Best AI Websites & Tools

ROCKET-1

ROCKET-1 最新のトラフィック状況

ROCKET-1 訪問数の傾向

ROCKET-1 訪問地理的分布

ROCKET-1 トラフィックソース

ROCKET-1 代替品

ROCKET-1 — オープンワールドインタラクションを習得した視覚的・時間的コンテキストプロンプトモデル

PromptFix — 人間の指示に従って写真を修復・編集するフレームワーク

Aya Vision 8B — 8億パラメーターの多言語視覚言語モデルで、OCR、画像キャプション、視覚推論などの機能をサポートしています。

Level-Navi Agent-Search — Level-Navi Agentは、トレーニングなしで使用できるフレームワークであり、大規模言語モデルを使用して、深層クエリ理解と正確な検索を実行します。

VideoGrain — VideoGrainは、カテゴリレベル、インスタンスレベル、パーツレベルの動画編集を実現するためのゼロショット手法です。

Figure AI Helix — Helixは、汎用人型ロボット制御のための視覚・言語・行動モデルです。

SigLIP2 — SigLIP2は、Googleが開発した、ゼロショット画像分類に使用される多言語視覚言語エンコーダーです。

R1-V — 低コストで視覚言語モデルの汎化能力を強化。わずか3ドル未満。

X-Dyna — X-Dynaは、拡散モデルに基づくゼロショットの人物画像アニメーション生成技術です。

PaliGemma 2-3b-pt-224 — PaliGemma 2は、多言語に対応した画像とテキストの処理タスクをサポートする強力な視覚言語モデルです。

PaliGemma 2-3b-pt-448 — PaliGemma 2は、多様な視覚言語タスクに対応する強力な視覚言語モデルです。

CogAgent-9B-20241220 — CogAgent-9B-20241220は、視覚言語モデルに基づくGUIエージェントモデルです。

vision-parse — 視覚言語モデルを利用してPDFをMarkdownに変換します。

CogAgent — オープンソースのエンドツーエンドの視覚言語モデル（VLM）ベースのGUIエージェント

POINTS-Yi-1.5-9B-Chat — 微信AIの新技術を統合した、最新の視覚言語モデルです。

POINTS-Qwen-2-5-7B-Chat — 最新の視覚言語モデルの進歩

DeepSeek-VL2 — 視覚と言語能力を融合した、高度なマルチモーダル理解モデルです。

Meta Motivo — 行動ベースモデルに基づく初の仮想物理ヒューマノイドエージェント制御ツール

Florence-VL — 視覚言語モデル強化ツール。生成型視覚エンコーダと深層幅融合技術を組み合わせました。

Qwen2-VL-2B — 最先端をいく視覚言語モデルで、マルチモーダル理解とテキスト生成に対応しています。

拡散自己蒸留 (Diffusion Self-Distillation) — ゼロショットカスタム画像生成のための拡散自己蒸留技術です。

Voicv — あなたの声を複製します。まるでCtrl+C、Ctrl+Vのように

SAMURAI — ゼロショットビジュアルトラッキングモデル。運動知覚メモリを備えています。

LLaVA-o1 — 段階的推論が可能な視覚言語モデル

MaskGCT — アライメント情報不要のゼロショットテキスト音声変換モデル

VisRAG — 視覚言語モデルに基づく検索拡張型生成モデル

プロンプトエンジニアリング — 包括的なプロンプトエンジニアリング技術リソース集

ColPali — 視覚言語モデルによる高効率文書検索ツール

Helpful DoggyBot — 四足歩行ロボット室内移動OS

Whisper large-v3-turbo — 高効率自動音声認識モデル