LEO

3D世界における万能エージェント

一般製品画像人工知能3D世界

LEOは、大規模言語モデルに基づくマルチモーダル、マルチタスク対応の万能エージェントであり、3D世界において、知覚、位置特定、推論、計画、タスク実行が可能です。LEOは、（i）3D視覚言語アライメントと（ii）3D視覚言語行動指示調整という二段階のトレーニングによって実現されています。物体レベルとシーンレベルのマルチモーダルタスクを含む大規模データセットを綿密に企画・生成しており、3D世界に対する深い理解とインタラクションが必要です。厳格な実験を通じて、LEOが3D字幕生成、質疑応答、推論、ナビゲーション、ロボット操作など、幅広いタスクにおいて優れた性能を発揮することを実証しました。

Best AI Websites & Tools

LEO

LEO 最新のトラフィック状況

LEO 訪問数の傾向

LEO 訪問地理的分布

LEO トラフィックソース

LEO 代替品

LEO — 3D世界における万能エージェント

Inception Labs — Inception Labsは、次世代の拡散型大規模言語モデルを発表し、極めて高速で効率的で高品質な言語生成能力を提供します。

UniTok — UniTokは、視覚生成と理解のための統一的な視覚トークナイザーです。

Mochii AI — Mochii AIは、最先端のモデルを基盤としたパーソナライズされたAIエコシステムであり、人間とAIの協働の未来を支援します。

TheoremExplainAgent — TheoremExplainAgentは、マルチモーダルな定理解説動画を生成するためのインテリジェントシステムです。

ZeroBench — ZeroBenchは、現代の大規模マルチモーダルモデルを対象とした、高難易度のビジュアルベンチマークです。

VideoRAG — VideoRAGは、極めて長いコンテキストを持つビデオを処理するための、検索拡張型生成フレームワークです。

OmniHuman-1 — OmniHuman-1は、一枚の人物画像とモーション信号から人間の動画を生成するマルチモーダルフレームワークです。

MILS — LLMは、いかなる訓練もなしに視覚情報と聴覚情報を認識できます。

Janus-Pro-7B — Janus-Pro-7Bは、マルチモーダルな理解と生成を統合した、新しい自己回帰フレームワークです。

UI-TARS — UI-TARSは、次世代のネイティブGUIエージェントモデルであり、グラフィカルユーザーインターフェースの相互作用を自動化するために使用されます。

MinMo — MinMoは、シームレスな音声インタラクションを可能にするマルチモーダル大規模言語モデルです。

Albus AI — 全能AIワークスペース。リアルタイム音声アシスタントとマルチモーダルキャンバスで、効率的な創作と思考を支援します。

Moondream AI — 様々なデバイスで動作するオープンソースのビジョン言語モデルです。

Valley 2.0 — テキスト、画像、動画データを処理する能力を向上させた、マルチモーダル大規模言語モデルです。

Valley — テキスト、画像、動画データを処理するマルチモーダル大規模言語モデル

FlagAI — 一站式の大規模言語モデルアルゴリズム、モデル、最適化ツールを提供するオープンソースプロジェクト

Infini-Megrez — 端側全モーダル理解モデル。ソフトウェアとハードウェアの協調により、無穹端側インテリジェンスを実現

InternVL 2.5 — オープンソースのマルチモーダル大規模言語モデルシリーズ

Amazon Nova — Amazon Novaは、最先端のインテリジェンスと業界トップクラスのコストパフォーマンスを提供する、アマゾン次世代の基盤モデルです。

DataChain — AI向けに設計された、最新のPythonデータフレームライブラリ。

Spirit LM — テキストと音声統合のマルチモーダル言語モデル

2233.ai — すぐに使えるAI会話サービス

UniMuMo — 統一テキスト、音楽、動作生成モデル

岩芯数智 — 国産の大規模言語モデル。マルチモーダルに対応し、迅速かつ低コストでインテリジェント化への転換を支援します。

西湖大模型 — 高EQ・高IQを兼ね備えたマルチモーダル大規模言語モデル

MINT-1T — 1兆個トークンと34億枚の画像を含むマルチモーダルデータセット

LLaVA-NeXT — 多様な画像、動画、3Dデータを処理する大規模マルチモーダルモデルです。

GPT4o.so — 革命的なAI技術、マルチモーダルインテリジェントインタラクション

ビジュアル・スケッチパッド — マルチモーダル言語モデルのための視覚推論ツール