EVE

エンコーダフリーの視覚言語モデル。効率的でデータ駆動型です。

一般製品プログラミング視覚言語モデルエンコーダフリー

EVEは、大連理工大学、北京人工智能研究院、北京大学の研究者によって共同開発された、エンコーダフリーの視覚言語モデルです。様々なアスペクト比の画像において優れた能力を発揮し、Fuyu-8Bを上回り、モジュール型エンコーダベースのLVLMsに匹敵する性能を示します。EVEはデータ効率とトレーニング効率に優れ、33Mの公開データを用いた事前学習と、665KのLLaVA SFTデータを用いたEVE-7Bモデルのトレーニング、さらに1.2MのSFTデータを用いたEVE-7B (HD)モデルのトレーニングが行われています。EVEの開発は、効率的で透明性が高く、実用的な戦略を採用しており、クロスモーダルな純粋なデコーダアーキテクチャに新たな道を切り開いています。

Best AI Websites & Tools

EVE

EVE 最新のトラフィック状況

EVE 訪問数の傾向

EVE 訪問地理的分布

EVE トラフィックソース

EVE 代替品

EVE — エンコーダフリーの視覚言語モデル。効率的でデータ駆動型です。

Aya Vision 8B — 8億パラメーターの多言語視覚言語モデルで、OCR、画像キャプション、視覚推論などの機能をサポートしています。

Aya Vision — Aya Visionは、Cohereが提供する多言語・多モーダルなビジュアルモデルであり、多言語環境における視覚とテキストの理解能力の向上を目指しています。

Shandu — 複数の検索エンジンとLLMを使用して包括的な反復調査を行うAI駆動型の調査システムです。

Figure AI Helix — Helixは、汎用人型ロボット制御のための視覚・言語・行動モデルです。

MLGym — MLGymは、AI研究エージェントの発展を促進するための新しいフレームワークとベンチマークです。

SigLIP2 — SigLIP2は、Googleが開発した、ゼロショット画像分類に使用される多言語視覚言語エンコーダーです。

R1-V — 低コストで視覚言語モデルの汎化能力を強化。わずか3ドル未満。

PaliGemma 2-3b-pt-224 — PaliGemma 2は、多言語に対応した画像とテキストの処理タスクをサポートする強力な視覚言語モデルです。

PaliGemma 2-3b-pt-448 — PaliGemma 2は、多様な視覚言語タスクに対応する強力な視覚言語モデルです。

CogAgent-9B-20241220 — CogAgent-9B-20241220は、視覚言語モデルに基づくGUIエージェントモデルです。

vision-parse — 視覚言語モデルを利用してPDFをMarkdownに変換します。

CogAgent — オープンソースのエンドツーエンドの視覚言語モデル（VLM）ベースのGUIエージェント

POINTS-Yi-1.5-9B-Chat — 微信AIの新技術を統合した、最新の視覚言語モデルです。

POINTS-Qwen-2-5-7B-Chat — 最新の視覚言語モデルの進歩

DeepSeek-VL2 — 視覚と言語能力を融合した、高度なマルチモーダル理解モデルです。

Florence-VL — 視覚言語モデル強化ツール。生成型視覚エンコーダと深層幅融合技術を組み合わせました。

Qwen2-VL-2B — 最先端をいく視覚言語モデルで、マルチモーダル理解とテキスト生成に対応しています。

LLaVA-o1 — 段階的推論が可能な視覚言語モデル

Epoch AI — AI研究とトレンド分析プラットフォーム

PromptFix — 人間の指示に従って写真を修復・編集するフレームワーク

ROCKET-1 — オープンワールドインタラクションを習得した視覚的・時間的コンテキストプロンプトモデル

VisRAG — 視覚言語モデルに基づく検索拡張型生成モデル

ColPali — 視覚言語モデルによる高効率文書検索ツール

Helpful DoggyBot — 四足歩行ロボット室内移動OS

PhysGen — 物理ベースの画像から動画への生成技術

Sakana AI — 世界レベルのAI研究ラボを東京に構築

ReactWise — AIによる精密化学製造支援

Phi-3.5-vision — 画像とテキストの理解をサポートする、高度なマルチモーダルモデルです。

Tome.com — AI駆動の法律相談プラットフォーム