CogVLM

強力なオープンソースのビジョン言語モデル

一般製品画像ビジョン言語モデル画像記述

CogVLMは、強力なオープンソースのビジョン言語モデルです。CogVLM-17Bは、100億個のビジュアルパラメータと70億個の言語パラメータを備えています。CogVLM-17Bは、NoCaps、Flicker30k字幕、RefCOCO、RefCOCO+、RefCOCOg、Visual7W、GQA、ScienceQA、VizWiz VQA、TDIUCなど、10個の古典的なクロスモーダルベンチマークテストで最先端の性能を達成し、VQAv2、OKVQA、TextVQA、COCO字幕などでは2位にランクインしており、PaLI-X 55Bを上回るか、同等の性能を示しています。CogVLMは、画像について対話することもできます。

Best AI Websites & Tools

CogVLM

CogVLM 最新のトラフィック状況

CogVLM 訪問数の傾向

CogVLM 訪問地理的分布

CogVLM トラフィックソース

CogVLM 代替品

CogVLM — 強力なオープンソースのビジョン言語モデル

Aya Vision 32B — Aya Vision 32Bは、OCR、画像記述、視覚推論など、多様な用途に適した多言語対応のビジュアル言語モデルです。

M2RAG — マルチモーダルコンテキストにおける検索強化生成のためのベンチマークテストコードリポジトリです。

MILS — LLMは、いかなる訓練もなしに視覚情報と聴覚情報を認識できます。

Ollama OCR for web — 最先端ビジョン言語モデルを用いて画像内のテキストを抽出する、強力なOCRパッケージです。

Moondream AI — 様々なデバイスで動作するオープンソースのビジョン言語モデルです。

DeepSeek-VL2-Tiny — 高度発達した大規模混合専門家（MoE）ビジョン言語モデル

POINTS-1-5-Qwen-2-5-7B-チャット — 最先端の音声言語モデル。日本語と英語に対応し、高品質な制御を無料で提供します。

Qwen2-VL-7B — Qwen2-VL-7Bは最新のビジョン言語モデルであり、マルチモーダル理解とテキスト生成をサポートします。

PaliGemma 2 — PaliGemma 2は、調整が容易な高性能なビジョン言語モデルです。

SmolVLM — 効率的なオープンソースのビジョン言語モデル

Aquila-VL-2B-llava-qwen — 画像とテキスト情報を組み合わせたインテリジェント処理を行う、ビジョン言語モデルです。

rag-chatbot — 複数のPDFファイルとローカルで対話できるチャットボットです。

AI画像記述 — AI技術を用いて画像の記述を高速生成

Qwen2-VL — 次世代ビジョン言語モデル。世界をより鮮明に捉えます。

PixelProse — 1600万枚を超える合成画像記述を提供する大規模画像記述データセットです。

Cici、ブラウザAIコパイロット — ブラウザAIアシスタント。質問に簡単に回答します。

万知 — 万知は、質問応答、読書、創作を統合した、ワンストップAIワークプラットフォームです。

VILA — 複数の画像を扱うビジョン言語モデル。トレーニング、推論、評価のためのソリューションを提供し、クラウドからエッジデバイス（Jetson Orinやノートパソコンなど）への展開が可能です。

CLIP Interrogator — 画像解析・記述ツール

SPRIGHT — テキストから画像へのモデルにおける空間的一貫性を向上させるソリューション

チャンドラー — あなた専用のAIアシスタント

AI画像記述 — AI駆動の画像記述プラットフォーム

InternLM-XComposer2 — 自由形式テキスト画像合成と理解のためのビジョン言語大規模モデル

DocGraphLM — 情報抽出と質問応答のためのドキュメントグラフ言語モデル

RagHost — RAG駆動型内部ツール構築サービス

Campedia — AIカメラで、あらゆる質問に回答

FreeUnlimitedChatBot — 画像生成と質問応答が可能な、無限に無料で利用できるチャットボットです。

Baichuan2-192K — 世界最長コンテキストウィンドウを持つ大規模言語モデル

LangChain — 組み合わせることでLLMを活用したアプリケーションを構築