SmolVLM-256M-Instruct

SmolVLM-256Mは、世界最小級のマルチモーダルモデルであり、画像とテキストの入力を効率的に処理してテキスト出力を生成します。

一般製品画像マルチモーダル画像処理
SmolVLM-256Mは、Hugging Faceが開発したIdefics3アーキテクチャに基づくマルチモーダルモデルで、画像とテキストの入力を効率的に処理するために設計されています。画像に関する質問への回答、視覚コンテンツの説明、テキストの転写が可能で、推論には1GB未満のGPUメモリしか必要ありません。このモデルは、軽量なアーキテクチャを維持しながら、マルチモーダルタスクで優れた性能を発揮し、デバイス上でのアプリケーションに適しています。The CauldronとDocmatixのデータセットからトレーニングされており、ドキュメント理解や画像記述など、幅広い分野のコンテンツが含まれているため、広範な応用可能性を備えています。現在、Hugging Faceプラットフォームで無料で提供されており、開発者や研究者に強力なマルチモーダル処理能力を提供することを目的としています。
ウェブサイトを開く

SmolVLM-256M-Instruct 最新のトラフィック状況

月間総訪問数

29742941

直帰率

44.20%

平均ページ/訪問

5.9

平均訪問時間

00:04:44

SmolVLM-256M-Instruct 訪問数の傾向

SmolVLM-256M-Instruct 訪問地理的分布

SmolVLM-256M-Instruct トラフィックソース

SmolVLM-256M-Instruct 代替品