SmolVLM-256M-Instruct
SmolVLM-256Mは、世界最小級のマルチモーダルモデルであり、画像とテキストの入力を効率的に処理してテキスト出力を生成します。
一般製品画像マルチモーダル画像処理
SmolVLM-256Mは、Hugging Faceが開発したIdefics3アーキテクチャに基づくマルチモーダルモデルで、画像とテキストの入力を効率的に処理するために設計されています。画像に関する質問への回答、視覚コンテンツの説明、テキストの転写が可能で、推論には1GB未満のGPUメモリしか必要ありません。このモデルは、軽量なアーキテクチャを維持しながら、マルチモーダルタスクで優れた性能を発揮し、デバイス上でのアプリケーションに適しています。The CauldronとDocmatixのデータセットからトレーニングされており、ドキュメント理解や画像記述など、幅広い分野のコンテンツが含まれているため、広範な応用可能性を備えています。現在、Hugging Faceプラットフォームで無料で提供されており、開発者や研究者に強力なマルチモーダル処理能力を提供することを目的としています。
SmolVLM-256M-Instruct 最新のトラフィック状況
月間総訪問数
29742941
直帰率
44.20%
平均ページ/訪問
5.9
平均訪問時間
00:04:44