SmolVLM-500M-Instruct

SmolVLM-500Mは、軽量なマルチモーダルモデルであり、画像とテキストの入力を処理してテキスト出力を生成できます。

一般製品画像マルチモーダル画像キャプション生成
SmolVLM-500Mは、Hugging Faceが開発したSmolVLMシリーズに属する軽量なマルチモーダルモデルです。Idefics3アーキテクチャに基づいており、効率的な画像とテキスト処理タスクに焦点を当てています。任意の順序で画像とテキストの入力を受け入れ、テキスト出力を生成し、画像キャプション生成、ビジュアルクエスチョン解答などのタスクに適しています。軽量なアーキテクチャにより、リソースの限られたデバイスでも実行でき、同時に強力なマルチモーダルタスクのパフォーマンスを維持できます。このモデルはApache 2.0ライセンスを採用しており、オープンソースで柔軟な使用シナリオをサポートしています。
ウェブサイトを開く

SmolVLM-500M-Instruct 最新のトラフィック状況

月間総訪問数

29742941

直帰率

44.20%

平均ページ/訪問

5.9

平均訪問時間

00:04:44

SmolVLM-500M-Instruct 訪問数の傾向

SmolVLM-500M-Instruct 訪問地理的分布

SmolVLM-500M-Instruct トラフィックソース

SmolVLM-500M-Instruct 代替品