moondream

強力な小型ビジュアル言語モデル。どこでも利用可能です。

一般製品画像ビジュアル言語モデル

moondreamは、SigLIP、Phi-1.5、LLaVAのトレーニングデータセットを使用して構築された16億パラメーターのモデルです。LLaVAデータセットを使用しているため、重みはCC-BY-SAライセンスの対象となります。Huggingface Spacesで試用できます。このモデルは、VQAv2、GQA、VizWiz、TextVQAベンチマークで以下の結果を示しました：LLaVA-1.5（133億パラメーター）：80.0、63.3、53.6、61.3；LLaVA-1.5（73億パラメーター）：78.5、62.0、50.0、58.2；MC-LLaVA-3B（30億パラメーター）：64.2、49.6、24.9、38.6；LLaVA-Phi（30億パラメーター）：71.4、-、35.9、48.6；moondream1（16億パラメーター）：74.3、56.3、30.3、39.8。

Best AI Websites & Tools

moondream

moondream 最新のトラフィック状況

moondream 訪問数の傾向

moondream 訪問地理的分布

moondream トラフィックソース

moondream 代替品

moondream — 強力な小型ビジュアル言語モデル。どこでも利用可能です。

MiniCPM-o — MiniCPM-o 2.6：GPT-4oレベルの性能を備え、スマートフォン上でビジュアル、音声、マルチモーダルライブストリーミングを実現するMLLMです。

BizyAir — あらゆる環境で動作するComfyUIノード

Inception Labs — Inception Labsは、次世代の拡散型大規模言語モデルを発表し、極めて高速で効率的で高品質な言語生成能力を提供します。

OpenManus — OpenManusは、招待コードなしで使用できるオープンソースのインテリジェントエージェントプロジェクトです。

HunyuanVideo-I2V — HunyuanVideo-I2Vは、テンセントがHunyuanVideoに基づいて開発した、画像から動画を生成するフレームワークです。

Instella — Instellaは、AMDが開発した高性能なオープンソース言語モデルであり、オープンソース言語モデルの発展を加速するために設計されています。

UniTok — UniTokは、視覚生成と理解のための統一的な視覚トークナイザーです。

GPT-4.5 — OpenAIが発表した最新の言語モデルGPT-4.5は、教師なし学習能力の向上に重点を置き、より自然なインタラクション体験を提供します。

Gemini 2.0 Flash-Lite — Gemini 2.0 Flash-Liteは、長文処理と多様なアプリケーションシナリオ向けに最適化された、高効率な言語モデルです。

Phi-4-mini-instruct — Phi-4-mini-instructは、高品質な推論集約型データに特化した軽量のオープンソース言語モデルです。

DeepSeek 日本語版 — DeepSeekは、論理推論、数学、プログラミングタスクに秀でた高度なAI言語モデルです。無料で利用できます。

AlphaMaze-v0.2-1.5B — 大規模言語モデルの視覚推論能力を向上させるための、テキスト迷路解決タスクを用いた革新的な手法

AlphaMaze — AlphaMazeは、視覚推論タスクに特化したデコーダー言語モデルであり、従来の言語モデルが視覚タスクで抱える課題を解決することを目指しています。

Smithery — Model Context Protocolサーバーを使用して、言語モデルの機能を拡張します。

Moonlight-16B-A3B — Moonlight-16B-A3Bは、Muon最適化器を用いてトレーニングされた160億パラメータの混合専門家モデルであり、効率的な言語生成を目的としています。

DeepHermes-3-Llama-3-8B-Preview — DeepHermes 3は、推論と通常の応答モードをサポートする大規模言語モデルです。

Lora — Loraは、iOSとAndroidに対応したモバイルデバイス向けに最適化されたローカル言語モデルです。

PaliGemma 2 mix — PaliGemma 2 mixは、多様なタスクと分野に適用可能な多機能ビジュアル言語モデルです。

Mistral Saba — Mistral Sabaは、中東および南アジア地域向けにカスタマイズされた地域言語モデルです。

VisionAgent — VisionAgentは、ビジョンタスクを解決するためのコードを生成するライブラリです。複数のLLMプロバイダーに対応しています。

Light-A-Video — Light-A-Videoは、トレーニング不要のビデオ再照明技術です。漸進的な照明融合により、滑らかなビデオ再照明効果を実現します。

AIヘッドショットジェネレーター — オンラインで無料で利用できるAIアバター生成ツール。普通の写真を高画質のプロフェッショナルなアバターに変換できます。

OLMoEアプリ — Ai2 OLMoEは、iOSデバイスで動作するオープンソースの言語モデルアプリです。

Animate Anyone 2 — Animate Anyone 2は、高忠実度なキャラクター画像アニメーション生成ツールで、環境への適応をサポートします。

Podscript — ポッドキャストやその他の音声ファイルの文字起こしテキストを生成するためのツールです。複数の言語モデルと音声認識APIに対応しています。

VisoMaster — AI技術を活用した、自然な効果を実現する強力な動画置換・編集ソフトウェアです。

Genime AI — Genime AIは、アニメーションの生成と編集に特化したツールで、画像から3Dへの変換や、補間アニメーションなどの機能を提供します。

Xwen-Chat — Xwen-Chatは、日本語対話に特化した大規模言語モデルの集合体であり、複数バージョンのモデルと自然言語生成サービスを提供します。

LLMコードネーム — LLMを活用した、創造的なネーミングツールです。ユーザーはこれを使って、簡単にユニークな名前を生成できます。