AIニュース

AIニュース

世界のAIイノベーションの瞬間をお見逃しなく

AIデイリー

毎日の3分AI業界トレンド

AIタイムライン

AI業界のマイルストーン

Alハードウェアです

すべてのAIハードウェアをリストアップします。

AIマネタイズガイド

最新事例

AIマネタイズ事例の共有

画像コレクション

AI画像生成マネタイズ事例

ビデオコレクション

AIビデオ生成マネタイズ事例

オーディオコレクション

AIオーディオ生成マネタイズ事例

コンテンツコレクション

AIコンテンツ作成マネタイズ事例

AIチュートリアル

最新チュートリアル

最新のAIチュートリアルを無料で共有

AIプロダクトランキング

AIプロダクトランキング

AIウェブサイトの総訪問数ランキングを表示

AIトラフィック成長ランキング

トラフィックによる最も急速に成長しているAIウェブサイトを追跡

AIトラフィック減少ランキング

トラフィックが大幅に減少しているAIウェブサイトに焦点を当てる

AI週間ランキング

AIウェブサイトの週間訪問数ランキングを表示

人気のある国ランキング

アメリカ合衆国

米国のユーザーに最も人気のあるAIウェブサイト

中国

中国のユーザーに最も人気のあるAIウェブサイト

インド

インドのユーザーに最も人気のあるAIウェブサイト

ブラジル

ブラジルのユーザーに最も人気のあるAIウェブサイト

人気のあるカテゴリランキング

画像生成

AI画像生成ウェブサイトの総訪問数ランキング

パーソナルアシスタント

AIパーソナルアシスタントウェブサイトの総訪問数ランキング

キャラクター生成

AIキャラクター生成ウェブサイトの総訪問数ランキング

ビデオ生成

AIビデオ生成ウェブサイトの総訪問数ランキング

人気のあるオープンソースデータランキング

AIプロジェクトランキング

GitHubの人気のあるAIプロジェクトを総スター数でランキング

AIプロジェクト成長ランキング

GitHubの人気のあるAIプロジェクトを成長率でランキング

AI開発者ランキング

GitHubの人気のあるAI開発者ランキング

AI組織ランキング

GitHubの人気のあるAI組織ランキング

人気のあるオープンソースカテゴリ

Deepseek

GitHubの人気のあるDeepseekオープンソースプロジェクト

TTS

GitHubの人気のあるTTSオープンソースプロジェクト

LLM

GitHubの人気のあるLLMオープンソースプロジェクト

ChatGPT

GitHubの人気のあるChatGPTオープンソースプロジェクト

AIオープンソースプロジェクトライブラリ

概要

GitHubの人気のあるAIオープンソースプロジェクトの概要

プロダクトライブラリツールナビゲーション

Llama-3.2-11B-Vision

画像とテキストの処理に対応した、マルチモーダル大規模言語モデルです。

一般製品生産性マルチモーダル画像処理

ウェブサイトを開く

Llama-3.2-11B-Visionは、Metaが公開したマルチモーダル大規模言語モデル（LLM）であり、画像とテキスト処理機能を統合することで、視覚認識、画像推論、画像記述、画像に関する一般的な質問への回答のパフォーマンス向上を目指しています。このモデルは、一般的な業界ベンチマークにおいて、多くのオープンソースおよびクローズドソースのマルチモーダルモデルを上回る性能を示しています。

Llama-3.2-11B-Vision

ウェブサイトを開く

Llama-3.2-11B-Vision 最新のトラフィック状況

月間総訪問数

27175375

直帰率

44.30%

平均ページ/訪問

5.8

平均訪問時間

00:04:57

Llama-3.2-11B-Vision 訪問数の傾向

Llama-3.2-11B-Vision 訪問地理的分布

Llama-3.2-11B-Vision トラフィックソース

Llama-3.2-11B-Vision 代替品

InternVL2_5-26B-MPO-AWQ

InternVL2_5-26B-MPO-AWQ — 高度洗練されたマルチモーダル大規模言語モデルであり、卓越したマルチモーダル推論能力を備えています。

プログラミング

•マルチモーダル•大規模言語モデル

Llama-3.2-11B-Vision — 画像とテキストの処理に対応した、マルチモーダル大規模言語モデルです。

•マルチモーダル•画像処理

OneLLM — あらゆる言語モダリティを統合するフレームワーク

•マルチモーダル•画像処理

InternVL3 — InternVL3オープンソース：テキスト、画像、ビデオ処理に対応する7種類のサイズ、マルチモーダル機能は工業用画像分析まで拡張

•マルチモーダル•画像処理

Mistral Small 3.1 — テキストとビジョンタスク処理能力を強化したオープンソースモデル。

•マルチモーダル•テキスト処理

UniTok — UniTokは、視覚生成と理解のための統一的な視覚トークナイザーです。

•人工知能•視覚生成

SmolVLM-256M-Instruct — SmolVLM-256Mは、世界最小級のマルチモーダルモデルであり、画像とテキストの入力を効率的に処理してテキスト出力を生成します。

•マルチモーダル•画像処理

InternVL2.5-38B-MPO — InternVL2.5-MPOシリーズモデルは、InternVL2.5と混合嗜好最適化に基づき、卓越した性能を発揮します。

•マルチモーダル•大規模言語モデル

InternVL2_5-8B-MPO — 優れた総合性能を備えたマルチモーダル大規模言語モデルです。

•マルチモーダル•大規模言語モデル

InternVL2_5-4B-MPO — 卓越な総合性能を発揮するマルチモーダル大規模言語モデル

•マルチモーダル•大規模言語モデル

Valley-Eagle-7B — テキスト、画像、ビデオデータを処理するマルチモーダル大規模言語モデル

•マルチモーダル•大規模言語モデル

Valley — テキスト、画像、動画データを処理するマルチモーダル大規模言語モデル

•マルチモーダル•大規模言語モデル

InternVL2_5-2B-MPO

InternVL2_5-2B-MPO — 高度先進なマルチモーダル大規模言語モデル

•マルチモーダル•大規模言語モデル

Spirit LM — テキストと音声統合のマルチモーダル言語モデル

•マルチモーダル•言語モデル

Pixtral-12B-2409

Pixtral-12B-2409 — 120億パラメーターのマルチモーダルモデル。ビジョンエンコーダーを組み合わせることで、画像とテキストの処理を行います。

•マルチモーダル•画像処理

Pixtral 12B

Pixtral 12B — 画像とテキストの混合タスク処理に対応した、初の多様なモダリティに対応するMistralモデルです。

•多様なモダリティ•AIモデル

pixtral-12b-240910 — 画像とテキストの理解をサポートする、マルチモーダル大規模言語モデルです。

•マルチモーダル•画像処理

Mini-Gemini — 画像理解と生成の両方を備えたマルチモーダルAIモデル

•AIモデル•画像処理

1min.AI — 多機能AIアプリ。1分で効率アップ！

•人工知能•画像処理

Kosmos-2 — 世界規模に対応したマルチモーダル大規模言語モデル

•自然言語処理•マルチモーダル

Argil — ノーコードAI自動化ツール

•ノーコード•AI自動化

InstantCharacter — InstantCharacterは、拡散変換器に基づくキャラクターパーソナライズフレームワークです。

•キャラクター生成•画像処理

Liquid — 視覚理解と生成を統合したマルチモーダル生成モデルです。

•マルチモーダル•生成モデル

搜狐シンプルAI — 多機能AIツールで、絵画、ライティング、画像処理サービスを提供します。

•デザインツール•画像処理

Pusa — Pusaは、様々な動画生成タスクに対応した、革新的な動画拡散モデルです。

•動画生成•オープンソース

Kimi-VL — マルチモーダル推論機能を備えた、効率的なオープンソースの専門家混合型ビジョン言語モデルです。

中国セレクション

•マルチモーダル•推論

HiPixel — HiPixelは、AI駆動の画像超解像度処理のためのmacOSデスクトップクライアントアプリケーションです。

•画像処理•macOS

DreamActor-M1 — DiTベースのヒューマンイメージアニメーションフレームワークであり、精細な制御と長期的な一貫性を実現します。

•ヒューマンアニメーション•ビデオ生成

Thera — エイリアシングのない任意の尺度での超解像度手法です。

•超解像度•画像処理