AIニュース

AIニュース

世界のAIイノベーションの瞬間をお見逃しなく

AIデイリー

毎日の3分AI業界トレンド

AIタイムライン

AI業界のマイルストーン

Alハードウェアです

すべてのAIハードウェアをリストアップします。

AIマネタイズガイド

最新事例

AIマネタイズ事例の共有

画像コレクション

AI画像生成マネタイズ事例

ビデオコレクション

AIビデオ生成マネタイズ事例

オーディオコレクション

AIオーディオ生成マネタイズ事例

コンテンツコレクション

AIコンテンツ作成マネタイズ事例

AIチュートリアル

最新チュートリアル

最新のAIチュートリアルを無料で共有

AIプロダクトランキング

AIプロダクトランキング

AIウェブサイトの総訪問数ランキングを表示

AIトラフィック成長ランキング

トラフィックによる最も急速に成長しているAIウェブサイトを追跡

AIトラフィック減少ランキング

トラフィックが大幅に減少しているAIウェブサイトに焦点を当てる

AI週間ランキング

AIウェブサイトの週間訪問数ランキングを表示

人気のある国ランキング

アメリカ合衆国

米国のユーザーに最も人気のあるAIウェブサイト

中国

中国のユーザーに最も人気のあるAIウェブサイト

インド

インドのユーザーに最も人気のあるAIウェブサイト

ブラジル

ブラジルのユーザーに最も人気のあるAIウェブサイト

人気のあるカテゴリランキング

画像生成

AI画像生成ウェブサイトの総訪問数ランキング

パーソナルアシスタント

AIパーソナルアシスタントウェブサイトの総訪問数ランキング

キャラクター生成

AIキャラクター生成ウェブサイトの総訪問数ランキング

ビデオ生成

AIビデオ生成ウェブサイトの総訪問数ランキング

人気のあるオープンソースデータランキング

AIプロジェクトランキング

GitHubの人気のあるAIプロジェクトを総スター数でランキング

AIプロジェクト成長ランキング

GitHubの人気のあるAIプロジェクトを成長率でランキング

AI開発者ランキング

GitHubの人気のあるAI開発者ランキング

AI組織ランキング

GitHubの人気のあるAI組織ランキング

人気のあるオープンソースカテゴリ

Deepseek

GitHubの人気のあるDeepseekオープンソースプロジェクト

TTS

GitHubの人気のあるTTSオープンソースプロジェクト

LLM

GitHubの人気のあるLLMオープンソースプロジェクト

ChatGPT

GitHubの人気のあるChatGPTオープンソースプロジェクト

AIオープンソースプロジェクトライブラリ

概要

GitHubの人気のあるAIオープンソースプロジェクトの概要

プロダクトライブラリツールナビゲーション

Kosmos-2

世界規模に対応したマルチモーダル大規模言語モデル

一般製品生産性自然言語処理マルチモーダル

ウェブサイトを開く

Kosmos-2は、自然言語を画像、動画などの様々な形式の入力と関連付けることができるマルチモーダル大規模言語モデルです。短語位置特定、指示表現理解、指示表現生成、画像記述、視覚的質問応答などのタスクに使用できます。Kosmos-2は、大量の画像・テキストペアを含むGRITデータセットを使用して訓練と評価が行われています。Kosmos-2の強みは、自然言語と視覚情報を関連付けることで、モデルの性能を向上させることができる点です。

Kosmos-2

ウェブサイトを開く

Kosmos-2 最新のトラフィック状況

月間総訪問数

521149929

直帰率

35.96%

平均ページ/訪問

6.1

平均訪問時間

00:06:29

Kosmos-2 訪問数の傾向

Kosmos-2 訪問地理的分布

Kosmos-2 トラフィックソース

Kosmos-2 代替品

InternVL2_5-8B-MPO — 優れた総合性能を備えたマルチモーダル大規模言語モデルです。

•マルチモーダル•大規模言語モデル

InternVL2_5-4B-MPO — 卓越な総合性能を発揮するマルチモーダル大規模言語モデル

•マルチモーダル•大規模言語モデル

InternVL2_5-2B-MPO

InternVL2_5-2B-MPO — 高度先進なマルチモーダル大規模言語モデル

•マルチモーダル•大規模言語モデル

pixtral-12b-240910 — 画像とテキストの理解をサポートする、マルチモーダル大規模言語モデルです。

•マルチモーダル•画像処理

Kosmos-2 — 世界規模に対応したマルチモーダル大規模言語モデル

•自然言語処理•マルチモーダル

InternVL3 — InternVL3オープンソース：テキスト、画像、ビデオ処理に対応する7種類のサイズ、マルチモーダル機能は工業用画像分析まで拡張

•マルチモーダル•画像処理

UniTok — UniTokは、視覚生成と理解のための統一的な視覚トークナイザーです。

•人工知能•視覚生成

SmolVLM-256M-Instruct — SmolVLM-256Mは、世界最小級のマルチモーダルモデルであり、画像とテキストの入力を効率的に処理してテキスト出力を生成します。

•マルチモーダル•画像処理

VideoLLaMA3 — VideoLLaMA3は、画像と動画の理解に特化した最先端のマルチモーダル基盤モデルです。

•マルチモーダル•動画理解

InternVL2.5-38B-MPO — InternVL2.5-MPOシリーズモデルは、InternVL2.5と混合嗜好最適化に基づき、卓越した性能を発揮します。

•マルチモーダル•大規模言語モデル

InternVL2_5-26B-MPO-AWQ

InternVL2_5-26B-MPO-AWQ — 高度洗練されたマルチモーダル大規模言語モデルであり、卓越したマルチモーダル推論能力を備えています。

プログラミング

•マルチモーダル•大規模言語モデル

Valley — テキスト、画像、動画データを処理するマルチモーダル大規模言語モデル

•マルチモーダル•大規模言語モデル

FlagAI

FlagAI — 一站式の大規模言語モデルアルゴリズム、モデル、最適化ツールを提供するオープンソースプロジェクト

プログラミング

•人工知能•大規模言語モデル

InternVL2_5-1B-MPO — 視覚と言語の包括的な理解能力を向上させる、マルチモーダル大規模言語モデル

•マルチモーダル•大規模言語モデル

Pixtral-Large-Instruct-2411 — 1240億パラメータのマルチモーダル大規模言語モデル

•マルチモーダル•大規模言語モデル

EMOVA

EMOVA — 感情豊かなマルチモーダル言語モデル

•マルチモーダル•音声認識

Llama-3.2-11B-Vision — 画像とテキストの処理に対応した、マルチモーダル大規模言語モデルです。

•マルチモーダル•画像処理

Pixtral-12B-2409

Pixtral-12B-2409 — 120億パラメーターのマルチモーダルモデル。ビジョンエンコーダーを組み合わせることで、画像とテキストの処理を行います。

•マルチモーダル•画像処理

西湖大模型 — 高EQ・高IQを兼ね備えたマルチモーダル大規模言語モデル

中国セレクション

•人工知能•マルチモーダル

Florence-2-large-ft — 高度高度な視覚基礎モデルであり、多様な視覚タスクと視覚言語タスクに対応します。

•画像処理•自然言語処理

GLM-4シリーズ — オープンソースの多言語・マルチモーダル対話モデル

プログラミング

•多言語•マルチモーダル

Gemini 1.5 Flash — Googleが開発した、大規模かつ高頻度のタスク向けに設計された、軽量かつ高性能なAIモデルです。

•機械学習•マルチモーダル

Mini-Gemini — 画像理解と生成の両方を備えたマルチモーダルAIモデル

•AIモデル•画像処理

Grok-1.5 Vision プレビュー — デジタルと物理世界を繋ぐ、初のマルチモーダルモデル

•マルチモーダル•画像理解

MovieLLM — MovieLLMは、長尺動画の理解を強化するためのAIによる映画制作フレームワークです。

•画像処理•動画制作

Llama 3 — 卓越な性能を誇る、次世代のオープンソース大型言語モデル

•大規模言語モデル•オープンソース

Yi-VL-34B — 高度なオープンソースのマルチモーダルモデル

•マルチモーダル•人工知能

VCoder — VCoderは、オブジェクトレベルのビジョンタスクにおけるマルチモーダル大規模言語モデルの性能を向上させるビジュアルパーセプションモデルです。

•コンピュータビジョン•自然言語処理

OneLLM — あらゆる言語モダリティを統合するフレームワーク

•マルチモーダル•画像処理

画像キャプションジェネレーター — AI搭載の画像キャプション自動生成ツール

•画像処理•画像認識