AIニュース

AIニュース

世界のAIイノベーションの瞬間をお見逃しなく

AIデイリー

毎日の3分AI業界トレンド

AIタイムライン

AI業界のマイルストーン

Alハードウェアです

すべてのAIハードウェアをリストアップします。

AIマネタイズガイド

最新事例

AIマネタイズ事例の共有

画像コレクション

AI画像生成マネタイズ事例

ビデオコレクション

AIビデオ生成マネタイズ事例

オーディオコレクション

AIオーディオ生成マネタイズ事例

コンテンツコレクション

AIコンテンツ作成マネタイズ事例

AIチュートリアル

最新チュートリアル

最新のAIチュートリアルを無料で共有

AIプロダクトランキング

AIプロダクトランキング

AIウェブサイトの総訪問数ランキングを表示

AIトラフィック成長ランキング

トラフィックによる最も急速に成長しているAIウェブサイトを追跡

AIトラフィック減少ランキング

トラフィックが大幅に減少しているAIウェブサイトに焦点を当てる

AI週間ランキング

AIウェブサイトの週間訪問数ランキングを表示

人気のある国ランキング

アメリカ合衆国

米国のユーザーに最も人気のあるAIウェブサイト

中国

中国のユーザーに最も人気のあるAIウェブサイト

インド

インドのユーザーに最も人気のあるAIウェブサイト

ブラジル

ブラジルのユーザーに最も人気のあるAIウェブサイト

人気のあるカテゴリランキング

画像生成

AI画像生成ウェブサイトの総訪問数ランキング

パーソナルアシスタント

AIパーソナルアシスタントウェブサイトの総訪問数ランキング

キャラクター生成

AIキャラクター生成ウェブサイトの総訪問数ランキング

ビデオ生成

AIビデオ生成ウェブサイトの総訪問数ランキング

人気のあるオープンソースデータランキング

AIプロジェクトランキング

GitHubの人気のあるAIプロジェクトを総スター数でランキング

AIプロジェクト成長ランキング

GitHubの人気のあるAIプロジェクトを成長率でランキング

AI開発者ランキング

GitHubの人気のあるAI開発者ランキング

AI組織ランキング

GitHubの人気のあるAI組織ランキング

人気のあるオープンソースカテゴリ

Deepseek

GitHubの人気のあるDeepseekオープンソースプロジェクト

TTS

GitHubの人気のあるTTSオープンソースプロジェクト

LLM

GitHubの人気のあるLLMオープンソースプロジェクト

ChatGPT

GitHubの人気のあるChatGPTオープンソースプロジェクト

AIオープンソースプロジェクトライブラリ

概要

GitHubの人気のあるAIオープンソースプロジェクトの概要

プロダクトライブラリツールナビゲーション

InternVL2_5-1B-MPO

視覚と言語の包括的な理解能力を向上させる、マルチモーダル大規模言語モデル

一般製品生産性マルチモーダル大規模言語モデル

ウェブサイトを開く

InternVL2_5-1B-MPOは、InternVL2.5と混合選好最適化（MPO）に基づいて構築されたマルチモーダル大規模言語モデル（MLLM）であり、優れた総合的な性能を示します。このモデルは、増分事前学習済みのInternViTと、InternLM 2.5やQwen 2.5を含む様々な事前学習済み大規模言語モデル（LLM）を、ランダムに初期化されたMLPプロジェクターを使用して統合しています。InternVL2_5-MPOは、InternVL 2.5とその前身と同様の「ViT-MLP-LLM」パラダイムをモデルアーキテクチャに保持しており、複数画像と動画データのサポートを導入しています。このモデルはマルチモーダルタスクにおいて優れた性能を発揮し、画像キャプション生成、Visual Question Answeringなど、様々な視覚言語タスクを処理できます。

InternVL2_5-1B-MPO

ウェブサイトを開く

InternVL2_5-1B-MPO 最新のトラフィック状況

月間総訪問数

27175375

直帰率

44.30%

平均ページ/訪問

5.8

平均訪問時間

00:04:57

InternVL2_5-1B-MPO 訪問数の傾向

InternVL2_5-1B-MPO 訪問地理的分布

InternVL2_5-1B-MPO トラフィックソース

InternVL2_5-1B-MPO 代替品

InternVL2_5-1B-MPO — 視覚と言語の包括的な理解能力を向上させる、マルチモーダル大規模言語モデル

•マルチモーダル•大規模言語モデル

M2RAG — マルチモーダルコンテキストにおける検索強化生成のためのベンチマークテストコードリポジトリです。

プログラミング

•マルチモーダル•検索強化生成

MNN大規模言語モデル Androidアプリ — 多様なモダリティに対応した、フル機能の巨大言語モデルAndroidアプリです。

•大規模言語モデル•マルチモーダル

Doubao-1.5-pro — Doubao-1.5-proは、推論性能とモデル能力の究極的なバランスに重点を置いた、高性能なスパースMoE（Mixture of Experts）大規模言語モデルです。

中国セレクション

•大規模言語モデル•マルチモーダル

InternVL2_5-78B-MPO — これは、優れた総合性能を示す高度なマルチモーダル大規模言語モデルシリーズです。

•マルチモーダル•大規模言語モデル

MinMo — MinMoは、シームレスな音声インタラクションを可能にするマルチモーダル大規模言語モデルです。

•音声インタラクション•マルチモーダル

InternVL2.5-38B-MPO — InternVL2.5-MPOシリーズモデルは、InternVL2.5と混合嗜好最適化に基づき、卓越した性能を発揮します。

•マルチモーダル•大規模言語モデル

InternVL2_5-26B-MPO-AWQ

InternVL2_5-26B-MPO-AWQ — 高度洗練されたマルチモーダル大規模言語モデルであり、卓越したマルチモーダル推論能力を備えています。

プログラミング

•マルチモーダル•大規模言語モデル

VITA-1.5 — VITA-1.5：リアルタイムの視覚と音声インタラクションを備えたGPT-4o級のマルチモーダル大規模言語モデル

プログラミング

•マルチモーダル•大規模言語モデル

InternVL2_5-8B-MPO — 優れた総合性能を備えたマルチモーダル大規模言語モデルです。

•マルチモーダル•大規模言語モデル

InternVL2_5-4B-MPO — 卓越な総合性能を発揮するマルチモーダル大規模言語モデル

•マルチモーダル•大規模言語モデル

Valley 2.0 — テキスト、画像、動画データを処理する能力を向上させた、マルチモーダル大規模言語モデルです。

•マルチモーダル•大規模言語モデル

Valley-Eagle-7B — テキスト、画像、ビデオデータを処理するマルチモーダル大規模言語モデル

•マルチモーダル•大規模言語モデル

Valley — テキスト、画像、動画データを処理するマルチモーダル大規模言語モデル

•マルチモーダル•大規模言語モデル

FlagAI

FlagAI — 一站式の大規模言語モデルアルゴリズム、モデル、最適化ツールを提供するオープンソースプロジェクト

プログラミング

•人工知能•大規模言語モデル

InternVL2_5-2B-MPO

InternVL2_5-2B-MPO — 高度先進なマルチモーダル大規模言語モデル

•マルチモーダル•大規模言語モデル

InternVL 2.5 — オープンソースのマルチモーダル大規模言語モデルシリーズ

•マルチモーダル•大規模言語モデル

InternVL2_5-4B — 視覚と言語理解を融合したマルチモーダル大規模言語モデル。

•マルチモーダル•大規模言語モデル

InternVL2_5-2B — 画像とテキストの深層的な相互作用をサポートする、マルチモーダル大規模言語モデルです。

•マルチモーダル•大規模言語モデル

InternVL2_5-1B — 画像とテキストの理解をサポートするマルチモーダル大規模言語モデル

•マルチモーダル•大規模言語モデル

InternVL2_5-8B — 画像とテキストの相互理解をサポートする、マルチモーダル大規模言語モデルです。

•マルチモーダル•大規模言語モデル

InternVL2_5-26B — 視覚と言語理解を融合したマルチモーダル大規模言語モデル。

•マルチモーダル•大規模言語モデル

Pixtral-Large-Instruct-2411 — 1240億パラメータのマルチモーダル大規模言語モデル

•マルチモーダル•大規模言語モデル

ultravox-v0_4_1-llama-3_1-70b — 多様な音声に対応する大規模言語モデル

•音声認識•テキスト生成

Ferret-UI-Llama8b — Llama-3-8Bを基盤とした、UIタスクに特化したマルチモーダル大規模言語モデルです。

プログラミング

•マルチモーダル•大規模言語モデル

岩芯数智

岩芯数智 — 国産の大規模言語モデル。マルチモーダルに対応し、迅速かつ低コストでインテリジェント化への転換を支援します。

中国セレクション

•人工知能•大規模言語モデル

Llama-3.2-11B-Vision — 画像とテキストの処理に対応した、マルチモーダル大規模言語モデルです。

•マルチモーダル•画像処理

豆包大模型 — バイトダンスが独自開発した大規模言語モデルで、マルチモーダル機能を提供します。

中国セレクション

•大規模言語モデル•マルチモーダル

智谱AI大規模言語モデル開放プラットフォーム — わずか数行のコードで大規模言語モデルにアクセス

中国セレクション

•AIモデル•大規模言語モデル

mPLUG-Owl3 — 長画像シーケンスを理解するマルチモーダル大規模言語モデル。

•マルチモーダル•画像理解