LLaVA-Video

ビデオ指示微調整と合成データ研究

一般製品ビデオビデオ理解多モーダル学習

LLaVA-Videoは、ビデオ指示微調整に特化した大規模多モーダルモデル（LMMs）です。高品質な大量の生のデータをウェブから取得する困難さを解決するために、高品質な合成データセットLLaVA-Video-178Kを作成しました。このデータセットには、詳細なビデオ説明、オープンエンドの質問応答、多肢選択式の質問応答などのタスクが含まれており、ビデオ言語モデルの理解力と推論能力の向上を目指しています。LLaVA-Videoモデルは複数のビデオベンチマークテストで優れた性能を示し、データセットの有効性を証明しています。

Best AI Websites & Tools

LLaVA-Video

LLaVA-Video 最新のトラフィック状況

LLaVA-Video 訪問数の傾向

LLaVA-Video 訪問地理的分布

LLaVA-Video トラフィックソース

LLaVA-Video 代替品

LLaVA-Video — ビデオ指示微調整と合成データ研究

Elimination Game — 「人狼ゲーム」を参考に開発された、複雑なソーシャルゲームにおける大規模言語モデルの知性をテストするためのベンチマークテストフレームワークです。

M2RAG — マルチモーダルコンテキストにおける検索強化生成のためのベンチマークテストコードリポジトリです。

VideoRAG — VideoRAGは、極めて長いコンテキストを持つビデオを処理するための、検索拡張型生成フレームワークです。

人類最後の試験 (Humanity's Last Exam) — 人類最後の試験 (Humanity's Last Exam) は、大規模言語モデルの能力を測るための多様なモダリティを含むベンチマークテストです。

FlagPerf — オープンソースAIチップ性能ベンチマークプラットフォーム

Procyon AIテキスト生成ベンチマーク — AIテキスト生成のパフォーマンスをテストするためのツール

Procyon Professional Benchmark Suite — プロフェッショナルユーザー向けの性能テストベンチマークスイート

Procyon AI 推論ベンチマーク for Android — AndroidデバイスのAI性能と品質を測定するベンチマークツール

MLPerf Client — パーソナルコンピュータのAI性能ベンチマークテスト

InternViT-300M-448px-V2_5 — InternViT-300M-448pxをベースとした強化版で、視覚特徴抽出能力を向上させています。

Qwen2-VL-2B — 最先端をいく視覚言語モデルで、マルチモーダル理解とテキスト生成に対応しています。

Nous Research — 人間中心言語モデルとシミュレーターのリーディングカンパニー

FrontierMath — AI数学限界試験ベンチマーク

SimpleQA — 言語モデルの事実に関する質問への回答能力を評価するベンチマークテスト

FakeShield — 多モーダル大規模言語モデルに基づく、解釈可能な画像検出と位置特定

DocLayout-YOLO — 多様な合成データとグローバルからローカルへの適応的知覚向上により文書レイアウト解析を強化

Aria — 多モーダルネイティブ混合専門家モデル

MLE-bench — 機械学習エンジニアリング能力を持つAIエージェントの評価ベンチマーク

TAG-Bench — データベースクエリに対する自然言語処理のベンチマークテスト

Data-Juicer — 大規模言語モデル向けの高品質データを提供する、ワンストップデータ処理システムです。

Llama3.1-70B-Chinese-Chat — 70億パラメーターの中英両言語対応対話モデル

Llama 3 — 多様なパラメータ規模に対応した大規模言語モデル

DCLM-baseline — 高性能言語モデルベンチマーク用データセット

LAMDA-TALENT — 総合的な表形式データ学習ツールボックスとベンチマークテスト

Gemma-2-27B-Chinese-Chat — 中英両言語対応の指示微調整言語モデル

InternLM-XComposer-2.5 — 多機能大型視覚言語モデル

MG-LLaVA — 多粒度視覚指示微調整による革新的なMLLM

4M — 多モーダル・マルチタスクモデルのトレーニングフレームワーク

VideoLLaMA2-7B — 大規模ビデオ・言語モデル。ビジュアルクエスチョン・ソーシングとビデオ字幕生成を提供します。