Aria-Base-64K

多モーダルネイティブMixture-of-Expertsモデル

一般製品生産性多モーダル長文テキスト処理

Aria-Base-64KはAriaシリーズの基本モデルの一つであり、研究目的と継続的なトレーニングのために設計されています。このモデルは、長文テキストの事前学習段階を経て生成され、330億トークン（多モーダル210億、言語120億、69％が長文テキスト）のトレーニングを受けています。長尺動画質問応答データセットまたは長尺文書質問応答データセットの継続的な事前学習または微調整に適しており、リソースが限られた場合でも、短い指示による微調整データセットを用いて後続のトレーニングを行い、長文テキスト質問応答シーンに移行させることができます。このモデルは最大250枚の高解像度画像または最大500枚の中解像度画像を理解し、言語および多モーダルシーンにおいて強力な基本性能を維持します。

Best AI Websites & Tools

Aria-Base-64K

Aria-Base-64K 最新のトラフィック状況

Aria-Base-64K 訪問数の傾向

Aria-Base-64K 訪問地理的分布

Aria-Base-64K トラフィックソース

Aria-Base-64K 代替品

Aria-Base-64K — 多モーダルネイティブMixture-of-Expertsモデル

Magma — Magmaは、多様なモーダル入力の理解と実行が可能な基礎モデルであり、複雑なタスクや環境で使用できます。

ModernBERT-base — 長文テキストを効率的に処理する双方向エンコーダーモデル

CogVLM2 — 第二世代多モーダル事前学習対話モデル

Aya Vision — Aya Visionは、Cohereが提供する多言語・多モーダルなビジュアルモデルであり、多言語環境における視覚とテキストの理解能力の向上を目指しています。

ViDoRAG — ViDoRAGは、視覚ドキュメント検索を強化した生成のための動的イテレーティブ推論エージェントフレームワークです。

Migician — Migicianは、複数の画像の配置に特化した多モーダル大規模言語モデルであり、自由形式の複数の画像の精密配置を実現できます。

CreatiLayout — 双子型多モーダル拡散トランスフォーマーに基づく、アイデアレイアウトから画像生成技術

DiffSensei — 多モーダルLLMと拡散モデルを組み合わせた、カスタマイズ可能な漫画生成モデルです。

DiTCtrl — 多モーダル拡散トランスフォーマーにおける注意制御を探索し、微調整不要の複数プロンプトによる長尺動画生成を実現

Gemini多モーダルライブ＋WebRTC — Gemini多モーダルライブとWebRTC技術を統合したシングルファイルアプリケーションです。

POINTS-Yi-1.5-9B-Chat — 微信AIの新技術を統合した、最新の視覚言語モデルです。

InternVL2_5-78B — 最先端多モーダル大規模言語モデルシリーズ

Meta Llama 3.3 — 70Bパラメーターの多言語大規模事前学習言語モデル

ViTLP — ドキュメントインテリジェンスのための、視覚誘導型テキストレイアウト生成事前学習モデル

Qwen2.5-Coder-32B-Instruct-GPTQ-Int4 — 32億パラメーターのオープンソースコード生成言語モデル

Qwen2.5-Coder-0.5B-Instruct — Qwen2.5-Coderシリーズの指示微調整済み0.5Bパラメータコード生成モデル

Qwen2.5-Coder-3B — Qwen2.5-Coderシリーズの3Bパラメータモデル。コード生成と理解に特化しています。

Qwen2.5-Coder 技術レポート — Qwen2.5-Coderシリーズ技術レポート

Aya Expanse-8b — 23言語に対応した大規模言語モデル

Seyft AI — リアルタイム多モーダルコンテンツ審査プラットフォーム

MM1.5 — 多モーダル大規模言語モデルの最適化と分析

Aria — 多モーダルネイティブ混合専門家モデル

OLMoE — 1.3億の活性パラメーターを持つ、オープンソースのエキスパート混合言語モデルです。

OpenCity — 交通予測のためのオープンソース時空間基礎モデル

Show-o — 統一多モーダル理解と生成を行う単一トランスフォーマー

MedTrinity-25M — 大規模多モーダル医学データセット

MiniCPM-V 2.6 — 高性能多モーダル言語モデル。画像と動画の理解に最適です。

Gemini Pro — 高性能多モーダルAIモデル

Meta Llama 3.1-405B — 大規模多言語事前学習済み言語モデル