Aria-Base-64K

多模态原生Mixture-of-Experts模型

普通产品生产力多模态长文本处理

Aria-Base-64K是Aria系列的基础模型之一，专为研究目的和继续训练而设计。该模型在长文本预训练阶段后形成，经过33B个token（21B多模态，12B语言，69%为长文本）的训练。它适合于长视频问答数据集或长文档问答数据集的继续预训练或微调，即使在资源有限的情况下，也可以通过短指令调优数据集进行后训练，并转移到长文本问答场景。该模型能够理解多达250张高分辨率图像或多达500张中等分辨率图像，并在语言和多模态场景中保持强大的基础性能。

Best AI Websites & Tools

Aria-Base-64K

Aria-Base-64K 最新流量情况

Aria-Base-64K 访问量趋势

Aria-Base-64K 访问地理位置分布

Aria-Base-64K 流量来源

Aria-Base-64K 替代品

Aria-Base-64K — 多模态原生Mixture-of-Experts模型

Gemini 2.0 Flash-Lite — Gemini 2.0 Flash-Lite 是高效的语言模型，专为长文本处理和多种应用场景优化。

Magma — Magma 是一个能够理解和执行多模态输入的基础模型，可用于复杂任务和环境。

MILS — LLMs 无需任何培训就能看见和听见

OpenEMMA — 开源的端到端自动驾驶多模态模型

ModernBERT-base — 高效处理长文本的双向编码器模型

InternVL2_5-26B — 多模态大型语言模型，融合视觉与语言理解。

Qwen2.5-Coder-32B-Instruct-GPTQ-Int4 — 开源的32亿参数代码生成语言模型

Qwen2 — 新一代多语言预训练模型，性能卓越。

GLM-4V-9B — 开源多模态预训练模型，具备中英双语对话能力。

GLM-4-9B-Chat-1M — 新一代开源预训练模型，支持多轮对话和多语言。

GLM-4-9B-Chat — 新一代多语言预训练模型，支持长文本和代码执行。

GLM-4系列 — 开源多语言多模态对话模型

CogVLM2 — 第二代多模态预训练对话模型

Inception Labs — Inception Labs 推出新一代扩散式大语言模型，提供极速、高效和高质量的语言生成能力。

AI21-Jamba-Large-1.6 — AI21 Jamba Large 1.6 是一款强大的混合 SSM-Transformer 架构基础模型，擅长长文本处理和高效推理。

语析Yuxi-Know — 基于大模型 RAG 知识库的知识图谱问答系统，支持多种大模型适配和本地部署。

Aya Vision — Aya Vision 是 Cohere 推出的多语言多模态视觉模型，旨在提升多语言场景下的视觉和文本理解能力。

QwQ-32B — QwQ-32B 是一款强大的推理模型，专为复杂问题解决和文本生成设计，性能卓越。

EgoLife — EgoLife是一个长期、多模态、多视角的日常生活AI助手项目，旨在推进长期上下文理解研究。

UniTok — UniTok是一个用于视觉生成和理解的统一视觉分词器。

ViDoRAG — ViDoRAG 是一个结合视觉文档检索增强生成的动态迭代推理代理框架。

Migician — Migician 是一个专注于多图像定位的多模态大语言模型，能够实现自由形式的多图像精确定位。

Mochii AI — Mochii AI 是一款由尖端模型支持的个性化人工智能生态系统，助力人类与 AI 协作的未来。

M2RAG — 用于多模态上下文中的检索增强生成的基准测试代码库。

TheoremExplainAgent — TheoremExplainAgent 是一个用于生成多模态定理解释视频的智能系统。

Phi-4-multimodal-instruct — Phi-4-multimodal-instruct 是微软开发的轻量级多模态基础模型，支持文本、图像和音频输入。

Magma-8B — Magma-8B 是微软推出的一款多模态 AI 模型，能够处理图像和文本输入并生成文本输出。

DeepSeek Japanese — DeepSeek 是一款先进的 AI 语言模型，擅长逻辑推理、数学和编程任务，提供免费使用。

tablegpt-agent — TableGPT2的预构建代理，用于基于表格的问答任务。