Best AI Websites & Tools

AI产品榜

AI产品榜

VSP-LLM

结合视觉语音处理与大型语言模型的框架

普通产品编程视觉语音处理大型语言模型

VSP-LLM是一个结合视觉语音处理（Visual Speech Processing）与大型语言模型（LLMs）的框架，旨在通过LLMs的强大能力最大化上下文建模能力。VSP-LLM设计用于执行视觉语音识别和翻译的多任务，通过自监督视觉语音模型将输入视频映射到LLM的输入潜在空间。该框架通过提出一种新颖的去重方法和低秩适配器（LoRA），可以高效地进行训练。

VSP-LLM

视觉语音识别
视觉语音翻译
自监督学习
去重和低秩适配器训练

多语言语音识别
跨语言视频内容理解
实时语音翻译

在多语言环境中，使用VSP-LLM进行实时语音翻译
利用VSP-LLM分析视频内容，提取关键信息并生成摘要
在教育应用中，使用VSP-LLM辅助语言学习，提高语音识别准确性

VSP-LLM 最新流量情况

月总访问量

502571820

跳出率

37.10%

平均页面访问数

5.9

平均访问时长

00:06:29

VSP-LLM 访问量趋势

VSP-LLM 访问地理位置分布

VSP-LLM 流量来源

VSP-LLM 替代品

Goedel-Prover — Goedel-Prover 是一款开源的自动化定理证明模型，专注于数学问题的形式化证明。

编程•自动化定理证明•数学

OmniParser-v2.0 — OmniParser 是一款通用屏幕解析工具，可将 UI 截图转换为结构化格式，提升基于 LLM 的 UI 代理性能。

图像•屏幕解析•图像识别

Mistral-Small-24B-Instruct-2501 — Mistral Small 24B 是一款多语言、高性能的指令微调型大型语言模型，适用于多种应用场景。

生产力•大型语言模型•多语言

DeepSeek-R1-Distill-Llama-70B — DeepSeek-R1-Distill-Llama-70B 是一款基于强化学习优化的大型语言模型，专注于推理和对话能力。

编程•大型语言模型•强化学习

InternVL2_5-78B-MPO — 这是一个先进的多模态大型语言模型系列，展示了卓越的整体性能。

生产力•多模态•大型语言模型

self-adaptive-llms — 一个实时适应未见任务的自适应大型语言模型框架。

编程•大型语言模型•自适应

InternLM3-8B-Instruct — InternLM3-8B-Instruct是一个开源的80亿参数指令模型，用于通用用途和高级推理。

编程•大型语言模型•开源

MinMo — MinMo是一款多模态大型语言模型，用于无缝语音交互。

聊天•语音交互•多模态

Dria-Agent-a-3B — 基于Qwen2.5-Coder系列的大型语言模型，专注于代理应用。

编程•大型语言模型•代理应用

Dria-Agent-a-7B — 一个基于Qwen2.5-Coder系列训练的大型语言模型，专注于代理应用。

编程•大型语言模型•编程辅助

Dria-Agent-α — Dria-Agent-α是基于Python的大型语言模型工具交互框架。

编程•大型语言模型•Python

Llama-3-Patronus-Lynx-8B-Instruct-Q4_K_M-GGUF — 基于特定模型的量化大型语言模型，适用于自然语言处理等任务。

编程•大型语言模型•量化模型

InternVL2_5-38B-MPO — InternVL2.5-MPO系列模型，基于InternVL2.5和混合偏好优化，展现卓越性能。

聊天•多模态•大型语言模型

Agent Laboratory — Agent Laboratory是一个端到端的自主研究工作流，旨在协助人类研究人员实施研究想法。

生产力•研究辅助•文献综述

InternVL2_5-26B-MPO-AWQ

InternVL2_5-26B-MPO-AWQ — 先进的多模态大型语言模型，具备卓越的多模态推理能力。

编程•多模态•大型语言模型

AnyParser Pro — AnyParser Pro 是一款能够快速准确地从 PDF、PPT 和图像中提取内容的大型语言模型。

生产力•文档解析•大型语言模型

Sonus-1 — Sonus-1：开启大型语言模型（LLMs）的新时代

生产力•大型语言模型•自然语言处理

InternVL2_5-26B-MPO — 多模态大型语言模型，提升视觉与语言的交互能力。

图像•多模态•大型语言模型

InternVL2_5-8B-MPO-AWQ — 多模态大型语言模型，提升视觉与语言的交互能力

图像•多模态•大型语言模型

InternVL2_5-8B-MPO — 多模态大型语言模型，展示卓越的整体性能。

图像•多模态•大型语言模型

HuatuoGPT-o1-8B — 先进的医疗领域大型语言模型

其他•医疗•推理

HuatuoGPT-o1

HuatuoGPT-o1 — 医疗领域复杂推理的大型语言模型

教育•医疗•复杂推理

InternVL2_5-4B-MPO-AWQ — 多模态大型语言模型，优化图像与文本交互能力

图像•多模态•大型语言模型

InternVL2_5-4B-MPO — 多模态大型语言模型，展示卓越的整体性能

图像•多模态•大型语言模型

Valley 2.0 — 多模态大型语言模型，提升文本、图像和视频数据处理能力。

其他•多模态•大型语言模型

InternVL2_5-2B-MPO

InternVL2_5-2B-MPO — 先进的多模态大型语言模型

图像•多模态•大型语言模型

InternVL2_5-1B-MPO — 多模态大型语言模型，提升视觉和语言的综合理解能力

生产力•多模态•大型语言模型

ExploreToM — 大规模生成多样且具有挑战性的心理理论数据的框架

其他•心理理论•数据生成

EXAONE-3.5-32B-Instruct-GGUF — LG AI Research开发的多语言、高性能大型语言模型

生产力•大型语言模型•多语言支持