VSP-LLM

Marco que combina el procesamiento visual del habla con modelos de lenguaje grandes

Producto ComúnProgramaciónProcesamiento visual del hablaModelos de lenguaje grandes

VSP-LLM es un marco que combina el procesamiento visual del habla (Visual Speech Processing) con modelos de lenguaje grandes (LLM), diseñado para maximizar la capacidad de modelado contextual mediante la potencia de los LLM. VSP-LLM está diseñado para realizar múltiples tareas de reconocimiento y traducción de voz visual, mapeando videos de entrada a un espacio latente de entrada de LLM a través de un modelo de voz visual autosupervisado. Este marco permite un entrenamiento eficiente mediante un novedoso método de desduplicación y adaptadores de bajo rango (LoRA).

Best AI Websites & Tools

VSP-LLM

VSP-LLM Situación del tráfico más reciente

VSP-LLM Tendencia de visitas

VSP-LLM Distribución geográfica de las visitas

VSP-LLM Fuentes de tráfico

VSP-LLM Alternativas

VSP-LLM — Marco que combina el procesamiento visual del habla con modelos de lenguaje grandes

Spark-TTS — Spark-TTS es un modelo de síntesis de voz de flujo único desacoplado y eficiente basado en modelos de lenguaje grandes.

Laboratorio de Agentes — Laboratorio de Agentes es un flujo de trabajo de investigación autónoma de extremo a extremo, diseñado para ayudar a los investigadores humanos a implementar sus ideas de investigación.

Sonus-1 — Sonus-1: Inaugurando una nueva era para los modelos de lenguaje grandes (LLM)

ExploreToM — Marco para la generación a gran escala de datos de teoría de la mente diversos y desafiantes.

MLPerf Client — Benchmark de rendimiento de IA para computadoras personales

Sandbox Fusion — Caja de arena de código multifuncional para modelos de lenguaje grandes.

AI-Data-Analysis-MultiAgent — Sistema de análisis de datos multiagente impulsado por IA

Star-Attention — Técnica de inferencia eficiente para modelos de lenguaje grandes y secuencias largas

Servidores del Protocolo de Contexto del Modelo — Conjunto de servidores de referencia e implementaciones comunitarias del Protocolo de Contexto del Modelo.

π0 — Primer modelo base de robot de uso general

LongVU — Modelo de compresión adaptativa espacio-temporal para la comprensión del lenguaje en videos largos

FakeShield — Detección y localización de imágenes explicables basada en modelos de lenguaje grandes multimodales

GR-2 — Agente robótico general avanzado

NVLM — Modelo de lenguaje grande multimodales de vanguardia que alcanza un rendimiento superior en tareas de visión-lenguaje.

OneGen — Marco de generación y recuperación unificado y eficiente de una sola pasada, adecuado para modelos de lenguaje grandes.

PromptChainer — Generador de cadenas de prompts gratuito y rápido

iText2KG — Construye un grafo de conocimiento de forma incremental utilizando modelos de lenguaje grandes.

ChatMLX — Aplicación de chat para MacOS de alto rendimiento basada en modelos de lenguaje grandes.

EAGLE — Exploración del espacio de diseño de modelos de lenguaje grandes multimodales

Parsera — Biblioteca Python ligera para la extracción de datos web utilizando modelos de lenguaje grandes.

Gemma-2-9b-it — Modelo de generación de texto ligero y avanzado

Florence-2-base-ft — Modelo base visual avanzado, compatible con diversas tareas de visión y visión-lenguaje.

Florence-2-large-ft — Modelo base visual avanzado que admite diversas tareas visuales y de visión-lenguaje.

Florence-2-base — Modelo base visual avanzado que admite diversas tareas de visión y visión-lenguaje.

Florence-2-large — Modelo base visual avanzado que admite múltiples tareas de visión y visión-lenguaje.

june — Chatbot de voz local que protege su privacidad y no requiere conexión a internet.

Florence-2 — Un modelo base unificado para tareas de visión.

StreamSpeech — Traducción de voz en tiempo real, un puente para la comunicación entre idiomas.

AIKit — Solución integral de código abierto para alojar, implementar, construir y ajustar modelos de lenguaje grandes.