SpeechGPT

Modelo de linguagem multimodal

Produto ComumProgramaçãoVozMultimodal

O SpeechGPT é um modelo de linguagem multimodal com capacidade inerente de diálogo intermodal. Ele pode perceber e gerar conteúdo multimodal, seguindo instruções humanas multimodais. O SpeechGPT-Gen é um modelo de geração de voz que expande a cadeia de informações. O SpeechAgents é uma simulação de comunicação humana com um sistema multiagente multimodal. O SpeechTokenizer é um tokenizador de voz unificado, adequado para modelos de linguagem de voz. As datas de lançamento e informações relacionadas desses modelos e conjuntos de dados podem ser encontradas no site oficial.

Best AI Websites & Tools

SpeechGPT

SpeechGPT Situação do Tráfego Mais Recente

SpeechGPT Tendência de Visitas

SpeechGPT Distribuição Geográfica das Visitas

SpeechGPT Fontes de Tráfego

SpeechGPT Alternativas

SpeechGPT — Modelo de linguagem multimodal

MiniCPM-o — MiniCPM-o 2.6: Um MLLM de nível GPT-4o que permite streaming visual, de voz e multimodais em dispositivos móveis.

Inception Labs — O Inception Labs lança uma nova geração de modelos de linguagem grandes difusivos, oferecendo capacidade de geração de linguagem ultrarrápida, eficiente e de alta qualidade.

DeepSeek Japonês — DeepSeek é um modelo de linguagem IA avançado, especializado em raciocínio lógico, matemática e tarefas de programação, com uso gratuito.

MiniCPM-o-2_6 — MiniCPM-o 2.6 é um poderoso modelo de linguagem grande multimodal, adequado para transmissão ao vivo visual, de voz e multimodal.

A Linguagem do Movimento — Modelo unificado de linguagem verbal e não verbal para ações corporais 3D

Modelo de Linguagem Multimodal Spirit LM — Modelo de linguagem multimodal que integra texto e fala.

ell — Biblioteca de programação de modelos de linguagem leve, que trata prompts como funções.

VideoLLaMA2-7B — Modelo de linguagem de vídeo grande, oferecendo resposta a perguntas visuais e geração de legendas de vídeo.

Qwen-VL — Modelo de linguagem visual de uso geral

imp-v1-3b — Um poderoso modelo de linguagem multimodal de pequeno porte

Honeybee — Preditor de rede de modelo de linguagem multimodal

TinyGPT-V — Modelo de linguagem grande e multimodal eficiente

ml-ferret — Modelo de linguagem de aprendizado de máquina (MLLM) de ponta a ponta, que permite referência e localização precisas.

DreamLLM — Compreensão e Criação Multimodal Abrangente

JinaChat — Mais modalidades, memória mais longa, custo menor

OpenManus — OpenManus é um projeto de agente inteligente de código aberto que pode ser usado sem código de convite.

Interface de Vídeo Conversacional — Interface de vídeo conversacional com inteligência emocional de próxima geração, tornando a interação com IA mais natural e humana.

Instella — Instella é um modelo de linguagem de código aberto de alto desempenho desenvolvido pela AMD, projetado para acelerar o desenvolvimento de modelos de linguagem de código aberto.

Aya Vision — Aya Vision é um modelo de visão multimodal multilíngue lançado pela Cohere, com o objetivo de melhorar a capacidade de compreensão visual e textual em cenários multilíngues.

EgoLife — EgoLife é um projeto de assistente de IA para a vida cotidiana, de longo prazo, multimodal e multiperspectivo, com o objetivo de impulsionar a pesquisa em compreensão de contexto de longo prazo.

UniTok — UniTok é um tokenizador visual unificado para geração e compreensão visual.

ViDoRAG — ViDoRAG é uma estrutura de agente de raciocínio iterativo dinâmico que combina recuperação de documentos visuais com geração aprimorada.

Migician — Migician é um modelo de linguagem grande multimodal focado na localização de imagens múltiplas, capaz de realizar localização precisa de imagens múltiplas de forma livre.

Mochii AI — Mochii AI é um ecossistema de inteligência artificial personalizado, com suporte de modelos de ponta, que impulsiona o futuro da colaboração entre humanos e IA.

M2RAG — Repositório de código de benchmark para geração aprimorada por recuperação em contexto multimodal.

TheoremExplainAgent — TheoremExplainAgent é um sistema inteligente usado para gerar vídeos explicativos multimodais de teoremas.

GPT-4.5 — O GPT-4.5, o mais recente modelo de linguagem lançado pela OpenAI, concentra-se em melhorar a capacidade de aprendizado não supervisionado, proporcionando uma experiência de interação mais natural.

Gemini 2.0 Flash-Lite — Gemini 2.0 Flash-Lite est un modèle linguistique efficace, optimisé pour le traitement de longs textes et de nombreux scénarios d'application.

Phi-4-mini-instruct — Phi-4-mini-instruct é um modelo de linguagem de código aberto leve, focado em dados de alta qualidade e intensivos em raciocínio.