Noticias de IA

No te pierdas ningún momento de la innovación global en IA

IA Diario

Tendencias diarias de la industria de la IA en tres minutos

Cronología de la IA

Hitos de la industria de la IA

Guía de Monetización de la IA

Últimos Casos

Compartiendo casos de monetización de IA

Colección de Imágenes

Casos de monetización de creación de imágenes con IA

Colección de Videos

Casos de monetización de creación de videos con IA

Colección de Audio

Casos de monetización de creación de audio con IA

Colección de Contenido

Casos de monetización de redacción de contenido con IA

Tutoriales de IA

Últimos Tutoriales

Compartiendo gratuitamente los últimos tutoriales de IA

Rankings de Productos de IA

Ranking de Productos de IA

Muestra el ranking de visitas totales de sitios web de IA

Ranking de Crecimiento de Tráfico de IA

Rastrea los sitios web de IA de más rápido crecimiento por tráfico

Ranking de Descenso de Tráfico de IA

Se centra en los sitios web de IA con descensos de tráfico significativos

Ranking Semanal de IA

Muestra el ranking semanal de visitas de sitios web de IA

Rankings de Países Populares

Estados Unidos

Sitios web de IA más populares entre los usuarios estadounidenses

China

Sitios web de IA más populares entre los usuarios chinos

India

Sitios web de IA más populares entre los usuarios indios

Brasil

Sitios web de IA más populares entre los usuarios brasileños

Rankings de Categorías Populares

Generación de Imágenes

Ranking total de visitas de sitios web de generación de imágenes con IA

Asistente Personal

Ranking total de visitas de sitios web de asistentes personales con IA

Generación de Personajes

Ranking total de visitas de sitios web de generación de personajes con IA

Generación de Videos

Ranking total de visitas de sitios web de generación de videos con IA

Rankings de Datos de Código Abierto Populares

Ranking de Proyectos de IA

Proyectos de IA populares en GitHub por estrellas totales

Ranking de Crecimiento de Proyectos de IA

Proyectos de IA populares en GitHub por tasa de crecimiento

Ranking de Desarrolladores de IA

Ranking de desarrolladores de IA populares en GitHub

Ranking de Organizaciones de IA

Ranking de organizaciones de IA populares en GitHub

Categorías de Código Abierto Populares

Deepseek

Proyectos de código abierto de Deepseek populares en GitHub

TTS

Proyectos de código abierto de TTS populares en GitHub

LLM

Proyectos de código abierto de LLM populares en GitHub

ChatGPT

Proyectos de código abierto de ChatGPT populares en GitHub

Biblioteca de Proyectos de Código Abierto de IA

Visión General

Visión general de los proyectos de código abierto de IA populares en GitHub

Biblioteca de productos Navegación de herramientas

EMOVA

Modelo de lenguaje multimodal con capacidad emocional

Producto ComúnOtrosMultimodalReconocimiento de voz

Abrir sitio web

EMOVA (EMotionally Omni-present Voice Assistant) es un modelo de lenguaje multimodal capaz de realizar procesamiento de voz de extremo a extremo, manteniendo al mismo tiempo un rendimiento visual-lingüístico de vanguardia. A través de un segmentador de voz con desacoplamiento semántico-acústico, EMOVA logra conversaciones multimodales ricas en emoción y alcanza un rendimiento de última generación en pruebas de referencia de visión-lenguaje y voz.

Abrir sitio web

EMOVA Situación del tráfico más reciente

Total de visitas mensuales

No hay datos disponibles

Tasa de rebote

No hay datos disponibles

Páginas promedio por visita

No hay datos disponibles

Duración promedio de la visita

No hay datos disponibles

EMOVA Tendencia de visitas

No hay datos de visitas disponibles

EMOVA Distribución geográfica de las visitas

No hay datos de distribución geográfica disponibles

EMOVA Fuentes de tráfico

No hay datos de fuentes de tráfico disponibles

EMOVA Alternativas

EMOVA — Modelo de lenguaje multimodal con capacidad emocional

Otros

•Multimodal•Reconocimiento de voz

264

ultravox-v0_4_1-llama-3_1-70b — Modelo de lenguaje grande multimodal de voz

Productividad

•Reconocimiento de voz•Generación de texto

168

Modelo Lingüístico Spirit LM — Modelo de lenguaje multimodal que integra texto y voz

Productividad

•Multimodal•Modelo de lenguaje

270

Mini-Omni — Modelo de lenguaje grande multi-modal de código abierto, compatible con entrada de voz en tiempo real y salida de audio en streaming.

Productividad

•Multimodal•Reconocimiento de voz

714

SenseVoiceSmall — Modelo de reconocimiento de voz de alta precisión y multilingüe

Productividad

•Reconocimiento de voz•Análisis de sentimientos

630

SenseVoice — Modelo de comprensión de voz multilingüe que ofrece un reconocimiento de voz y una identificación de emociones de alta precisión.

Otros

•Reconocimiento de voz•Análisis de sentimientos

1230

GPT4o.so — Tecnología de IA revolucionaria, interacción inteligente multimodal

Chat

•Inteligencia Artificial•Multimodal

822

Gemini 1.5 Flash — Modelo de IA ligero y eficiente de Google, diseñado para tareas de alta frecuencia y gran escala.

Productividad

•IA•Aprendizaje automático

660

AnyGPT — Modelo de lenguaje grande multimodal

Productividad

•Multimodal•Chatbot

1344

Xiaoice (小冰) — Tú, entre miles de millones

Selección Nacional

•Chatbot•Conversación inteligente

1014

DreamActor-M1 — Marco de animación de imágenes humanas basado en DiT, que permite un control preciso y una coherencia a largo plazo.

Productividad

•Animación humana•Generación de video

Mistral Small 3.1 — Modelo de código abierto que mejora la capacidad de procesamiento de tareas de texto y visión.

Productividad

•Multimodal•Procesamiento de texto

276

Gemini Robotics — Modelo robótico basado en Gemini 2.0, que lleva la IA al mundo físico, con capacidades visuales, lingüísticas y de movimiento.

Selección Internacional

•Inteligencia artificial•Robótica

168

R1-Omni — R1-Omni es un modelo de reconocimiento de emociones multimodal que combina el aprendizaje por refuerzo, y se centra en mejorar la interpretabilidad del reconocimiento de emociones multimodales.

Programación

•Multimodal•Reconocimiento de emociones

348

GO-1 — Zhiyuan lanza el primer modelo base de encarnación general GO-1, propone innovadoramente la arquitectura ViLLA e impulsa el desarrollo de la inteligencia encarnada.

Selección Nacional

•Inteligencia encarnada•Multimodal

240

SDK de Agentes de OpenAI — El SDK de Agentes de OpenAI es un kit de desarrollo para construir agentes autónomos, simplificando la orquestación de flujos de trabajo de múltiples agentes.

Selección Internacional

•Inteligencia Artificial•Agentes

516

SmolVLM2 — SmolVLM2 es un modelo de lenguaje ligero que se centra en el análisis y la generación de contenido de video.

Video

•Análisis de video•Generación de texto

210

Inception Labs — O Inception Labs lança uma nova geração de modelos de linguagem grandes difusivos, oferecendo capacidade de geração de linguagem ultrarrápida, eficiente e de alta qualidade.

Selección Internacional

•Inteligência Artificial•Modelo de Linguagem

156

Aya Vision — Aya Vision es un modelo de visión multimodal multilingüe lanzado por Cohere, diseñado para mejorar la comprensión visual y de texto en escenarios multilingües.

Selección Internacional

•Multilingüe•Multimodal

168

Grabación de audio — Grabación de audio es una herramienta de transcripción de audio y video rápida, precisa y fluida.

Selección Nacional

•Transcripción•Reconocimiento de voz

150

DuRT — DuRT es un software de reconocimiento de voz y traducción en tiempo real para macOS, dedicado a ofrecer servicios de procesamiento de voz eficientes y precisos.

Productividad

•Reconocimiento de voz•Traducción

108

EgoLife — EgoLife es un proyecto de asistente de IA para la vida diaria a largo plazo, multimodal y multiperspectiva, cuyo objetivo es impulsar la investigación sobre la comprensión de contextos a largo plazo.

Productividad

•IA•Multimodal

120

UniTok — UniTok es un tokenizador visual unificado para la generación y comprensión visual.

Imagen

•Inteligencia artificial•Generación visual

162

ViDoRAG — ViDoRAG es un marco de agentes de razonamiento iterativo dinámico que combina la recuperación de documentos visuales con la generación mejorada.

Programación

•Multimodal•Generación mejorada con recuperación

126

Migician — Migician es un modelo de lenguaje multimodal de gran tamaño centrado en la localización de múltiples imágenes, capaz de realizar una localización precisa de múltiples imágenes de forma libre.

Imagen

•Multimodal•Localización de imágenes

174

Mochii AI — Mochii AI es un ecosistema de inteligencia artificial personalizado respaldado por modelos de vanguardia, que impulsa el futuro de la colaboración entre humanos e IA.

Selección Nacional

•Inteligencia artificial•Herramientas de productividad

198

ElevenLabs Scribe — Scribe es el modelo de voz a texto más preciso del mundo, compatible con 99 idiomas.

Productividad

•Reconocimiento de voz•Multilingüe

168

TheoremExplainAgent — TheoremExplainAgent es un sistema inteligente para generar vídeos explicativos multimodales de teoremas.

Educación

•Inteligencia artificial•Educación

138

Phi-4-multimodal-instruct — Phi-4-multimodal-instruct é um modelo básico multimodal leve desenvolvido pela Microsoft, que suporta entrada de texto, imagem e áudio.

Productividad

•Multimodal•Reconhecimento de Voz

108

Magma-8B — Magma-8B es un modelo de IA multimodal desarrollado por Microsoft que puede procesar entradas de imagen y texto y generar salidas de texto.

Imagen

•Multimodal•IA

168