Noticias de IA

No te pierdas ningún momento de la innovación global en IA

IA Diario

Tendencias diarias de la industria de la IA en tres minutos

Cronología de la IA

Hitos de la industria de la IA

Guía de Monetización de la IA

Últimos Casos

Compartiendo casos de monetización de IA

Colección de Imágenes

Casos de monetización de creación de imágenes con IA

Colección de Videos

Casos de monetización de creación de videos con IA

Colección de Audio

Casos de monetización de creación de audio con IA

Colección de Contenido

Casos de monetización de redacción de contenido con IA

Tutoriales de IA

Últimos Tutoriales

Compartiendo gratuitamente los últimos tutoriales de IA

Rankings de Productos de IA

Ranking de Productos de IA

Muestra el ranking de visitas totales de sitios web de IA

Ranking de Crecimiento de Tráfico de IA

Rastrea los sitios web de IA de más rápido crecimiento por tráfico

Ranking de Descenso de Tráfico de IA

Se centra en los sitios web de IA con descensos de tráfico significativos

Ranking Semanal de IA

Muestra el ranking semanal de visitas de sitios web de IA

Rankings de Países Populares

Estados Unidos

Sitios web de IA más populares entre los usuarios estadounidenses

China

Sitios web de IA más populares entre los usuarios chinos

India

Sitios web de IA más populares entre los usuarios indios

Brasil

Sitios web de IA más populares entre los usuarios brasileños

Rankings de Categorías Populares

Generación de Imágenes

Ranking total de visitas de sitios web de generación de imágenes con IA

Asistente Personal

Ranking total de visitas de sitios web de asistentes personales con IA

Generación de Personajes

Ranking total de visitas de sitios web de generación de personajes con IA

Generación de Videos

Ranking total de visitas de sitios web de generación de videos con IA

Rankings de Datos de Código Abierto Populares

Ranking de Proyectos de IA

Proyectos de IA populares en GitHub por estrellas totales

Ranking de Crecimiento de Proyectos de IA

Proyectos de IA populares en GitHub por tasa de crecimiento

Ranking de Desarrolladores de IA

Ranking de desarrolladores de IA populares en GitHub

Ranking de Organizaciones de IA

Ranking de organizaciones de IA populares en GitHub

Categorías de Código Abierto Populares

Deepseek

Proyectos de código abierto de Deepseek populares en GitHub

TTS

Proyectos de código abierto de TTS populares en GitHub

LLM

Proyectos de código abierto de LLM populares en GitHub

ChatGPT

Proyectos de código abierto de ChatGPT populares en GitHub

Biblioteca de Proyectos de Código Abierto de IA

Visión General

Visión general de los proyectos de código abierto de IA populares en GitHub

Biblioteca de productos Navegación de herramientas

Sesame CSM

Un modelo para generar voz conversacional, que admite la generación de voz de alta calidad a partir de texto y entrada de audio.

Nuevo Producto PremiumProductividadSíntesis de vozInteligencia artificial

Abrir sitio web

CSM es un modelo de generación de voz conversacional desarrollado por Sesame, capaz de generar voz de alta calidad a partir de texto y entrada de audio. Este modelo se basa en la arquitectura Llama y utiliza el codificador de audio Mimi. Se utiliza principalmente para la síntesis de voz y aplicaciones de voz interactivas, como asistentes de voz y herramientas educativas. Las principales ventajas de CSM son su capacidad para generar voz natural y fluida, y la posibilidad de optimizar la salida de voz mediante información contextual. Actualmente, este modelo es de código abierto y está disponible para fines de investigación y educativos.

Abrir sitio web

Sesame CSM Situación del tráfico más reciente

Total de visitas mensuales

521149929

Tasa de rebote

35.96%

Páginas promedio por visita

6.1

Duración promedio de la visita

00:06:29

Sesame CSM Tendencia de visitas

Sesame CSM Distribución geográfica de las visitas

Sesame CSM Fuentes de tráfico

Sesame CSM Alternativas

Orpheus TTS — Un sistema de texto a voz de código abierto, dedicado a lograr una naturalización del habla humana.

Productividad

•Texto a voz•Código abierto

264

Sesame CSM — Un modelo para generar voz conversacional, que admite la generación de voz de alta calidad a partir de texto y entrada de audio.

Productividad

•Síntesis de voz•Inteligencia artificial

540

IndexTTS — Sistema de texto a voz (TTS) de muestra cero, eficiente y controlable de grado industrial

Productividad

•Síntesis de voz•Inteligencia artificial

204

MegaTTS 3 — Un modelo de síntesis de voz eficiente que admite chino, inglés y clonación de voz.

Música

•Síntesis de voz•Aprendizaje profundo

Agno — Una biblioteca ligera para construir agentes multimodales.

Productividad

•Agente multimodal•Código abierto

Fin-R1 — Modelo de lenguaje grande para el razonamiento financiero impulsado por el aprendizaje por refuerzo.

Productividad

•Finanzas•Inteligencia artificial

120

Reka Flash 3 — Un modelo de inferencia general de 21B parámetros, adecuado para aplicaciones de baja latencia.

Productividad

•Inteligencia Artificial•Procesamiento del Lenguaje Natural

168

Mistral Small 3.1 — Modelo de código abierto que mejora la capacidad de procesamiento de tareas de texto y visión.

Productividad

•Multimodal•Procesamiento de texto

276

Light-R1 — Light-R1 es un proyecto de código abierto centrado en el razonamiento de cadenas largas (Long COT), que proporciona un método de entrenamiento desde cero mediante SFT, DPO y RL.

Programación

•Inteligencia Artificial•Razonamiento de Cadenas Largas

216

Sesame AI — Sesame AI es una plataforma de síntesis de voz avanzada que puede generar voz natural de conversación y tiene inteligencia emocional.

Otros

•Síntesis de voz•Inteligencia artificial

492

IMM — Inductive Moment Matching es un nuevo tipo de modelo generativo, utilizado para la generación de imágenes de alta calidad.

Imagen

•Modelo generativo•Generación de imágenes

186

Instella — Instella es un modelo de lenguaje de código abierto de alto rendimiento desarrollado por AMD, diseñado para acelerar el desarrollo de modelos de lenguaje de código abierto.

Programación

•Código abierto•Modelo de lenguaje

246

Llasa — Modelo base de TTS basado en el framework Llama, compatible con 160.000 horas de datos de voz tokenizados.

Productividad

•Síntesis de voz•Inteligencia artificial

192

Migician — Migician es un modelo de lenguaje multimodal de gran tamaño centrado en la localización de múltiples imágenes, capaz de realizar una localización precisa de múltiples imágenes de forma libre.

Imagen

•Multimodal•Localización de imágenes

174

Octave TTS — Octave TTS es el primer modelo de síntesis de voz capaz de comprender el significado del texto y generar voz con emoción y estilo.

Selección Internacional

•Síntesis de voz•Inteligencia artificial

276

QwQ-Max-Vista previa — QwQ-Max-Vista previa es el último logro de la serie Qwen, construido sobre Qwen2.5-Max, y cuenta con una potente capacidad de razonamiento y aplicaciones multidominio.

Selección Nacional

•Inteligencia Artificial•Aprendizaje Profundo

810

AlphaMaze-v0.2-1.5B — Método innovador para mejorar la capacidad de razonamiento visual de los modelos lingüísticos grandes (LLM) mediante la resolución de tareas de laberintos descritos en texto.

Otros

•Inteligencia Artificial•Modelo Lingüístico

240

El Manual de Sistemas Ultraescalables — Una herramienta enfocada en el diseño y optimización de sistemas ultraescalables, ofreciendo soluciones eficientes.

Selección Internacional

•Sistemas ultraescalables•Optimización

384

SkyReels-V1-Hunyuan-I2V — SkyReels V1 es un modelo base de video centrado en el ser humano, de código abierto, enfocado en la generación de videos de alta calidad con apariencia cinematográfica.

Video

•Generación de video•Inteligencia artificial

516

OpenThinker-32B — OpenThinker-32B es un potente modelo de inferencia de código abierto, diseñado para mejorar la capacidad de razonamiento con datos abiertos.

Programación

•Inteligencia artificial•Modelo de inferencia

324

Aplicación OLMoE — Ai2 OLMoE es una aplicación de modelo de lenguaje de código abierto que se ejecuta en dispositivos iOS.

Selección Internacional

•Código abierto•Modelo de lenguaje

348

Huginn-0125 — Huginn-0125 es un modelo de profundidad recurrente con variables latentes de 3.5 mil millones de parámetros, que destaca en el razonamiento y la generación de código.

Programación

•Inteligencia Artificial•Aprendizaje Profundo

228

FireRedASR — Modelo de Reconocimiento Automático del Habla (RAH) en mandarín estándar de nivel industrial de código abierto, compatible con múltiples escenarios de aplicación.

Productividad

•Reconocimiento de voz•Inteligencia artificial

246

RAG-FiT — RAG-FiT es una biblioteca diseñada para mejorar la capacidad de los LLMs (Modelos de Lenguaje Grande) de utilizar información externa mediante el ajuste fino del modelo con un conjunto de datos RAG (Recuperación Aumentada de Generación) especialmente creado.

Programación

•Inteligencia Artificial•Procesamiento del Lenguaje Natural

282

Nombre en Clave Goose — Agente de inteligencia artificial que se ejecuta localmente y automatiza tareas de ingeniería sin problemas.

Selección Internacional

•Inteligencia Artificial•Asistencia para la Programación

312

Open-source DeepResearch — Herramienta de investigación profunda de código abierto, cuyo objetivo es reproducir las funciones de Deep Research mediante un framework de código abierto.

Programación

•Código abierto•Inteligencia artificial

342

Tülu 3 405B — Tülu 3 405B es un modelo de lenguaje abierto de gran escala, cuyo rendimiento se ha mejorado mediante aprendizaje por refuerzo.

Programación

•Inteligencia Artificial•Procesamiento del Lenguaje Natural

708

SpeechGPT 2.0-versión preliminar — Primer sistema de interacción en tiempo real a nivel humano orientado a la inteligencia contextual, que admite la interacción de voz con múltiples emociones y estilos.

Chat

•Interacción de voz•Inteligencia artificial

276

leapfusion-hunyuan-image2video — Una novedosa tecnología de muestreo de imagen a vídeo, basada en el modelo Hunyuan para generar vídeos de alta calidad.

Video

•Inteligencia Artificial•Generación de Vídeo

468

Llasa-1B — Llasa-1B es un modelo de texto a voz (TTS) basado en LLaMA, que admite la síntesis de voz en chino e inglés.

Otros

•Texto a voz•Síntesis de voz

504