Noticias de IA

No te pierdas ningún momento de la innovación global en IA

IA Diario

Tendencias diarias de la industria de la IA en tres minutos

Cronología de la IA

Hitos de la industria de la IA

Guía de Monetización de la IA

Últimos Casos

Compartiendo casos de monetización de IA

Colección de Imágenes

Casos de monetización de creación de imágenes con IA

Colección de Videos

Casos de monetización de creación de videos con IA

Colección de Audio

Casos de monetización de creación de audio con IA

Colección de Contenido

Casos de monetización de redacción de contenido con IA

Tutoriales de IA

Últimos Tutoriales

Compartiendo gratuitamente los últimos tutoriales de IA

Rankings de Productos de IA

Ranking de Productos de IA

Muestra el ranking de visitas totales de sitios web de IA

Ranking de Crecimiento de Tráfico de IA

Rastrea los sitios web de IA de más rápido crecimiento por tráfico

Ranking de Descenso de Tráfico de IA

Se centra en los sitios web de IA con descensos de tráfico significativos

Ranking Semanal de IA

Muestra el ranking semanal de visitas de sitios web de IA

Rankings de Países Populares

Estados Unidos

Sitios web de IA más populares entre los usuarios estadounidenses

China

Sitios web de IA más populares entre los usuarios chinos

India

Sitios web de IA más populares entre los usuarios indios

Brasil

Sitios web de IA más populares entre los usuarios brasileños

Rankings de Categorías Populares

Generación de Imágenes

Ranking total de visitas de sitios web de generación de imágenes con IA

Asistente Personal

Ranking total de visitas de sitios web de asistentes personales con IA

Generación de Personajes

Ranking total de visitas de sitios web de generación de personajes con IA

Generación de Videos

Ranking total de visitas de sitios web de generación de videos con IA

Rankings de Datos de Código Abierto Populares

Ranking de Proyectos de IA

Proyectos de IA populares en GitHub por estrellas totales

Ranking de Crecimiento de Proyectos de IA

Proyectos de IA populares en GitHub por tasa de crecimiento

Ranking de Desarrolladores de IA

Ranking de desarrolladores de IA populares en GitHub

Ranking de Organizaciones de IA

Ranking de organizaciones de IA populares en GitHub

Categorías de Código Abierto Populares

Deepseek

Proyectos de código abierto de Deepseek populares en GitHub

TTS

Proyectos de código abierto de TTS populares en GitHub

LLM

Proyectos de código abierto de LLM populares en GitHub

ChatGPT

Proyectos de código abierto de ChatGPT populares en GitHub

Biblioteca de Proyectos de Código Abierto de IA

Visión General

Visión general de los proyectos de código abierto de IA populares en GitHub

Biblioteca de productos Navegación de herramientas

Mini-Gemini

Modelo de IA multimodal con capacidad para comprender y generar imágenes.

Producto ComúnProductividadModelo de IAProcesamiento de imágenes

Abrir sitio web

Mini-Gemini es un modelo multimodal desarrollado por el equipo del profesor Jia Jia-ya, profesor titular de la Universidad China de Hong Kong. Cuenta con una precisa capacidad de comprensión de imágenes y datos de entrenamiento de alta calidad. Este modelo combina la inferencia y generación de imágenes, ofreciendo versiones de diferentes tamaños con un rendimiento comparable a GPT-4 y DALL-E 3. Mini-Gemini utiliza el método de extracción de información de doble rama visual de Gemini y la tecnología SDXL. Codifica imágenes mediante redes convolucionales y utiliza mecanismos de atención para extraer información, a la vez que combina un LLM para generar texto y vincular ambos modelos.

Abrir sitio web

Mini-Gemini Situación del tráfico más reciente

Total de visitas mensuales

474564576

Tasa de rebote

36.20%

Páginas promedio por visita

6.1

Duración promedio de la visita

00:06:34

Mini-Gemini Tendencia de visitas

Mini-Gemini Distribución geográfica de las visitas

Mini-Gemini Fuentes de tráfico

Mini-Gemini Alternativas

Pixtral 12B — Primer modelo multimodales de Mistral, compatible con el procesamiento de tareas mixtas de imagen y texto.

Productividad

•Multimodal•Modelo de IA

180

Mini-Gemini — Modelo de IA multimodal con capacidad para comprender y generar imágenes.

Productividad

•Modelo de IA•Procesamiento de imágenes

2778

UniTok — UniTok es un tokenizador visual unificado para la generación y comprensión visual.

Imagen

•Inteligencia artificial•Generación visual

162

Phi-4-multimodal-instruct — Phi-4-multimodal-instruct é um modelo básico multimodal leve desenvolvido pela Microsoft, que suporta entrada de texto, imagem e áudio.

Productividad

•Multimodal•Reconhecimento de Voz

108

SmolVLM-256M-Instruct — SmolVLM-256M es el modelo multimodal más pequeño del mundo, capaz de procesar de manera eficiente entradas de imagen y texto y generar salidas de texto.

Imagen

•Multimodal•Procesamiento de imágenes

258

InternVL2.5-38B-MPO — Modelo de la serie InternVL2.5-MPO, basado en InternVL2.5 y optimización de preferencias mixtas, que demuestra un rendimiento excepcional.

Chat

•Multimodal•Modelo de lenguaje grande

366

InternVL2_5-26B-MPO-AWQ — Modelo de lenguaje grande multimodal avanzado con una capacidad de razonamiento multimodal excepcional.

Programación

•Multimodal•Modelo de lenguaje grande

168

InternVL2.5-8B-MPO — Modelo lingüístico grande multimodales que muestra un rendimiento general excelente.

Imagen

•Multimodal•Modelo lingüístico grande

396

InternVL2.5-4B-MPO — Modelo de lenguaje grande multimodal que muestra un rendimiento general excelente.

Imagen

•Multimodal•Modelo de lenguaje grande

222

Valley — Modelo multimodal de gran escala que procesa datos de texto, imagen y vídeo.

Imagen

•Multimodal•Modelo de gran escala

348

InternVL2_5-2B-MPO — Modelo de lenguaje grande multimodal avanzado

Imagen

•Multimodal•Modelo de lenguaje grande

168

Llama-3.2-11B-Vision — Modelo de lenguaje grande multimodal que admite el procesamiento de imágenes y texto.

Productividad

•Multimodal•Procesamiento de imágenes

888

Pixtral-12B-2409 — Modelo multimodal de 12B parámetros, que combina un codificador visual para procesar imágenes y texto.

Productividad

•Multimodal•Procesamiento de imágenes

192

FLUX.1-dev-Controlnet-Inpainting-Alpha — Modelo de reparación de imágenes con IA, para rellenar partes faltantes en imágenes.

Imagen

•Reparación de imágenes•Modelo de IA

474

pixtral-12b-240910 — Modelo de lenguaje grande multimodal que admite la comprensión de imágenes y texto.

Imagen

•Multimodal•Procesamiento de imágenes

240

Show-o — Transformador único para la comprensión y generación multimodales unificada

Imagen

•Inteligencia Artificial•Multimodal

378

x-flux-comfyui — Una herramienta de modelos de IA integrada en ComfyUI.

Programación

•Modelo de IA•Procesamiento de imágenes

1212

LLaVA-OneVision — Modelo de conversión eficiente para tareas de visión multimodal

Imagen

•Multimodal•Reconocimiento visual

738

Gemini Pro — Modelo de IA multimodal de alto rendimiento

Productividad

•Modelo de IA•Multimodal

600

AuraSR — AuraSR es un modelo de procesamiento de imágenes de superresolución basado en GAN, que se utiliza para mejorar la calidad de las imágenes generadas.

Productividad

•Procesamiento de imágenes•Superresolución

3078

IOPaint — Herramienta de reparación de imágenes basada en un modelo de IA avanzado.

Productividad

•Procesamiento de imágenes•Modelo de IA

924

cog-become-image — cog-become-image es una herramienta que puede convertir la imagen facial de cualquier persona en otra imagen.

Imagen

•Procesamiento de imágenes•Modelo de IA

2382

DreamActor-M1 — Marco de animación de imágenes humanas basado en DiT, que permite un control preciso y una coherencia a largo plazo.

Productividad

•Animación humana•Generación de video

GAIA-2 — GAIA-2 es un modelo avanzado de generación de video para crear escenarios de conducción autónoma seguros.

Productividad

•Conducción autónoma•Datos sintéticos

StarVector — Modelo base para generar código SVG de alta calidad.

Selección Internacional

•Generación SVG•Procesamiento de imágenes

186

Mistral Small 3.1 — Modelo de código abierto que mejora la capacidad de procesamiento de tareas de texto y visión.

Productividad

•Multimodal•Procesamiento de texto

276

Noticias de IA

IA Diario

Cronología de la IA

Últimos Casos

Colección de Imágenes

Colección de Videos

Colección de Audio

Colección de Contenido

Últimos Tutoriales

Ranking de Productos de IA

Ranking de Crecimiento de Tráfico de IA

Ranking de Descenso de Tráfico de IA

Ranking Semanal de IA

Estados Unidos

China

India

Brasil

Generación de Imágenes

Asistente Personal

Generación de Personajes

Generación de Videos

Ranking de Proyectos de IA

Ranking de Crecimiento de Proyectos de IA

Ranking de Desarrolladores de IA

Ranking de Organizaciones de IA

Deepseek

TTS

LLM

ChatGPT

Visión General

Mini-Gemini

Mini-Gemini Situación del tráfico más reciente

Mini-Gemini Tendencia de visitas

Mini-Gemini Distribución geográfica de las visitas

Mini-Gemini Fuentes de tráfico

Mini-Gemini Alternativas

Pixtral 12B — Primer modelo multimodales de Mistral, compatible con el procesamiento de tareas mixtas de imagen y texto.

Mini-Gemini — Modelo de IA multimodal con capacidad para comprender y generar imágenes.

UniTok — UniTok es un tokenizador visual unificado para la generación y comprensión visual.

Phi-4-multimodal-instruct — Phi-4-multimodal-instruct é um modelo básico multimodal leve desenvolvido pela Microsoft, que suporta entrada de texto, imagem e áudio.

SmolVLM-256M-Instruct — SmolVLM-256M es el modelo multimodal más pequeño del mundo, capaz de procesar de manera eficiente entradas de imagen y texto y generar salidas de texto.

InternVL2.5-38B-MPO — Modelo de la serie InternVL2.5-MPO, basado en InternVL2.5 y optimización de preferencias mixtas, que demuestra un rendimiento excepcional.

InternVL2_5-26B-MPO-AWQ — Modelo de lenguaje grande multimodal avanzado con una capacidad de razonamiento multimodal excepcional.

InternVL2.5-8B-MPO — Modelo lingüístico grande multimodales que muestra un rendimiento general excelente.

InternVL2.5-4B-MPO — Modelo de lenguaje grande multimodal que muestra un rendimiento general excelente.

Valley — Modelo multimodal de gran escala que procesa datos de texto, imagen y vídeo.

InternVL2_5-2B-MPO — Modelo de lenguaje grande multimodal avanzado

Llama-3.2-11B-Vision — Modelo de lenguaje grande multimodal que admite el procesamiento de imágenes y texto.

Pixtral-12B-2409 — Modelo multimodal de 12B parámetros, que combina un codificador visual para procesar imágenes y texto.

FLUX.1-dev-Controlnet-Inpainting-Alpha — Modelo de reparación de imágenes con IA, para rellenar partes faltantes en imágenes.

pixtral-12b-240910 — Modelo de lenguaje grande multimodal que admite la comprensión de imágenes y texto.

Show-o — Transformador único para la comprensión y generación multimodales unificada

x-flux-comfyui — Una herramienta de modelos de IA integrada en ComfyUI.

LLaVA-OneVision — Modelo de conversión eficiente para tareas de visión multimodal

Gemini Pro — Modelo de IA multimodal de alto rendimiento

AuraSR — AuraSR es un modelo de procesamiento de imágenes de superresolución basado en GAN, que se utiliza para mejorar la calidad de las imágenes generadas.

IOPaint — Herramienta de reparación de imágenes basada en un modelo de IA avanzado.

cog-become-image — cog-become-image es una herramienta que puede convertir la imagen facial de cualquier persona en otra imagen.

MouSi — Modelo de lenguaje visual multimodal

OneLLM — Un marco que unifica todos los modelos de lenguaje

Kosmos-2 — Modelo de lenguaje grande multi-modal orientado al mundo

OptiClean — Limpia imágenes en segundos

DreamActor-M1 — Marco de animación de imágenes humanas basado en DiT, que permite un control preciso y una coherencia a largo plazo.

GAIA-2 — GAIA-2 es un modelo avanzado de generación de video para crear escenarios de conducción autónoma seguros.

StarVector — Modelo base para generar código SVG de alta calidad.

Mistral Small 3.1 — Modelo de código abierto que mejora la capacidad de procesamiento de tareas de texto y visión.