¡Bienvenido a la sección 【AI日报】! Aquí encontrará su guía diaria para explorar el mundo de la inteligencia artificial. Todos los días le presentaremos los temas más relevantes del campo de la IA, enfocados en desarrolladores, para ayudarle a comprender las tendencias tecnológicas y las innovadoras aplicaciones de productos de IA.

¡Haga clic para conocer los nuevos productos de IA!: https://top.aibase.com/

1. Lanzamiento del nuevo modelo de video XinYi 2.0: admite salida de 1080P60 fps, con soporte máximo de 4K

El nuevo modelo de video XinYi 2.0, recientemente lanzado por XinYi Technology, ha logrado un gran avance en el campo de la creación de videos con IA, logrando una creación automatizada de principio a fin, lo que reduce el umbral y el costo de la creación de videos. La tecnología integra algoritmos de IA avanzados y técnicas de aprendizaje profundo, ofreciendo una función de activación con un solo clic. También cuenta con un modelo de guion propio, tecnología de síntesis de voz emocional y capacidad de generación automática de música de fondo.

image.png

【Resumen de AiBase:】

⚙️ El nuevo modelo de video XinYi 2.0 permite la creación automatizada de principio a fin, reduciendo el umbral y el costo de la creación de videos.

💡 La tecnología integra algoritmos de IA avanzados y técnicas de aprendizaje profundo, ofreciendo una función de activación con un solo clic.

🎬 El nuevo modelo de video XinYi 2.0 cuenta con un modelo de guion propio, tecnología de síntesis de voz emocional y capacidad de generación automática de música de fondo.

Enlace de detalles: https://aigc.yizhentv.com/product/aiVideo

2. OpenAI lanza la función de ajuste fino del modelo GPT-4o, ¡1 millón de Tokens gratuitos diarios!

OpenAI ha lanzado el nuevo modelo multimodal de gran tamaño GPT-4o y permite a los desarrolladores externos realizar ajustes finos para satisfacer las diferentes necesidades de las aplicaciones. Los desarrolladores pueden seleccionar la versión del modelo en el panel de ajuste fino mediante una simple operación y obtener 1 millón de Tokens gratuitos al día para el ajuste fino. Al mismo tiempo, OpenAI se centra en la seguridad y la protección de la privacidad de los datos, garantizando que el modelo ajustado no haga un mal uso de los datos empresariales.

image.png

【Resumen de AiBase:】

🌟 Función de ajuste fino en línea: los desarrolladores pueden ajustar el comportamiento del modelo GPT-4o según sus necesidades.

💰 Gran oferta de Tokens gratuitos: se ofrecen 1 millón de Tokens diarios para el ajuste fino del modelo, atrayendo a numerosos desarrolladores a participar.

🔒 Garantía de seguridad de datos: OpenAI valora la privacidad y la seguridad de los datos, garantizando que el modelo ajustado no utilice los datos de entrada y salida para volver a entrenar.

Enlace de detalles: https://platform.openai.com/finetune

3. ¡Otra potente herramienta de video con IA hace su aparición! Hotshot puede generar videos de hasta 10 segundos sin marca de agua.

Hotshot es un nuevo generador de video a partir de texto con IA que puede generar videos de hasta 10 segundos y 720p, mostrando un gran potencial. Los usuarios pueden experimentar la versión preliminar del modelo de forma gratuita, pero con un límite de dos videos sin marca de agua por día. El equipo fundador completó el entrenamiento del modelo en tan solo cuatro meses, utilizando 600 millones de fragmentos de video y miles de GPU. Se espera que en el futuro se generalice la creación de videos completos de YouTube con IA, dando a los creadores más control.

【Resumen de AiBase:】

🌟 El nuevo generador de video a partir de texto con IA de Hotshot ha entrado en la fase de "previsualización temprana" pública, y los usuarios pueden experimentarlo de forma gratuita.

🚀 El modelo se entrenó en tan solo cuatro meses utilizando 600 millones de fragmentos de video y miles de GPU, mostrando un gran potencial.

🎥 El fundador Sastry predice que en el próximo año se generalizará la creación de videos completos de YouTube con IA, y los creadores tendrán más control.

Enlace de detalles: https://top.aibase.com/tool/hotshot

4. Actualización de LivePortrait: admite animación de retratos impulsada por imágenes y control de áreas detalladas.

La herramienta Gradio de LivePortrait ha recibido una serie de emocionantes actualizaciones. Los usuarios ahora pueden usar sus propias imágenes para impulsar la animación de retratos y pueden seleccionar con precisión las áreas de animación. Las funciones añadidas mejoran la facilidad de uso y la libertad creativa de la producción de animaciones, al tiempo que protegen la información privada. La principal ventaja de LivePortrait radica en su asombrosa tecnología de transferencia de expresiones, capaz de crear efectos dinámicos realistas.

1.jpg

【Resumen de AiBase:】

🚀 Los usuarios pueden usar sus propias imágenes para impulsar la animación de retratos y seleccionar con precisión las áreas de animación.

🎭 La nueva función de movimiento relativo protege la privacidad, pero puede afectar la intensidad de las expresiones.

💡 LivePortrait puede copiar con precisión las expresiones a otra persona, ofreciendo una libertad creativa sin precedentes.

Enlace de detalles: https://top.aibase.com/tool/liveportrait

5. ¡TurboEdit, la herramienta de edición de imágenes instantánea con IA! ¡Cambia el color del cabello, rejuvenece y cambia de ropa con una sola frase!

TurboEdit es una herramienta de edición de imágenes instantánea basada en texto que permite a los usuarios editar imágenes rápidamente mediante descripciones de texto sencillas. La velocidad de edición es extremadamente rápida, admite retroalimentación instantánea y edición interactiva, permitiendo a los usuarios ver los resultados de la edición en tiempo real. Tanto los diseñadores profesionales como los usuarios comunes pueden utilizar TurboEdit para realizar fácilmente sus ideas creativas.

【Resumen de AiBase:】

✨ Solo necesita una frase descriptiva para editar rápidamente las imágenes, logrando cambiar el color del cabello, rejuvenecer y cambiar de ropa instantáneamente.

💡 TurboEdit puede modificar solo partes específicas de la imagen manteniendo la imagen general sin cambios, permitiendo a los usuarios ajustar cualquier área de la imagen a su gusto.

🚀 TurboEdit admite la modificación simultánea de múltiples atributos de la imagen, incluyendo color, vestimenta, estilo, etc., permitiendo que la creatividad se extienda infinitamente.

Enlace de detalles: https://betterze.github.io/TurboEdit/

6. Viggle, el rey del baile con IA: ¡hace bailar a Musk y Trump con un solo clic, con más de 6,8 millones de visitas mensuales!

Musk ha vuelto a demostrar su posición de rey de las visitas en internet, con un video publicado a través de la herramienta de IA Viggle que ha explotado en toda la red, superando rápidamente los 130 millones de reproducciones. La herramienta de generación de videos con IA basada en plantillas de Viggle AI es sencilla y potente, permitiendo a los usuarios comunes crear videos de calidad profesional. Con más de 6,8 millones de visitas mensuales, demuestra un hito en la aplicación de la tecnología de IA en la vida diaria.

image.png

【Resumen de AiBase:】

🌟 Viggle AI permite a los usuarios generar fácilmente videos de baile fluidos y naturales simplemente subiendo fotos y seleccionando plantillas de movimientos.

🚀 Se lanza la función de control de múltiples personajes Multi, permitiendo a los usuarios controlar dos personajes simultáneamente, lo que despierta la creatividad de los usuarios y la rápida propagación de los videos de creación secundaria.

💡 La operación basada en plantillas de Viggle AI reduce el umbral de creación, permitiendo a los usuarios comunes crear videos de calidad profesional, similar al camino al éxito de CapCut y CapCut.

Acceso al producto: https://top.aibase.com/tool/viggle

7. ¡Creado para el razonamiento visual complejo! Microsoft lanza Phi-3.5-vision.

Microsoft ha lanzado recientemente Phi-3.5-vision, un modelo de IA ligero y multimodal de código abierto, diseñado para procesar entradas de texto e imágenes. Phi-3.5-vision destaca en entornos con recursos limitados, admite una longitud de contexto de 128K y es adecuado para entornos comerciales y de investigación. Este modelo cuenta con una amplia gama de funciones, como comprensión de imágenes, OCR, análisis de gráficos y tablas, mostrando una mejora significativa en las pruebas de referencia.

image.png

【Resumen de AiBase:】

🔍 Phi-3.5-vision es un modelo de IA ligero y multimodal, adecuado para procesar entradas de texto e imágenes.

💡 Este modelo admite una longitud de contexto de 128K y ofrece un rendimiento excelente en entornos con recursos de memoria o computación limitados.

🚀 Phi-3.5-vision cuenta con funciones de comprensión de imágenes, OCR, análisis de gráficos y tablas, mostrando una mejora significativa en el rendimiento.

Enlace de detalles: https://huggingface.co/microsoft/Phi-3.5-vision-instruct

8. El modelo de reconocimiento automático de voz Seed-ASR de ByteDance, ¡puede entender todo tipo de acentos y dialectos!

Seed-ASR es un motor de reconocimiento de voz lanzado por ByteDance. Después de un extenso entrenamiento con datos, cuenta con una excelente capacidad de reconocimiento y conciencia contextual, pudiendo reconocer con precisión múltiples idiomas, dialectos y acentos, abriendo nuevas posibilidades para la comunicación entre idiomas. Ofrece un excelente rendimiento en diversas situaciones, mejorando la experiencia del usuario, especialmente en el campo de los asistentes inteligentes y la búsqueda por voz.

【Resumen de AiBase:】

🔍 Seed-ASR, entrenado con más de 20 millones de horas de datos de voz y 900.000 horas de datos emparejados, puede reconocer con precisión 13 dialectos chinos y 7 idiomas extranjeros, incluyendo inglés con diversos acentos.

🔑 Seed-ASR cuenta con una excelente capacidad de conciencia contextual, combinando registros de conversaciones históricas y actas de reuniones para mejorar la precisión del reconocimiento, especialmente en situaciones específicas.

🎯 Seed-ASR puede reconocer terminología de diversos campos profesionales, incluyendo medicina, tecnología, automoción y música, mejorando significativamente la eficiencia y precisión de los asistentes inteligentes y la búsqueda por voz.

Enlace de detalles: https://bytedancespeech.github.io/seedasr_tech_report/

9. ¡Versión comprimida de Llama3! Nvidia lanza el modelo de lenguaje pequeño Llama-3.1-Minitron4B con solo 400 millones de parámetros.

En la era en que las empresas tecnológicas persiguen la realización de la inteligencia artificial, Nvidia lanza Llama-3.1-Minitron4B, que utiliza técnicas de poda y destilación, con un rendimiento eficiente y una excelente eficiencia de entrenamiento e implementación.

image.png

【Resumen de AiBase:】

🌟 Llama-3.1-Minitron4B es un modelo de lenguaje pequeño lanzado por Nvidia, con una implementación y entrenamiento eficientes.

📈 La cantidad de tokens utilizados se reduce en 40 veces, con una mejora significativa en el rendimiento.

🔓 La versión de poda de ancho ya se ha publicado en Hugging Face, facilitando su uso y desarrollo comercial.

Enlace de detalles: https://developer.nvidia.com/blog/how-to-prune-and-distill-llama-3-1-8b-to-an-nvidia-llama-3-1-minitron-4b-model/

10. OpenAI y Condé Nast llegan a un acuerdo de colaboración de contenido a largo plazo.

Recientemente, OpenAI y Condé Nast llegaron a un acuerdo de colaboración a largo plazo para explorar la presentación del contenido de las marcas de Condé Nast en productos de inteligencia artificial. Esta colaboración marca una estrecha cooperación entre los campos del contenido digital y la inteligencia artificial, ofreciendo a los usuarios una experiencia de búsqueda más rica e informes de alta calidad.

【Resumen de AiBase:】

🌟 OpenAI y Condé Nast llegan a un acuerdo de colaboración a largo plazo, y el contenido se integrará en los productos de IA.

📰 OpenAI obtiene una gran cantidad de archivos de texto de editores para entrenar modelos de lenguaje de gran tamaño.

⚖️ Algunas empresas de medios optan por demandar a OpenAI para proteger sus derechos.

11. ¡Dura represión contra las reseñas falsas con IA! El gobierno de EE. UU. toma medidas enérgicas y prohíbe las reseñas falsas generadas por IA.

Recientemente, la Comisión Federal de Comercio (FTC) de EE. UU. ha tomado medidas importantes para prohibir completamente las reseñas y recomendaciones falsas generadas por IA. Esta nueva regulación tiene como objetivo combatir las prácticas deshonestas en las reseñas en línea, proteger los derechos del consumidor y mantener un entorno de mercado de competencia justa. La presidenta de la FTC, Lina Khan, declaró que las reseñas falsas desperdician tiempo y dinero, contaminan el mercado y desvían la atención de los competidores honestos. El presidente Biden apoya esta medida, enfatizando que los consumidores deben confiar en las reseñas de los clientes.

【Resumen de AiBase:】

🔍 La FTC decide prohibir completamente las reseñas falsas generadas por IA, protegiendo los derechos del consumidor y manteniendo un entorno de mercado de competencia justa.