¡Bienvenido a la sección 【AI日报】! Aquí encontrará su guía diaria para explorar el mundo de la inteligencia artificial. Todos los días le presentamos los temas más relevantes del campo de la IA, centrándonos en los desarrolladores y ayudándole a comprender las tendencias tecnológicas y las innovadoras aplicaciones de productos de IA.

Descubra nuevos productos de IA haciendo clic aquí: https://top.aibase.com/

1. Actualización inteligente de los productos SaaS de Tencent: Integración completa con el modelo HunYuan

Tencent ha anunciado que sus productos SaaS de colaboración se integrarán completamente con el modelo HunYuan, logrando la inteligencia artificial de los servicios de software. Productos como Tencent Lexiu, Tencent Electronic Signature y Tencent Questionnaire ya se han actualizado de forma inteligente, ofreciendo a los usuarios servicios más inteligentes y eficientes. El gran modelo HunYuan se ha ampliado a una escala de billones de parámetros, siendo el primero en China en adoptar una estructura de modelo de experto mixto, con un rendimiento excepcional. Los desarrolladores y empresas externas pueden acceder directamente a las capacidades de HunYuan a través de la API de Tencent Cloud para resolver los problemas de los usuarios.

【Resumen de AiBase:】

🚀 Los productos SaaS de Tencent se han actualizado de forma inteligente, ofreciendo servicios más inteligentes y eficientes.

💡 El gran modelo HunYuan se ha ampliado a una escala de billones de parámetros, con un rendimiento excepcional en múltiples aspectos.

🔗 Los desarrolladores y empresas externas pueden acceder a las capacidades de HunYuan a través de la API de Tencent Cloud para resolver problemas en diferentes escenarios.

2. Microsoft lanza la serie de modelos de IA Phi-3, de nivel ChatGPT, para iPhone, desafiando la posición de OpenAI

Los pequeños modelos de IA de la serie Phi-3, recientemente lanzados por Microsoft, han causado sensación en el campo de la IA, especialmente el modelo Phi-3-mini, que ha superado al modelo Llama3, con más parámetros, en varias pruebas de referencia. Esta serie de modelos puede funcionar a una velocidad de 12 tokens por segundo en iPhone 14 Pro y iPhone 15, alcanzando el nivel de ChatGPT. Microsoft destaca la importancia de los datos de entrenamiento, mejorando el rendimiento del modelo mediante un diseño cuidadoso de los datos y los métodos de entrenamiento.

image.png

【Resumen de AiBase:】

🚀 El modelo Phi-3-mini tiene solo 3.8B parámetros, pero supera en rendimiento al modelo Llama3 de 8B parámetros.

💡 La serie Phi-3 incluye las versiones Phi-3-small y Phi-3-medium, con un rendimiento superior.

🔍 El equipo de Microsoft ha mejorado el rendimiento de la serie de modelos Phi-3 mediante un diseño cuidadoso de los datos de entrenamiento y métodos de entrenamiento únicos.

Enlace de detalles:https://arxiv.org/pdf/2404.14219.pdf

3. Se dicta sentencia en el primer caso de infracción de derechos de autor de voz por IA en China: Se obtiene una indemnización de 250.000 yuanes por la venta de una voz convertida en IA

Este artículo informa sobre la sentencia de primera instancia en el primer caso de infracción de derechos de autor de voz por IA en China, un caso que ha generado una gran atención social por el mal uso de la voz de un actor de doblaje mediante tecnología de IA. El tribunal dictaminó que el acusado infringió los derechos de autor al utilizar la voz del actor de doblaje sin autorización para desarrollar productos de IA, debiendo pagar una indemnización de 250.000 yuanes. La sentencia destaca que la voz, como derecho de la personalidad, debe estar protegida por la ley, ofreciendo una importante protección legal a los creadores de voces.

【Resumen de AiBase:】

🔍 Sentencia de primera instancia en el primer caso de infracción de derechos de autor de voz por IA: El acusado utilizó la voz de un actor de doblaje sin autorización para desarrollar productos de IA, debiendo pagar una indemnización de 250.000 yuanes.

💡 El tribunal destaca que la voz, como derecho de la personalidad único, debe estar protegida por la ley, y su uso no autorizado constituye una infracción.

👩‍⚖️ La sentencia ofrece una importante protección legal a los creadores de voces, protegiendo sus derechos y combatiendo las infracciones.

4. Lanzamiento del modelo de chat chino Llama3-8B-Chinese-Chat

Este artículo presenta el modelo de chat chino Llama3-8B-Chinese-Chat, un modelo basado en el modelo Meta-Llama-3-8B-Instruct y ajustado con el método ORPO. Este modelo reduce el uso de respuestas mixtas chino-inglés y emojis, haciendo que las respuestas sean más formales y profesionales. Destaca en la comprensión de la intención de las preguntas en chino, el suministro de respuestas adecuadas y el rechazo de solicitudes inapropiadas.

【Resumen de AiBase:】

🔑 Llama3-8B-Chinese-Chat es un modelo de chat chino basado en el modelo Meta-Llama-3-8B-Instruct y ajustado con el método ORPO, reduciendo el uso de respuestas mixtas chino-inglés y emojis.

🌟 El método ORPO utiliza el concepto de odds ratio para ajustar la configuración de preferencias del modelo, optimizando su rendimiento en tareas específicas. El modelo Llama3-8B-Chinese-Chat utiliza ORPO para optimizar las preferencias de generación de chino e inglés.

💡 El modelo Llama3-8B-Chinese-Chat destaca en seguridad, ética, resolución de problemas matemáticos, redacción y ejemplos de programación, ofreciendo respuestas y ejemplos de código más precisos y profesionales.

Enlace de detalles:https://top.aibase.com/tool/llama3-8b-chinese-chat

5. Adobe lanza el proyecto de superresolución de vídeo VideoGigaGAN

Adobe ha lanzado recientemente el proyecto de superresolución de vídeo VideoGigaGAN, que ha logrado un progreso significativo en la tecnología de ampliación de vídeo, pudiendo ampliar los vídeos hasta 8 veces su resolución original, manteniendo la coherencia temporal y la nitidez de los detalles de alta frecuencia. Esta tecnología lleva el procesamiento de vídeo a una nueva etapa, ampliando enormemente el alcance y la calidad del contenido de vídeo.

image.png

【Resumen de AiBase:】

✨ VideoGigaGAN amplía los vídeos hasta 8 veces su resolución original, manteniendo la coherencia temporal y la nitidez de los detalles de alta frecuencia.

🔍 Adobe ha optimizado el modelo GigaGAN, mejorando la estabilidad del vídeo y mostrando un rendimiento excepcional.

💡 VideoGigaGAN mejora la calidad visual del vídeo, adaptándose a diferentes estilos de contenido de vídeo y con un amplio potencial de aplicación.

Enlace de detalles:https://top.aibase.com/tool/videogigagan

6. Midjourney lanza la función "aleatorio", que permite generar estilos de imagen completamente aleatorios basados en palabras clave

Midjourney ha lanzado una función interesante que permite generar estilos de imagen completamente aleatorios basados en palabras clave. Los usuarios pueden explorar diferentes direcciones creativas a través de los estilos de imagen generados aleatoriamente, y también pueden comunicarse e intercambiar información en tiempo real con otros usuarios, discutiendo conjuntamente la inspiración y las ideas en el proceso creativo. El lanzamiento de esta función enriquecerá aún más la experiencia de generación de imágenes de los usuarios, ofreciéndoles más opciones creativas y una plataforma de comunicación.

image.png

【Resumen de AiBase:】

⚙️ Permite generar estilos de imagen completamente aleatorios basados en palabras clave.

💬 Los usuarios pueden comunicarse e intercambiar información en tiempo real a través de la función Room.

🎨 Explora diferentes direcciones creativas, enriqueciendo la experiencia de generación de imágenes de los usuarios.

7. El fundador de la empresa unicornio de IA "Lado Oscuro de la Luna", Yang Zhilin, liquida acciones por decenas de millones de dólares: Respuesta oficial

Yang Zhilin, fundador de "Lado Oscuro de la Luna", ha generado una gran atención al liquidar acciones por decenas de millones de dólares. La empresa, fundada hace solo un año, ha recibido una financiación enorme, con una valoración superior a los 2.500 millones de dólares. El éxito de "Lado Oscuro de la Luna" no solo se refleja en su valoración, sino también en el éxito de su producto estrella, Kimi Chat.

【Resumen de AiBase:】

🚀 El fundador de "Lado Oscuro de la Luna", Yang Zhilin, ha liquidado acciones por decenas de millones de dólares, y la empresa tiene una valoración superior a los 2.500 millones de dólares.

💡 "Lado Oscuro de la Luna" ha surgido rápidamente en solo un año, convirtiéndose en uno de los unicornios del sector de los grandes modelos lingüísticos en China.

💬 El producto estrella de "Lado Oscuro de la Luna", Kimi Chat, se ha destacado en el sector de los grandes modelos lingüísticos gracias a su función de "texto largo", generando un gran interés en el mercado de capitales.

8. ¡Sin dudarlo! Zuckerberg revela su disposición a liberar un modelo de 100.000 millones de dólares, afirmando que la AGI no es posible antes de 2025

En una reciente entrevista en un podcast, Zuckerberg ha mostrado su imagen de héroe de código abierto, expresando su disposición a liberar un modelo con un valor de 100.000 millones de dólares, destacando que el código abierto reduce los costes y fomenta la innovación, pero también es necesario considerar los aspectos económicos. Se muestra pesimista sobre la posibilidad de lograr la AGI antes de 2025, considerando la escasez de energía como un cuello de botella que podría tardar décadas en resolverse. Critica a Apple y Google por monopolizar el ecosistema móvil, esperando cambiar la situación mediante el código abierto y prevenir las amenazas de la competencia. Muestra reservas sobre los desafíos en el desarrollo de la IA, preocupándose por las limitaciones energéticas y los retos de los centros de datos, y se mantiene cauteloso sobre la mejora futura de la capacidad de los modelos de IA.

【Resumen de AiBase:】

💡 Zuckerberg está dispuesto a liberar un modelo con un valor de 100.000 millones de dólares, considerando que el código abierto reduce los costes y fomenta la innovación, pero es necesario considerar los aspectos económicos.

💡 Se muestra pesimista sobre la posibilidad de lograr la AGI antes de 2025, considerando la escasez de energía como un cuello de botella que podría tardar décadas en resolverse.

💡 Critica a Apple y Google por monopolizar el ecosistema móvil, esperando cambiar la situación mediante el código abierto y prevenir las amenazas de la competencia.

9. ByteDance lanza el algoritmo de destilación de modelos de imagen Hyper-SD

Este artículo presenta el nuevo algoritmo de destilación de modelos de imagen Hyper-SD, lanzado por el equipo Lightning de ByteDance, que ha logrado un progreso significativo en el procesamiento de imágenes y el aprendizaje automático. Mediante métodos innovadores, se ha mejorado el rendimiento del modelo, aumentando la velocidad y la eficiencia de la inferencia mientras se mantiene la simplicidad del modelo.

image.png

【Resumen de AiBase:】

⚙️ Destilación de consistencia de trayectoria segmentada: La tecnología Hyper-SD garantiza la integridad de la trayectoria ODE original.

🧠 Mecanismo de aprendizaje con retroalimentación humana: Se introduce el aprendizaje con retroalimentación humana para mejorar el rendimiento del modelo y reducir la pérdida de rendimiento.

🔬 Tecnología de destilación de puntuaciones: Se mejora la capacidad de generación del modelo en inferencia de bajo paso, mejorando aún más el rendimiento.

Enlace de detalles:https://top.aibase.com/tool/hyper-sd

10. Herramienta de generación de música con IA AI Jukebox: Introduzca palabras clave para seleccionar el estilo musical y crear música

AI Jukebox es una herramienta de generación de música que utiliza tecnología de inteligencia artificial y se ofrece a través de la plataforma Hugging Face. Simplifica el proceso de creación musical, siendo inteligente y fácil de usar. Los usuarios pueden introducir palabras clave para guiar a la IA a generar música de un estilo específico, logrando una creación musical inteligente. AI Jukebox fomenta un modelo de colaboración entre humanos y máquinas, ofreciendo inspiración y herramientas creativas a músicos y aficionados a la música, explorando posibilidades infinitas.

image.png

【Resumen de AiBase:】

🎵 Carga de modelos locales: Al abrir la página web de AI Jukebox, el sistema carga automáticamente el modelo de generación sin necesidad de una configuración compleja.

🎶 Generación de música basada en palabras clave: Los usuarios introducen palabras clave específicas para guiar a la IA a generar música de un estilo específico, incluyendo descripciones del tipo de música, la emoción y los instrumentos.

🎼 Modo de colaboración entre humanos y máquinas: AI Jukebox fomenta la colaboración entre usuarios e IA, explorando nuevas formas de creación musical, ofreciendo inspiración y herramientas creativas.

Enlace de detalles:https://top.aibase.com/tool/ai-jukebox

11. Sistema de chat con avatar virtual Live2D

Este artículo presenta un proyecto de sistema de chat con avatar virtual Live2D desarrollado con Unity, utilizando la tecnología Live2D para mostrar imágenes de avatar virtual dinámicas, ofreciendo efectos de animación fluidos y mejorando la experiencia de interacción del usuario. El proyecto integra API como Azure, OpenAI y APISpace para admitir el procesamiento y la generación de lenguaje natural, logrando un intercambio de texto en tiempo real. También admite el procesamiento de imágenes y la detección de rostros, la visualización en alta resolución y funciones de extensión personalizadas.

image.png

【Resumen de AiBase:】

👩‍💻 Integración de imágenes de avatar virtual Live2D, ofreciendo efectos de animación fluidos y mejorando la experiencia del usuario.

💬 Función de chat en tiempo real: El avatar virtual puede comprender y responder a las entradas de texto del usuario, logrando un intercambio en tiempo real.

🔍 Procesamiento de imágenes y detección de rostros, permitiendo que el avatar virtual responda mejor a las entradas visuales del usuario.

Enlace de detalles:https://top.aibase.com/tool/live2d-virtual-human-for-chatting-based-on-unity

12. La Universidad de Hong Kong y la Universidad de Zhejiang desarrollan conjuntamente el modelo SC-GS

Este artículo presenta el modelo SC-GS, propuesto por el laboratorio CVMI de la Universidad de Hong Kong, la empresa de grandes modelos 3D VAST y el equipo de investigación conjunto de la Universidad de Zhejiang. Este modelo ha logrado resultados innovadores en la creación de activos digitales y la reconstrucción 3D. Mediante la edición interactiva en tiempo real de puntos de control dispersos, se ha logrado una edición y síntesis eficientes de escenas dinámicas, mostrando un enorme potencial.