¡Bienvenido a la sección 【AI日报】! Aquí encontrará su guía diaria para explorar el mundo de la inteligencia artificial. Cada día le presentamos los temas más relevantes del campo de la IA, enfocados en desarrolladores, para ayudarle a comprender las tendencias tecnológicas y las innovadoras aplicaciones de productos de IA.
Productos de IA nuevos haga clic para saber más:https://top.aibase.com/
1. Doubao lanza los auriculares inteligentes Ola Friend: precio de 1199 yuanes
Doubao lanza los auriculares inteligentes Ola Friend, unos auriculares con tecnología de inteligencia artificial diseñados para ofrecer a los usuarios un amigo de IA siempre a su lado. Los usuarios pueden disfrutar de funciones como escuchar música, aprender inglés, obtener servicios de guía, etc. Se necesita descargar la aplicación Doubao para aprovecharla al máximo.
【Resumen de AiBase:】
🎧 Los auriculares inteligentes Ola Friend tienen un precio de 1199 yuanes y admiten funciones de conversación inteligente.
🤖 Los auriculares Ola Friend son un amigo de IA que te acompaña en todo momento, ofreciendo funciones como escuchar música, aprender inglés y servicios de guía.
📱 Los usuarios deben descargar la aplicación Doubao para aprovechar al máximo las funciones de los auriculares Ola Friend. La aplicación admite la búsqueda de información, la resolución de dudas y la generación de ideas, entre otras funciones.
2. vivo lanza la nueva matriz de modelos grandes Blue Heart
vivo presentó en la Conferencia de Desarrolladores vivo 2024 la nueva matriz de modelos grandes Blue Heart, que mejora las capacidades de lenguaje, voz, imagen y multimodalidad, ofreciendo un rendimiento y funciones más potentes. La nueva matriz de modelos grandes Blue Heart eleva el estándar del sector a nuevas cotas, ofreciendo a los usuarios una experiencia de mayor calidad.
【Resumen de AiBase:】
🚀 La matriz de modelos grandes Blue Heart se ha actualizado completamente, incluyendo modelos grandes de lenguaje, de extremo, de voz, de imagen y multimodales.
💡 Se presenta el modelo de extremo Blue Heart de 3 mil millones de parámetros (3B), con un rendimiento mejorado en un 300%, un consumo de energía optimizado en un 46%, una reducción de memoria del 63% y una velocidad de generación de texto de 80 caracteres/s.
🔊 El nuevo modelo de voz Blue Heart de desarrollo propio admite la comprensión del lenguaje natural, la expresión emocional y la interpretación simultánea. El modelo de imagen y multimodalidad refuerza la capacidad de generación que fusiona las características chinas y la estética oriental.
3. ¡Llega la versión de código abierto de NotebookLM! Podcastfy: convierte PDF, texto y URL en podcasts
En la era digital, la creación de contenido de audio multilingüe atractivo se ha convertido en un tema candente. NotebookLM de Google ha sido muy elogiado, mientras que el paquete de software Python de código abierto Podcastfy ha llamado la atención. Podcastfy es la versión de código abierto de NotebookLM, que utiliza una tecnología de inteligencia artificial generativa avanzada para permitir a los usuarios crear podcasts más personalizados y a gran escala.
【Resumen de AiBase:】
🌟 Podcastfy es un paquete de software Python de código abierto que puede convertir texto y contenido web en diálogos de audio multilingües.
🎧 Los usuarios pueden experimentar Podcastfy a través de la aplicación de demostración Gradio o HuggingFace, con una operación simple e intuitiva.
⚠️ Al utilizar contenido externo, asegúrese de tener los derechos de autor y los permisos necesarios. El contenido de audio generado es creado por IA y no imita a personas reales.
Enlace de detalles:https://github.com/souzatharsis/podcastfy-demo?tab=readme-ov-file
4. ¡Nueva magia de reparación de imágenes! Algoritmo innovador PMRF
El algoritmo PMRF (flujo de corrección del valor medio posterior) es una tecnología innovadora en el campo del procesamiento de imágenes que resuelve la contradicción entre la distorsión y la calidad de percepción en la restauración de imágenes, abriendo nuevas posibilidades para la reconstrucción de imágenes de alta calidad. Su singularidad radica en su excelente rendimiento en diversas tareas de restauración de imágenes, logrando resultados notables y equilibrando la distorsión y la calidad de percepción.
【Resumen de AiBase:】
✨ El algoritmo PMRF combina ingeniosamente la predicción del valor medio posterior y el modelo de flujo de corrección, creando un nuevo marco de restauración de imágenes que minimiza la distorsión y mejora la calidad de percepción.
🌟 Amplia aplicación, que abarca la eliminación de ruido, la superresolución, la reparación de áreas dañadas y la restauración del color, entre otros aspectos, generando imágenes naturales y realistas.
💡 En las pruebas realizadas en conjuntos de datos de referencia y reales, PMRF ha demostrado un rendimiento excelente, equilibrando la distorsión y la calidad de percepción, estableciendo un nuevo estándar para la restauración de imágenes.
Enlace de detalles:https://huggingface.co/spaces/ohayonguy/PMRF
5. Walmart lanza el nuevo modelo de inteligencia artificial Wallaby
Walmart lanzó recientemente un gran modelo de lenguaje llamado Wallaby, centrado en los datos del sector minorista, con el objetivo de mejorar la experiencia de atención al cliente. Emplean un método de combinación de múltiples modelos para adaptarse flexiblemente a las diferentes necesidades de las aplicaciones. El asistente de atención al cliente mejorado puede comprender con mayor precisión las intenciones del cliente y ofrecer un servicio personalizado.
【Resumen de AiBase:】
✨ Walmart lanza el gran modelo de lenguaje Wallaby, centrado en los datos del sector minorista, con el objetivo de mejorar la experiencia de atención al cliente.
🤖 Walmart emplea un método de combinación de múltiples modelos para adaptarse flexiblemente a las diferentes necesidades de las aplicaciones.
🛍️ El asistente de atención al cliente mejorado puede comprender con mayor precisión las intenciones del cliente y ofrecer un servicio personalizado.
6. ¡Increíble! GPT-4 domina sin querer la tecnología de reconocimiento facial, con una precisión superior a la de los algoritmos profesionales
Un estudio reciente muestra que GPT-4 tiene la capacidad de reconocer rostros, determinar el sexo y estimar la edad, con una precisión superior a la de los algoritmos profesionales, pero presenta riesgos de seguridad. El estudio revela métodos para eludir los mecanismos de seguridad de GPT-4, lo que plantea interrogantes sobre la seguridad de los grandes modelos de lenguaje. A pesar del excelente rendimiento de GPT-4 en tareas de biometría, los autores del estudio advierten que no se debe depender totalmente de su capacidad de reconocimiento.
【Resumen de AiBase:】
🌟 GPT-4 alcanzó una precisión del 100% en la prueba de reconocimiento de género, superando al modelo DeepFace.
📊 La precisión de la estimación de edad de GPT-4 es del 74,25%, pero la estimación para las personas mayores puede ser más amplia.
🔒 El estudio descubrió que es posible eludir los mecanismos de seguridad de GPT-4, por lo que es necesario reforzar la investigación sobre la seguridad de los grandes modelos de lenguaje.
7. ¡2 millones de usuarios! Se lanza Gradio 5 de Hugging Face: construye aplicaciones de IA fácilmente con lenguaje natural
Se lanza Gradio 5 de Hugging Face, que se centra en simplificar el desarrollo de IA, ofreciendo seguridad a nivel empresarial y la función AI Playground, impulsando aún más la experiencia de desarrollo de aplicaciones de IA.
【Resumen de AiBase:】
🌟 Gradio 5 incorpora seguridad a nivel empresarial para garantizar la seguridad de las aplicaciones.
🚀 La nueva función AI Playground simplifica el flujo de trabajo de desarrollo, facilitando la creación de aplicaciones.
🔮 Hugging Face planea el futuro, lanzando varias funciones nuevas para mejorar aún más la experiencia de desarrollo de aplicaciones de IA.
Enlace de detalles:https://www.gradio.app/
8. OpenAI solicita a la corte que desestime la demanda de Musk, calificándola de comportamiento de “acoso”
En este artículo, OpenAI solicita a la corte que desestime la demanda de Musk contra la empresa, calificándola de comportamiento de “acoso”. El artículo revela el trasfondo del conflicto legal entre Musk y OpenAI, destacando la falta de pruebas en las acusaciones de Musk y cuestionando su legitimidad jurídica.
【Resumen de AiBase:】
🌟 OpenAI califica las múltiples demandas de Musk contra la empresa como “acoso” y solicita su desestimación.
📉 OpenAI destaca la falta de pruebas en las acusaciones de Musk, calificándolas de afirmaciones poco realistas.
⚖️ Musk afirma que OpenAI no ha cumplido las promesas del acuerdo de fundación, pero se cuestiona jurídicamente su derecho a presentar tales acusaciones.
9. Zoom lanza la función de avatar digital: ¿comodidad o preocupación?
El plan de Zoom de lanzar la función de avatar digital ha suscitado preocupaciones sobre la tecnología de deepfakes. Si bien esta función puede mejorar la eficiencia de la creación de videos, también puede conllevar riesgos de difusión de información falsa.
【Resumen de AiBase:】
✨ Zoom planea lanzar la función de avatar digital, que convierte los videos de los usuarios en avatares digitales realistas impulsados por IA, mejorando la eficiencia de la comunicación asíncrona.
💡 La proliferación de la tecnología de deepfakes dificulta la distinción entre la verdad y la falsedad, lo que puede provocar el uso indebido de videos falsos.
🔒 Zoom ofrece una descripción vaga de las medidas de seguridad, por lo que es necesario reforzar las medidas de protección para evitar la generación de videos falsos malintencionados.
10. DressRecon: crea modelos 3D que reproducen los detalles de la ropa a partir de videos
Recientemente, el equipo de investigación de la Universidad Carnegie Mellon ha publicado una nueva tecnología llamada “DressRecon”, que logra una reconstrucción de alta calidad del cuerpo humano a partir de un solo video, especialmente adecuada para escenas con ropa holgada y objetos en mano. Esta tecnología utiliza modelos implícitos neuronales para separar el procesamiento de la deformación del cuerpo y la ropa, utilizando conocimientos previos basados en imágenes para capturar características geométricas sutiles. Los resultados de la reconstrucción generan modelos tridimensionales de alta fidelidad que admiten el renderizado desde cualquier ángulo, mejorando la experiencia de visualización.
【Resumen de AiBase:】
👗 El equipo de investigación presenta la tecnología DressRecon, que permite una reconstrucción de alta calidad del cuerpo humano a partir de un solo video, especialmente adecuada para escenas con ropa holgada y objetos en mano.
📷 Esta tecnología utiliza modelos implícitos neuronales para separar el procesamiento de la deformación del cuerpo y la ropa, utilizando conocimientos previos basados en imágenes para capturar características geométricas sutiles.
🎥 Los resultados de la reconstrucción no solo generan modelos tridimensionales de alta fidelidad, sino que también admiten el renderizado desde cualquier ángulo, mejorando la experiencia de visualización.
Enlace de detalles:https://jefftan969.github.io/dressrecon/
11. DreamWaltz-G: genera avatares 3D animados a partir de texto
En la era digital, las imágenes virtuales personalizadas están atrayendo mucha atención. El marco DreamWaltz-G, mediante la combinación de la destilación de puntuaciones guiada por esqueleto y la representación gaussiana 3D mixta, mejora la coherencia y la capacidad de animación de la generación de avatares. Este marco admite el control de forma, la reproducción de video y la construcción de escenas con múltiples sujetos, ampliando las posibilidades de creación de contenido digital.
【Resumen de AiBase:】
📌 El innovador marco DreamWaltz-G puede generar avatares 3D animados a partir de descripciones de texto.
🎨 Mediante la combinación de la destilación de puntuaciones guiada por esqueleto y la representación gaussiana 3D mixta, se mejora la coherencia y la capacidad de animación de la generación de avatares.
🎥 Admite el control de forma, la reproducción de video y la construcción de escenas con múltiples sujetos, ampliando las posibilidades de creación de contenido digital.