¡Bienvenido a la sección de 【AI日报】! Aquí encontrará su guía diaria para explorar el mundo de la inteligencia artificial. Todos los días le presentaremos los temas más relevantes del ámbito de la IA, con enfoque en los desarrolladores, para ayudarle a comprender las tendencias tecnológicas y las innovadoras aplicaciones de productos de IA.
Productos de IA nuevos Infórmese aquí: https://top.aibase.com/
1、¡Desarrolladores alborozados! Nueva versión de GPT-4o en línea: API más rápida y económica
OpenAI lanzó recientemente una nueva función de salida estructurada, cuyo objetivo es que la salida generada por el modelo siga estrictamente el patrón JSON proporcionado por el desarrollador, mejorando la fiabilidad y la coincidencia de la salida. El lanzamiento de esta función proporciona una base importante para que los desarrolladores creen aplicaciones fiables, simplificando el proceso de desarrollo y ayudándoles a crear aplicaciones excelentes con mayor facilidad.
【Resumen de AiBase:】
🌟 La función de salida estructurada hace que la salida del modelo sea más fiable, siguiendo el patrón JSON proporcionado por el desarrollador.
🔍 El nuevo modelo gpt-4o-2024-08-06 obtuvo una puntuación perfecta del 100% en la evaluación de patrones JSON complejos.
🔧 Los SDK de Python y Node se han actualizado para admitir la salida estructurada, simplificando el flujo de trabajo de los desarrolladores.
Enlace de detalles: https://openai.com/index/introducing-structured-outputs-in-the-api/
2、Mianbi Intelligence lanza MiniCPM-V2.6, un "GPT-4V" que se puede ejecutar en el móvil
MiniCPM-V2.6 es un modelo de inteligencia artificial multimodal para dispositivos móviles. Con solo 8B de parámetros, ha logrado los mejores resultados (SOTA) en las tres categorías de comprensión de imágenes individuales, múltiples imágenes y vídeos de menos de 20B de parámetros, y es totalmente comparable a GPT-4V. Este modelo ha superado con creces las capacidades principales de comprensión de imágenes individuales, múltiples imágenes y vídeos en dispositivos móviles, con una densidad de píxeles y una eficiencia de funcionamiento extremadamente altas, y admite múltiples idiomas y marcos de inferencia.
【Resumen de AiBase:】
🚀 MiniCPM-V2.6 ha logrado los mejores resultados (SOTA) en las tres categorías de comprensión de imágenes individuales, múltiples imágenes y vídeos de menos de 20B de parámetros, y es totalmente comparable a GPT-4V.
💡 El modelo tiene una densidad de píxeles y una eficiencia de funcionamiento extremadamente altas, lo que permite una alta eficiencia de funcionamiento en dispositivos móviles.
🌐 MiniCPM-V2.6 admite múltiples idiomas y marcos de inferencia, y a través de la capacidad de OCR ha logrado una expansión fluida desde imágenes individuales a múltiples imágenes y vídeos.
Enlace de detalles:
GitHub: https://github.com/OpenBMB/MiniCPM-V
HuggingFace: https://huggingface.co/openbmb/MiniCPM-V-2_6
Tutoriales de implementación de llama.cpp, ollama y vllm:
https://modelbest.feishu.cn/docx/Duptdntfro2Clfx2DzuczHxAnhc
Dirección de código abierto de la serie MiniCPM:
https://github.com/OpenBMB/MiniCPM
3、Huawei y Fudan unen fuerzas para crear EmoTalk3D, un nuevo marco para avatares 3D con expresiones faciales vívidas que reflejan alegría, ira, tristeza y alegría
Un equipo de investigación de la Universidad de Nanjing, la Universidad de Fudan y el laboratorio Huawei Noah's Ark ha creado conjuntamente el marco EmoTalk3D, que resuelve los problemas de la falta de coherencia en múltiples perspectivas y de la capacidad de expresión emocional. Han propuesto un nuevo método para la síntesis de avatares digitales con emociones controlables, construyendo un marco de mapeo desde el habla hasta la geometría y la apariencia, y creando el conjunto de datos EmoTalk3D.
【Resumen de AiBase:】
💥 Propone un nuevo método para la síntesis de avatares digitales con emociones controlables.
🎯 Construye un marco de mapeo "desde el habla hasta la geometría y la apariencia".
👀 Crea el conjunto de datos EmoTalk3D y se prepara para abrirlo.
Enlace de detalles: https://nju-3dv.github.io/projects/EmoTalk3D/
4、阿里云 PAI Artlab añade un flujo de trabajo de carteles de momentos estelares de los Juegos Olímpicos
El ComfyUI de阿里云 PAI Artlab ha añadido un flujo de trabajo de carteles de momentos estelares de los Juegos Olímpicos. Los usuarios sólo necesitan tres pasos para generar carteles temáticos de los Juegos Olímpicos personalizados. Los usuarios deben registrarse primero en el sitio web oficial de 阿里云 y completar la verificación de identidad, luego acceder a la plataforma PAI ArtLab, obtener recursos gratuitos y cargar el flujo de trabajo de los Juegos Olímpicos a través de ComfyUI para desbloquear más diseños de carteles.
【Resumen de AiBase:】
🌟 Los usuarios sólo necesitan tres pasos para generar carteles temáticos de los Juegos Olímpicos personalizados.
🚀 Es necesario cargar datos de imágenes, cargar y ajustar finamente el modelo de IA, ajustar el Prompt del contenido generado, guardar el flujo de trabajo y generar un archivo json.
💡 Otros usuarios pueden generar carteles rápidamente a través del archivo json generado, lo que permite compartir e intercambiar.
Acceso al producto: https://x.sm.cn/5hd9PfM
Más información: https://www.aibase.com/zh/news/10857
5、El asistente de IA Yuanbao de Tencent lanza la lectura detallada de artículos largos, compatible con entradas de hasta casi 500.000 caracteres
El asistente de IA Yuanbao de Tencent ha lanzado la función de lectura detallada de artículos largos. Los usuarios pueden cargar contenido profesional para entrar en el modo de lectura profunda, que proporciona una visión general del contenido principal, un análisis modular y gráficos de resumen, ayudando a los usuarios a comprender rápidamente la información clave. Gracias a la capacidad de procesamiento del gran modelo de lenguaje HunYuan de Tencent, admite entradas de hasta casi 500.000 caracteres y genera contenido con imágenes y texto. Los usuarios pueden evaluar la calidad de los artículos, ver gráficos profesionales y revisar el contenido de lectura detallada sin conexión. El gran modelo de lenguaje HunYuan de Tencent ya está completamente de código abierto, mostrando una capacidad de comprensión multimodal excepcional.
【Resumen de AiBase:】
📚 La función de lectura detallada de artículos largos proporciona un modo de lectura profunda, una visión general del contenido principal, un análisis modular y gráficos de resumen.
🔍 Gracias a la capacidad de procesamiento del gran modelo de lenguaje HunYuan de Tencent, admite entradas de hasta casi 500.000 caracteres y genera contenido con imágenes y texto.
💡 Los usuarios pueden evaluar la calidad de los artículos, ver gráficos profesionales y revisar el contenido de lectura detallada sin conexión.
6、Plataforma abierta de Kimi, el lado oscuro de la luna: reducción del 50% en los costes de almacenamiento de la caché de contexto
La plataforma abierta de Kimi ha anunciado una reducción del 50% en los costes de almacenamiento de la caché de contexto, ofreciendo a los usuarios un servicio más económico. La caché de contexto es una tecnología de gestión de datos eficiente que puede mejorar la eficiencia del sistema y ahorrar tiempo.
【Resumen de AiBase:】
🔑 Los costes de almacenamiento de la caché de contexto se han reducido en un 50%, pasando de 10 yuanes/1M tokens/min a 5 yuanes/1M tokens/min.
⏳ La caché de contexto es una tecnología de gestión de datos eficiente que puede almacenar previamente una gran cantidad de datos que pueden ser solicitados con frecuencia, mejorando la eficiencia del sistema.
💡 La caché de contexto es especialmente adecuada para escenarios con solicitudes frecuentes y referencias repetidas a una gran cantidad de contexto inicial, lo que puede reducir los costes de los modelos de texto largo y mejorar la eficiencia.
7、Figure lanza Figure02, un potente robot ChatGPT físico
El último robot Figure02 de Figure representa un gran avance en la tecnología de IA, anunciando una nueva era en la interacción entre humanos y máquinas. Este robot ha sido completamente renovado en hardware y software, con una manipulación manual flexible, una potente capacidad de visión de diálogo y una capacidad de inferencia de cálculo tres veces mayor.
【Resumen de AiBase:】
🤖 El robot Figure02 es un gran avance en la tecnología de IA, anunciando una nueva era en la interacción entre humanos y máquinas.
🔊 Las funciones de diálogo de voz, el sistema de visión avanzado y el diseño revolucionario de la mano son sus características principales.
💡 Figure02 integra el gran modelo de lenguaje OpenAI, combinando instrucciones de voz e información visual para realizar inferencias profundas.
8、El diseño de IA impulsa la fabricación de Yiwu: las protecciones para uñas diseñadas con IA llegan a los Juegos Olímpicos de París
Este artículo presenta la historia de unas protecciones para uñas diseñadas con IA y fabricadas en Yiwu que han causado sensación en las calles de París, mostrando la inyección de nueva vitalidad en la industria manufacturera de Yiwu. Las protecciones para uñas diseñadas con tecnología de IA han causado sensación en París, demostrando la capacidad de innovación y la agudeza de mercado de Yiwu.
【Resumen de AiBase:】
🔥 Las protecciones para uñas diseñadas con IA han causado sensación en París, convirtiéndose en las favoritas de la moda e inyectando vitalidad en la fabricación de Yiwu.
💡 LumiNail es un producto de diseño de protecciones para uñas con IA fácil de usar, simple pero potente, que mejora la eficiencia del diseño e inyecta creatividad.
🚀 Los comerciantes de Yiwu están empezando a probar la producción asistida por IA, más de 10.000 comerciantes utilizan la tecnología de IA para optimizar sus operaciones y abrir nuevas vías de desarrollo.
9、El laboratorio de inteligencia artificial de Shanghai lanza una nueva versión del modelo InternLM2.5 de la serie Shusheng·Puyu
El laboratorio de inteligencia artificial de Shanghai lanzó el 4 de julio de 2024 en el foro principal de la WAIC sobre la vanguardia científica una nueva versión del modelo InternLM2.5 de la serie Shusheng·Puyu. Esta versión ha mejorado considerablemente la capacidad de razonamiento en escenarios complejos, admite contextos extra largos y puede realizar búsquedas independientes en Internet para integrar información. Las versiones de parámetros del modelo incluyen 1.8B, 7B y 20B, adaptándose a diferentes escenarios de aplicación y necesidades de los desarrolladores.
【Resumen de AiBase:】
⚙️ InternLM2.5 lanza modelos de tres versiones de parámetros, incluyendo 1.8B, 7B y 20B, para satisfacer las necesidades de diferentes escenarios de aplicación.
🔍 InternLM2.5 ha realizado iteraciones en varias técnicas de síntesis de datos, mejorando significativamente la capacidad de razonamiento del modelo, especialmente en el conjunto de evaluación matemática MATH, donde la precisión alcanza el 64.7%.
🛠️ InternLM2.5 ha logrado una integración perfecta con los marcos de inferencia y ajuste fino posteriores, incluyendo el marco de ajuste fino XTuner, el marco de inferencia LMDeploy y otros marcos de la comunidad.
Enlace de detalles: https://internlm.intern-ai.org.cn
10、Empresa israelí lanza Whisper Medusa, un modelo de reconocimiento de voz de código abierto con un 50% más de velocidad
El modelo de reconocimiento de voz de código abierto Whisper Medusa, lanzado por la empresa aiOla, ha logrado un gran avance en la velocidad de procesamiento, siendo un 50% más rápido que el modelo Whisper de OpenAI, lo que ha llamado la atención de la industria. Esta innovación tendrá un profundo impacto en el desarrollo de la tecnología de reconocimiento de voz, abriendo nuevas posibilidades para la aplicación de la inteligencia artificial en este campo.
【Resumen de AiBase:】
⚙️ La innovación principal de Whisper Medusa es la introducción del mecanismo de atención multi-cabeza, que permite al modelo predecir diez tokens cada vez, mejorando significativamente la velocidad de predicción de voz y el tiempo de ejecución de la generación.
🔍 Whisper Medusa no ha sacrificado el rendimiento al aumentar la velocidad; el sistema principal se basa en Whisper, garantizando la precisión y la estabilidad del modelo.
🎓 aiOla utiliza un método de aprendizaje automático con supervisión débil para entrenar Whisper Medusa, mejorando aún más la eficiencia de aprendizaje y la precisión del modelo.
Enlace de detalles: https://github.com/aiola-lab/whisper-medusa
11、¿Nueva contraseña de tráfico? Vídeo de IA falla y se hace viral: una escena extraña genera 20 millones de visualizaciones
El contenido generado por IA ya se ha integrado en nuestras vidas, pero recientemente un vídeo de IA que falla se ha convertido en un tema de actualidad en Internet, atrayendo a casi 20 millones de visualizaciones, lo que revela la actitud compleja de la gente hacia la tecnología de IA. Este vídeo muestra el lado incontrolado de la tecnología de generación de imágenes de IA, provocando una fuerte reacción de los internautas. La actitud del público hacia la tecnología de IA está experimentando un cambio sutil, por lo que es necesario mantener el sentido del humor y una actitud abierta.