Apple publicó recientemente un documento técnico que detalla los modelos desarrollados para las funciones de inteligencia artificial generativa de la serie "Apple Intelligence". Estas funciones se lanzarán en las plataformas iOS, macOS e iPadOS en los próximos meses. En el documento, Apple responde a las preocupaciones sobre la ética de su entrenamiento de modelos, reiterando que no utilizó datos privados de usuarios, sino datos públicos y con licencia.

IA, inteligencia artificial, robot

Nota de la fuente: Imagen generada por IA, proveedor de servicios de licencias Midjourney

Apple afirma que el conjunto de datos de preentrenamiento incluye datos con licencia de editores, conjuntos de datos públicos cuidadosamente seleccionados e información pública recopilada por su rastreador web Applebot. Apple enfatiza que, dada la importancia de la protección de la privacidad del usuario, estos datos no contienen información privada del usuario.

En julio, los medios informaron que Apple utilizó un conjunto de datos llamado "The Pile", que incluye subtítulos de cientos de miles de videos de YouTube, muchos de cuyos creadores no fueron informados ni autorizados. Apple posteriormente declaró que no tenía intención de utilizar estos modelos para proporcionar ninguna función de IA a sus productos.

Este documento técnico revela por primera vez los modelos de "Fundamentos de Apple" (AFM) anunciados en la WWDC 2024 de Apple, destacando que los datos de entrenamiento de estos modelos se obtuvieron de manera "responsable". Los datos de entrenamiento del modelo AFM provienen de datos web públicos y datos con licencia de editores no revelados. Según los informes, a finales de 2023, Apple contactó a varias editoriales, incluyendo NBC y Condé Nast, para llegar a acuerdos a largo plazo por al menos 50 millones de dólares para utilizar sus archivos de noticias para el entrenamiento del modelo. Además, el modelo AFM utilizó código abierto alojado en GitHub, incluyendo código en varios lenguajes de programación como Swift, Python y C.

Sin embargo, el uso de código abierto para el entrenamiento de modelos ha generado controversia entre los desarrolladores. Algunos repositorios de código abierto no tienen licencia o no permiten su uso para el entrenamiento de IA, pero Apple afirma que utiliza un "filtro de licencias" para seleccionar solo los repositorios con restricciones de uso mínimas.

Para mejorar las capacidades matemáticas del modelo AFM, Apple incluyó específicamente problemas y respuestas matemáticas de sitios web, foros de matemáticas, blogs, tutoriales y seminarios en el conjunto de datos de entrenamiento. Además, utilizaron conjuntos de datos "públicos de alta calidad" para el ajuste fino, con el fin de minimizar la posibilidad de que el modelo genere comportamientos inapropiados.

El conjunto de datos integrado contiene aproximadamente 6,3 billones de tokens, mientras que Meta utilizó 15 billones de tokens para entrenar su modelo insignia de generación de texto Llama3.1405B. Apple también optimizó el modelo AFM mediante retroalimentación humana y datos sintéticos para que se ajuste mejor a las necesidades del usuario.

Si bien el documento no presenta descubrimientos sorprendentes, esto es un diseño deliberado. La mayoría de estos documentos no son demasiado detallados para evitar problemas legales. Apple menciona que permite a los administradores de sitios web bloquear el rastreo de datos por parte de los rastreadores web, pero esto no es muy útil para los creadores individuales, y la protección de sus obras sigue siendo un problema por resolver.

Puntos clave:

🌟 Apple enfatiza que no utilizó datos privados de usuarios para entrenar los modelos, sino datos públicos y con licencia.   

📊 Los datos de entrenamiento incluyen contenido con licencia de varias editoriales y repositorios de código abierto.   

🔍 Apple se esfuerza por proteger la privacidad del usuario y mejorar el rendimiento y la responsabilidad de los modelos de IA.