En una reciente conversación en vivo, Elon Musk, CEO de Tesla y SpaceX, afirmó que los datos del mundo real utilizados para entrenar modelos de inteligencia artificial se han agotado casi por completo. Su interlocutor fue Mark Penn, presidente de la junta directiva de Stagwell. Musk mencionó: "Básicamente, ya hemos consumido toda la acumulación de conocimiento humano... los datos utilizados para el entrenamiento de la inteligencia artificial. Este fenómeno ocurrió básicamente el año pasado".
Esta opinión de Musk es similar a la teoría del "pico de datos" planteada por Ilya Sutskever, ex científico jefe de OpenAI, en la conferencia NeurIPS de diciembre pasado. Sutskever afirmó que la industria de la IA se enfrenta al desafío de la escasez de datos, y que la falta de datos de entrenamiento suficientes en el futuro obligará a cambiar la forma en que se desarrollan los modelos de IA.
Para solucionar este problema, Musk considera que los datos sintéticos serán una alternativa viable. Señaló que la única forma de complementar los datos del mundo real es a través de datos sintéticos, es decir, haciendo que la propia inteligencia artificial genere datos de entrenamiento. Musk afirmó que la IA puede mejorar su rendimiento mediante la autoevaluación y la optimización continua.
Actualmente, muchas empresas tecnológicas como Microsoft, Meta, OpenAI y Anthropic ya están utilizando datos sintéticos para entrenar sus principales modelos de IA. Según Gartner, para 2024, el 60% de los datos utilizados en proyectos de inteligencia artificial y análisis de datos serán generados sintéticamente.
Una ventaja significativa de los datos sintéticos es la reducción considerable de los costos de desarrollo. Sin embargo, Musk y otros expertos también señalan que los datos sintéticos no están exentos de riesgos. Los estudios muestran que los datos sintéticos pueden provocar una disminución del rendimiento del modelo, los resultados pueden carecer de innovación y pueden estar influenciados por sesgos. Si los datos sintéticos en sí mismos tienen limitaciones, los resultados finales del modelo también se verán afectados por estos problemas.
Puntos clave:
🌍 Los datos del mundo real disponibles para entrenar la IA se han agotado casi por completo, lo que preocupa a Musk.
💡 Los datos sintéticos se consideran una solución importante para el futuro, y muchas empresas tecnológicas ya los están utilizando.
💰 El uso de datos sintéticos puede reducir significativamente los costos de desarrollo, pero también existe el riesgo de que pueda provocar una disminución del rendimiento del modelo.