Em uma recente conversa ao vivo, Elon Musk, CEO da Tesla e SpaceX, afirmou que os dados do mundo real disponíveis para treinar modelos de inteligência artificial estão praticamente esgotados. Ele conversava com Mark Penn, presidente do conselho da Stagwell. Musk mencionou: "Basicamente, já consumimos todo o conhecimento acumulado da humanidade... para dados de treinamento de IA. Esse fenômeno ocorreu basicamente no ano passado."
A opinião de Musk é semelhante à teoria do "pico de dados" apresentada por Ilya Sutskever, ex-cientista-chefe da OpenAI, na conferência NeurIPS de dezembro passado. Sutskever afirmou que a indústria de IA está enfrentando o desafio da escassez de dados, e a falta de dados de treinamento suficientes no futuro forçará mudanças na forma como os modelos de IA são desenvolvidos.
Para resolver esse problema, Musk acredita que dados sintéticos serão uma alternativa viável. Ele apontou que a única maneira de complementar os dados do mundo real é por meio de dados sintéticos, ou seja, fazendo com que a própria inteligência artificial gere dados de treinamento. Musk disse que a IA pode melhorar seu desempenho por meio da autoavaliação e otimização contínua.
Atualmente, muitas empresas de tecnologia, como Microsoft, Meta, OpenAI e Anthropic, já estão usando dados sintéticos para treinar seus principais modelos de IA. De acordo com a Gartner, até 2024, 60% dos dados usados em projetos de inteligência artificial e análise de dados serão gerados sinteticamente.
Uma vantagem significativa dos dados sintéticos é a redução significativa dos custos de desenvolvimento. No entanto, Musk e outros especialistas também apontam que os dados sintéticos não são isentos de riscos. Estudos mostram que dados sintéticos podem levar à queda no desempenho do modelo, resultados pouco inovadores e viés. Se os próprios dados sintéticos apresentarem limitações, os resultados finais do modelo também serão afetados por esses problemas.
Destaques:
🌍 Os dados do mundo real disponíveis para treinar IA estão quase esgotados, e Musk expressa preocupação.
💡 Dados sintéticos são considerados uma solução importante para o futuro, e muitas empresas de tecnologia já os estão adotando.
💰 O uso de dados sintéticos pode reduzir significativamente os custos de desenvolvimento, mas também existe o risco de queda no desempenho do modelo.