Recentemente, a Epochai, instituição de pesquisa focada em AIGC, publicou um importante relatório de pesquisa. O relatório afirma que temos aproximadamente 300 trilhões de tokens em conjuntos de dados de treinamento de texto de alta qualidade publicamente disponíveis. No entanto, com o apetite crescente de grandes modelos como o ChatGPT, esses dados podem ser totalmente esgotados entre 2026 e 2032!

22.jpg

Os pesquisadores destacaram que o "treinamento excessivo" é o principal culpado pela aceleração do consumo dos dados de treinamento. Por exemplo, o Llama3 da Meta, versão de 8B, teve um treinamento excessivo surpreendente de 100 vezes! Se todos os modelos fizerem isso, nossos dados podem acabar em 2025.

2.jpg

Mas não se preocupe, ainda temos soluções. A Epoch ai apresentou quatro novos métodos para obter dados de treinamento, tornando a "escassez de dados" na IA um pesadelo do passado.

1) Dados sintéticos: Assim como uma refeição feita com ingredientes pré-preparados, os dados sintéticos utilizam o aprendizado profundo para simular dados reais e gerar novos dados. Mas não se anime muito, a qualidade dos dados sintéticos pode ser inconsistente, propensa a overfitting e carecer das sutis características linguísticas dos textos reais.

2) Aprendizagem de dados multimodais e interdomínios: Este método não se limita ao texto, mas inclui vários tipos de dados, como imagens, vídeos e áudio. Como em um karaokê, você pode cantar, dançar e atuar, a aprendizagem multimodal permite que o modelo compreenda e processe tarefas complexas de forma mais abrangente.

3) Dados privados: Atualmente, o volume total de dados de texto privados em todo o mundo é de aproximadamente 3100 trilhões de tokens, mais de 10 vezes a quantidade de dados públicos! Mas o uso de dados privados requer cuidado, pois a privacidade e a segurança são essenciais. Além disso, o processo de obtenção e integração de dados não públicos pode ser muito complexo.

4) Aprendizagem por interação em tempo real com o mundo real: Permite que o modelo aprenda e melhore por meio da interação direta com o mundo real. Este método requer que o modelo tenha autonomia e adaptabilidade, capaz de entender com precisão as instruções do usuário e agir no mundo real.