Os modelos de inteligência artificial de hoje realmente conseguem memorizar, pensar, planejar e raciocinar como os humanos? Alguns laboratórios de IA parecem sugerir que estamos perto de uma "IA de nível humano", mas Yann LeCun, cientista-chefe de IA do Meta, deu um banho de água fria. Ele acredita que ainda precisamos de uma década de esforço para alcançar esse objetivo, e a chave para isso está nos "modelos de mundo".

No início deste ano, a OpenAI lançou um novo recurso, alegando que seu ChatGPT pode "lembrar" conversas com os usuários. Sua geração mais recente de modelos mostra a palavra "pensando" ao gerar saídas, e até mesmo afirma que esses modelos podem realizar "raciocínio complexo".

Robô Inteligência Artificial IA (3)

Observação da fonte: A imagem foi gerada por IA, provedor de licenciamento de imagens Midjourney

Parece que estamos prestes a entrar na era da IAG (Inteligência Artificial Geral). No entanto, em um recente fórum Hudson, LeCun refutou essas visões otimistas, como as do fundador da xAI, Elon Musk, e do cofundador do Google DeepMind, Shane Legg, que acreditam que a IA de nível humano está iminente.

LeCun apontou: "Precisamos de máquinas que entendam o mundo; que possuam memória, intuição, senso comum, e que consigam raciocinar e planejar como os humanos." Ele enfatizou que, apesar das frequentes declarações de alguns dos mais entusiasmados com o desenvolvimento da IA, os sistemas de IA atuais estão muito longe desse nível. Ele até disse que uma IA verdadeiramente de nível humano pode levar "anos a décadas" para ser alcançada.

Onde está o problema? É simples: os atuais modelos de linguagem grandes (LLMs) funcionam apenas prevendo a próxima palavra (geralmente algumas letras ou uma palavra curta), enquanto os modelos atuais de imagem ou vídeo preveem o próximo pixel. Isso significa que os modelos de linguagem só podem prever em uma dimensão, enquanto os modelos de imagem/vídeo o fazem em duas dimensões. Embora esses modelos se saiam muito bem em suas respectivas áreas, eles não entendem a complexidade do mundo tridimensional.

Por isso, os sistemas de IA modernos não conseguem realizar tarefas simples que a maioria dos humanos consegue lidar facilmente. LeCun mencionou que os humanos aprendem a arrumar a mesa aos dez anos e a dirigir aos dezessete, até mesmo em poucas horas. Mas mesmo os sistemas de IA mais avançados, após milhares ou milhões de horas de treinamento de dados, ainda não conseguem operar de forma confiável no mundo real.

Para realizar tarefas mais complexas, LeCun acredita que precisamos construir modelos tridimensionais que consigam perceber o mundo ao redor, o núcleo sendo uma nova arquitetura de IA - o modelo de mundo. Ele explicou: "O modelo de mundo é seu modelo mental do comportamento do mundo." Você pode imaginar uma série de ações que pode tomar, e seu modelo de mundo permitirá que você preveja o impacto dessas ações no mundo.

Por exemplo, imagine que você vê um quarto bagunçado e quer limpá-lo. Você pode pensar naturalmente que pegar todas as roupas e guardá-las resolverá o problema. Você não precisa tentar vários métodos, nem precisa aprender primeiro como limpar um quarto. Seu cérebro observa o espaço tridimensional e elabora diretamente um plano de ação que pode atingir o objetivo imediatamente. Esse plano de ação é a "arma secreta" prometida pelos modelos de mundo da IA.

Outra vantagem dos modelos de mundo é que eles conseguem processar dados muito maiores do que os LLMs. Isso também torna suas necessidades computacionais mais complexas, razão pela qual os principais provedores de serviços em nuvem estão competindo para colaborar com empresas de IA.

Atualmente, vários laboratórios de IA estão perseguindo o grande conceito de modelos de mundo, e esse termo rapidamente se tornou um tópico popular para atrair investimentos de risco. Um grupo de renomados pesquisadores de IA, incluindo a "deusa da IA" Fei-Fei Li e Justin Johnson, acabou de arrecadar US$ 230 milhões para sua startup, World Labs. Ela e sua equipe acreditam firmemente que os modelos de mundo desbloquearão sistemas de IA mais inteligentes. A OpenAI também descreveu seu gerador de vídeo Sora, ainda não lançado, como um modelo de mundo, mas os detalhes específicos ainda não foram divulgados.

LeCun descreveu em um artigo de 2022 sobre "IA orientada a objetivos" a ideia de usar modelos de mundo para criar IA de nível humano, embora ele tenha apontado que o conceito existe há mais de 60 anos. Em resumo, os modelos de mundo são treinados com uma representação básica do mundo (por exemplo, um vídeo de um quarto sujo) e memória. Então, o modelo prevê as mudanças no mundo com base nessas informações. Em seguida, você define objetivos para o modelo de mundo, incluindo o estado de mudança do mundo que você deseja alcançar (por exemplo, limpar o quarto), e define algumas "proteções" para garantir que o modelo não prejudique os humanos para atingir o objetivo (por exemplo, ao limpar o quarto, não me machuque). Finalmente, o modelo de mundo encontrará uma série de sequências de ações para atingir esses objetivos.

O laboratório de pesquisa de IA de longo prazo do Meta, FAIR (Pesquisa Fundamental de IA), está pesquisando ativamente IA orientada a objetivos e modelos de mundo, disse LeCun. O FAIR já realizou pesquisas de IA para produtos futuros do Meta, mas LeCun disse que o laboratório passou a se concentrar em pesquisas de IA de longo prazo nos últimos anos e agora nem mesmo usa mais LLMs.

Embora os modelos de mundo sejam um conceito fascinante, LeCun admite que ainda não fizemos grandes progressos em torná-los realidade. Ainda temos muitos problemas difíceis a resolver antes de atingir o objetivo, disse ele, "tudo isso pode levar anos, se não uma década, para funcionar". E seu chefe, Mark Zuckerberg, sempre pergunta quando isso será possível.