A startup de IA, Cognition, lançou seu novo programador de IA, "Genie", com um desempenho impressionante, superando instantaneamente Devin e GPT-4 e tornando-se o assistente de programação de IA mais poderoso do mundo.

image.png

Este programador de IA obteve uma pontuação de 30,08% na plataforma de testes autoritária SWE-Bench, superando em muito os 13,8% do Devin e os 12,47% do Swe-agent+GPT-4.

image.png

Você pode estar se perguntando como o Genie conseguiu isso? Em dezembro de 2022, o cofundador do Genie, Alistair Pullen, apresentou o projeto na University College London. Ele queria criar uma IA capaz de codificar, depurar e otimizar automaticamente, como um humano. Após mais de um ano de desenvolvimento, o Genie finalmente entrou na fase de testes e recebeu um investimento inicial de US$ 2,5 milhões.

Alistair mencionou que o sucesso do Genie está intimamente ligado aos seus dados e métodos de treinamento. Diferentemente do ajuste fino de modelos grandes tradicionais, o Genie utiliza um conjunto de dados especial que inclui o processo de raciocínio de programadores humanos. Esses dados abrangem a descoberta gradual do conhecimento e o processo de tomada de decisão baseado em casos, permitindo que o Genie demonstre um julgamento semelhante ao de um engenheiro humano ao lidar com problemas complexos.

Além disso, o Genie emprega um mecanismo exclusivo de "autoaperfeiçoamento". Inicialmente, o Genie foi treinado em dados de alta qualidade, atingindo um estado de "perfeição", mas nesse processo, o Genie teve dificuldades em julgar e melhorar seus próprios erros. Para superar esse problema, os desenvolvedores usaram o Genie para gerar alguns dados sintéticos, enriquecendo ainda mais o conteúdo de treinamento. É como se uma mãe estivesse ensinando seu filho a andar, fornecendo orientação correta a cada queda.

image.png

Após várias iterações de treinamento, a capacidade do Genie aumentou significativamente, podendo até mesmo apresentar soluções criativas para problemas desconhecidos. Funcionalmente, o Genie suporta várias tarefas de desenvolvimento, incluindo desenvolvimento de recursos, correção de bugs, refatoração de código, testes de código, etc., abrangendo dezenas de linguagens de programação, como JavaScript, Python e Java.

Agora, o Genie já está aberto para solicitações de teste. Você pode se registrar no site oficial e espera-se que as permissões de teste sejam concedidas nas próximas semanas.

Blog oficial: https://cosine.sh/blog/state-of-the-art

Endereço de experiência: https://cosine.sh/register

Destaques:

🌟 O Genie obteve uma pontuação de 30,08% no teste SWE-Bench, tornando-se o programador de IA mais poderoso do mundo.

🚀 O uso de um conjunto de dados especial e um mecanismo de autoaperfeiçoamento permite que o Genie se destaque na codificação complexa.

📝 O teste já está aberto para inscrição, e mais recursos surpreendentes serão lançados no futuro!