A startup de IA, Cosine, com sede em São Francisco, lançou um novo modelo de IA chamado Genie, projetado para auxiliar desenvolvedores de software. De acordo com a empresa, o Genie superou seus concorrentes em testes de referência, demonstrando capacidades excepcionais.

A Cosine colaborou com a OpenAI para treinar uma variante do GPT-4o usando dados de alta qualidade, obtendo resultados impressionantes nos testes de referência. A empresa afirma que a chave para o sucesso do Genie está em sua capacidade de "raciocínio de codificação humana", uma habilidade que pode se estender além do desenvolvimento de software.

QQ截图20240819092111.png

Genie assume a liderança na área de SWE

Alistair Pullen, cofundador e CEO da Cosine, revelou que o Genie obteve uma pontuação de 30% no teste SWE-Bench, a pontuação mais alta já alcançada por um modelo de IA nessa área. Esse resultado superou outros modelos de linguagem focados em codificação, como o modelo da Amazon (19%) e o Devin da Cognition (13,8% em alguns testes do SWE-Bench).

A arquitetura do Genie visa simular o processo cognitivo de um desenvolvedor humano, permitindo que ele corrija erros, desenvolva novos recursos, reestruture códigos e execute diversas tarefas de programação de forma autônoma ou colaborativa.

Aprimoramento por meio de dados sintéticos

O desenvolvimento do Genie utilizou um processo proprietário, treinando e ajustando uma variante não divulgada do GPT-40 com bilhões de dados de alta qualidade. Com a ajuda de desenvolvedores experientes, a Cosine passou quase um ano organizando esses dados, com o conjunto de dados contendo 21% de JavaScript e Python, 14% de TypeScript e TSX e 3% de outras linguagens (incluindo Java, C++ e Ruby).

O desempenho excepcional do Genie se deve em parte ao seu treinamento de autoaperfeiçoamento. Inicialmente, o modelo aprendia principalmente com códigos perfeitos e eficientes, mas ficava confuso ao lidar com seus próprios erros. A Cosine resolveu esse problema usando dados sintéticos: se a solução inicialmente proposta pelo Genie estava incorreta, o modelo recebia a demonstração de como corrigi-la com o resultado correto. A cada iteração, as soluções do Genie melhoravam gradualmente, e o número de correções necessárias diminuía.

QQ截图20240819092121.png

Superando as limitações tecnológicas

Pullen já via em 2022 o potencial dos grandes modelos de linguagem para apoiar o desenvolvimento de software humano. No entanto, a tecnologia da época não estava no nível necessário para realizar a visão do Genie. A capacidade de marcação da janela de contexto costumava ser limitada a 4000 tokens, um grande gargalo. Hoje, modelos como o Gemini 1.5 Pro conseguem processar até 2 milhões de tokens em um único prompt. Embora a Cosine não tenha revelado a capacidade específica de tokens do Genie, esse avanço tecnológico sem dúvida forneceu uma base sólida para o sucesso do Genie.