Na temporada de vestibular de 2024, nove grandes modelos de IA enfrentaram um desafio sem precedentes: participar do Gaokao (exame de admissão universitária chinês), especificamente a prova de alta dificuldade Gaokao de nível I, versão de Henan. Este teste, organizado pela mídia, não apenas avaliou a capacidade da IA na área acadêmica, mas também ofereceu uma perspectiva única para observar as diferenças entre a inteligência artificial e a humana.
Dos 9 IAs participantes, 4 ultrapassaram a nota de corte para admissão em universidades de primeira linha em Henan. O GPT-4o obteve a primeira colocação com 562 pontos, 41 pontos acima da nota de corte, enquanto o Doubao da ByteDance ficou em segundo lugar entre os modelos domésticos com 542,5 pontos.
Observação da fonte: Imagem gerada por IA, fornecida pela Midjourney.
A IA apresentou um desempenho excelente em disciplinas de humanidades, especialmente em língua chinesa e inglês, enquanto em disciplinas de ciências, particularmente matemática, o desempenho foi menos satisfatório. A IA demonstrou uma clara vantagem em disciplinas de linguagem, com uma impressionante capacidade de compreensão de poemas clássicos.
A IA obteve resultados aceitáveis em questões de raciocínio simples, mas teve dificuldades em questões que exigiam deduções e demonstrações complexas, mostrando que sua capacidade lógica precisa ser aprimorada. Em estudos sociais, a geografia apresentou o pior desempenho, enquanto em ciências, a biologia teve o melhor resultado. O GPT-4o se destacou em ciências políticas, obtendo uma nota alta de 91,5 pontos.
Método de teste e critérios de avaliação
Rodadas de teste: Para reduzir o impacto da aleatoriedade, todas as disciplinas foram testadas em duas rodadas, e a média foi usada como nota final.
Formato de entrada: As fórmulas foram inseridas usando o formato Markdown/LaTeX, e as questões com imagens foram inseridas com as imagens e textos correspondentes, de acordo com a capacidade de reconhecimento do modelo.
Operação de teste: Um provedor profissional de serviços de dados de IA realizou o teste de forma padronizada, garantindo a imparcialidade do teste.
Método de avaliação: O mesmo critério de avaliação usado para os candidatos humanos foi aplicado, garantindo a equidade da avaliação.
Esta tentativa de participação da IA no Gaokao não apenas demonstrou as vantagens da IA em áreas específicas, mas também expôs suas deficiências em raciocínio lógico e demonstrações matemáticas. Como um candidato IA escreveu em sua redação, citando: "O caminho é longo e difícil, eu buscarei em todos os lugares". Isso não apenas reflete o desenvolvimento da IA, mas também é uma descrição vívida da busca incessante da humanidade pelo conhecimento desconhecido. Através deste teste, obtivemos um conhecimento mais profundo do nível de inteligência da IA, fornecendo também uma referência valiosa para o desenvolvimento futuro da IA.
A lista de candidatos incluiu produtos de IA conhecidos, como o GPT-4o da OpenAI, o Doubao da ByteDance e o Wenxin 4.0 da Baidu. O desempenho deles neste Gaokao, sem dúvida, terá um profundo impacto no desenvolvimento da tecnologia de IA.