JudgeLM: Modelo de Julgamento de IA de Código Aberto

O Instituto de Inteligência Artificial de Pequim (BAAI) lançou um modelo de julgamento de código aberto chamado JudgeLM, capaz de avaliar eficientemente e com precisão uma variedade de grandes modelos de linguagem. Comparado ao GPT-4, o JudgeLM requer apenas 1/120 do custo para alcançar mais de 90% de consistência nos resultados de julgamento.

O JudgeLM pode ser aplicado em vários cenários de julgamento, incluindo texto puro e multimodais, e pode gerar pontuações, julgamentos e justificativas. Usando métodos inovadores, a consistência do JudgeLM com as respostas de referência ultrapassou 90% em alguns casos, aproximando-se do desempenho humano.

O BAAI também lançou um conjunto de dados contendo amostras de treinamento e validação, para aprofundar a pesquisa em modelos de julgamento para grandes modelos de linguagem. No futuro, a equipe do JudgeLM pretende aprimorar ainda mais este modelo de julgamento, fornecendo uma avaliação de grandes modelos de linguagem mais precisa, eficiente e abrangente.