Recentemente, o projeto de inteligência artificial Gemini do Google tem aprimorado seu desempenho comparando seus resultados de saída com o modelo Claude da Anthropic. De acordo com registros de comunicação interna obtidos pelo TechCrunch, contratados responsáveis ​​pela melhoria do Gemini estão avaliando sistematicamente as respostas desses dois modelos de IA.

Código Internet Computador

Observação da fonte: Imagem gerada por IA, fornecida pela Midjourney.

Na indústria de IA, a avaliação do desempenho do modelo geralmente é feita por meio de testes de referência do setor, em vez de contratar pessoas para comparar as respostas de diferentes modelos individualmente. Os contratados responsáveis ​​pelo Gemini precisam avaliar a saída do modelo com base em vários critérios, incluindo precisão e detalhamento. Eles têm até 30 minutos para determinar qual resposta, do Gemini ou do Claude, é melhor.

Recentemente, esses contratados notaram a frequência com que o Claude era citado na plataforma interna que eles estavam usando. Parte do conteúdo mostrado aos contratados indicava explicitamente: "Eu sou o Claude, criado pela Anthropic". Em uma conversa interna, os contratados também descobriram que as respostas do Claude enfatizam mais a segurança. Alguns contratados apontaram que as configurações de segurança do Claude são as mais rigorosas entre todos os modelos de IA. Em alguns casos, o Claude escolhe não responder a prompts que considera inseguros, como interpretar outros assistentes de IA. Em outro caso, o Claude evitou um prompt, enquanto a resposta do Gemini foi marcada como uma "violação de segurança grave" por conter conteúdo de "nudez e amarração".

É importante notar que os termos de serviço comercial da Anthropic proíbem os clientes de usar o Claude para "construir produtos ou serviços concorrentes" ou "treinar modelos de IA concorrentes" sem autorização. O Google é um dos principais investidores da Anthropic.

Shira McNamara, porta-voz do Google DeepMind, em entrevista ao TechCrunch, não revelou se o Google obteve a aprovação da Anthropic para usar o Claude. McNamara disse que o DeepMind realmente compara as saídas dos modelos para avaliação, mas não treinou o Gemini com o modelo Claude. Ela mencionou: "Claro, como prática padrão do setor, comparamos as saídas dos modelos em algumas ocasiões. No entanto, qualquer afirmação sobre o uso do modelo Anthropic para treinar o Gemini é imprecisa."

Na semana passada, o TechCrunch também relatou exclusivamente que os contratados do Google foram solicitados a avaliar as respostas de IA do Gemini em áreas fora de sua especialização. Alguns contratados expressaram preocupações em comunicações internas, acreditando que o Gemini pode gerar informações imprecisas em tópicos sensíveis, como saúde.

Destaques:

🌟 O Gemini está sendo testado em comparação com o Claude para melhorar o desempenho de seu modelo de IA.

🔍 Os contratados são responsáveis ​​pela avaliação, e a comparação das respostas envolve vários critérios, incluindo precisão e segurança.

🚫 A Anthropic proíbe o uso não autorizado do Claude para treinar modelos concorrentes.