Recentemente, o projeto de inteligência artificial Gemini do Google tem aprimorado seu desempenho comparando seus resultados de saída com o modelo Claude da Anthropic. De acordo com registros de comunicação interna obtidos pelo TechCrunch, contratados responsáveis pela melhoria do Gemini estão avaliando sistematicamente as respostas desses dois modelos de IA.
Observação da fonte: Imagem gerada por IA, fornecida pela Midjourney.
Na indústria de IA, a avaliação do desempenho do modelo geralmente é feita por meio de testes de referência do setor, em vez de contratar pessoas para comparar as respostas de diferentes modelos individualmente. Os contratados responsáveis pelo Gemini precisam avaliar a saída do modelo com base em vários critérios, incluindo precisão e detalhamento. Eles têm até 30 minutos para determinar qual resposta, do Gemini ou do Claude, é melhor.
Recentemente, esses contratados notaram a frequência com que o Claude era citado na plataforma interna que eles estavam usando. Parte do conteúdo mostrado aos contratados indicava explicitamente: "Eu sou o Claude, criado pela Anthropic". Em uma conversa interna, os contratados também descobriram que as respostas do Claude enfatizam mais a segurança. Alguns contratados apontaram que as configurações de segurança do Claude são as mais rigorosas entre todos os modelos de IA. Em alguns casos, o Claude escolhe não responder a prompts que considera inseguros, como interpretar outros assistentes de IA. Em outro caso, o Claude evitou um prompt, enquanto a resposta do Gemini foi marcada como uma "violação de segurança grave" por conter conteúdo de "nudez e amarração".
É importante notar que os termos de serviço comercial da Anthropic proíbem os clientes de usar o Claude para "construir produtos ou serviços concorrentes" ou "treinar modelos de IA concorrentes" sem autorização. O Google é um dos principais investidores da Anthropic.
Shira McNamara, porta-voz do Google DeepMind, em entrevista ao TechCrunch, não revelou se o Google obteve a aprovação da Anthropic para usar o Claude. McNamara disse que o DeepMind realmente compara as saídas dos modelos para avaliação, mas não treinou o Gemini com o modelo Claude. Ela mencionou: "Claro, como prática padrão do setor, comparamos as saídas dos modelos em algumas ocasiões. No entanto, qualquer afirmação sobre o uso do modelo Anthropic para treinar o Gemini é imprecisa."
Na semana passada, o TechCrunch também relatou exclusivamente que os contratados do Google foram solicitados a avaliar as respostas de IA do Gemini em áreas fora de sua especialização. Alguns contratados expressaram preocupações em comunicações internas, acreditando que o Gemini pode gerar informações imprecisas em tópicos sensíveis, como saúde.
Destaques:
🌟 O Gemini está sendo testado em comparação com o Claude para melhorar o desempenho de seu modelo de IA.
🔍 Os contratados são responsáveis pela avaliação, e a comparação das respostas envolve vários critérios, incluindo precisão e segurança.
🚫 A Anthropic proíbe o uso não autorizado do Claude para treinar modelos concorrentes.