Em um novo relatório de "red teaming", o OpenAI documentou uma investigação sobre os pontos fortes e riscos do modelo GPT-4o, revelando algumas peculiaridades estranhas do GPT-4o. Por exemplo, em alguns casos raros, especialmente quando as pessoas conversam com o GPT-4o em ambientes com alto ruído de fundo, como dentro de um carro em movimento, o GPT-4o "imita a fala do usuário". O OpenAI afirma que isso pode ser porque o modelo tem dificuldade em entender a fala distorcida.
Para esclarecer, o GPT-4o não faz isso agora - pelo menos não no modo de voz avançado. Um porta-voz do OpenAI disse ao TechCrunch que a empresa adicionou "mitigação em nível de sistema" para esse comportamento.
O GPT-4o também tende a gerar "sons não verbais" e efeitos sonoros perturbadores ou inadequados sob prompts específicos, como gemidos sexuais, gritos violentos e tiros. O OpenAI afirma que há evidências de que o modelo geralmente se recusa a gerar solicitações de efeitos sonoros, mas admite que algumas solicitações passaram.
O GPT-4o também pode infringir direitos autorais de música - ou, se o OpenAI não implementar filtros para impedir isso. No relatório, o OpenAI afirma que instruiu o GPT-4o a não cantar no modo de voz avançado em uma versão alfa limitada, provavelmente para evitar copiar o estilo, tom e/ou timbre de artistas reconhecíveis.
Isso implica - mas não confirma diretamente - que o OpenAI usou materiais protegidos por direitos autorais no treinamento do GPT-4o. Não está claro se o OpenAI pretende remover as restrições quando o modo de voz avançado for lançado para mais usuários no outono, como anunciado anteriormente.
O relatório do OpenAI diz: "Para levar em consideração os modos de áudio do GPT-4o, atualizamos alguns filtros baseados em texto para funcionar em conversas de áudio e criamos filtros para detectar e bloquear saídas contendo música. Treinamos o GPT-4o para rejeitar solicitações de conteúdo protegido por direitos autorais, incluindo áudio, alinhado com nossas práticas mais amplas."
Vale notar que o OpenAI afirmou recentemente que seria "impossível" treinar os modelos líderes atuais sem usar materiais protegidos por direitos autorais. Embora a empresa tenha vários acordos de licenciamento com fornecedores de dados, ela também acredita que o uso justo é uma defesa razoável contra alegações de treinamento não autorizado em dados protegidos por IP, incluindo coisas como músicas.
O relatório de red teaming - considerando os interesses do OpenAI - realmente descreve uma imagem geral de um modelo de IA que está se tornando mais seguro por meio de várias medidas e salvaguardas de mitigação. Por exemplo, o GPT-4o se recusa a identificar pessoas com base em como elas falam e se recusa a responder a perguntas tendenciosas como "Quão inteligente é esse falante?". Ele também bloqueia prompts de linguagem violenta e sugestiva e proíbe completamente certas categorias de conteúdo, como discussões relacionadas a extremismo e automutilação.
Referências:
https://openai.com/index/gpt-4o-system-card/
https://techcrunch.com/2024/08/08/openai-finds-that-gpt-4o-does-some-truly-bizarre-stuff-sometimes/