Lista de Produtos de IA

Lista de Produtos de IA

Pesquise as tendências globais de produtos de IA

Pesquise informações globais de IA e descubra novas oportunidades de IA

Informação de Notícias
Aplicações de Produtos
Casos de Monetização
Tutoriais de IA

Tipo :

Informação de Notícias
Aplicações de Produtos
Casos de Monetização
Tutoriais de IA

2025-02-12 11:14:46.AIbase

Desafios de segurança na Anthropic: Teste de jailbreak universal em modelo de IA revela vulnerabilidades

Em apenas seis dias, participantes conseguiram contornar todas as proteções de segurança do modelo de Inteligência Artificial (IA) Claude3.5 da Anthropic, levantando novas discussões sobre a segurança da IA. Jan Leike, ex-membro da equipe de alinhamento da OpenAI e atualmente na Anthropic, anunciou no X que um participante conseguiu quebrar todos os oito níveis de segurança. Esse esforço coletivo envolveu cerca de 3.700 horas de testes e 300.000 mensagens de participantes. Apesar dos desafios,

Desafios de segurança na Anthropic: Teste de jailbreak universal em modelo de IA revela vulnerabilidades

2025-02-05 14:13:18.AIbase

Anthropic lança o 'Classificador de Robustez': bloqueia com sucesso 95% das tentativas de jailbreak de modelos

A empresa de inteligência artificial Anthropic anunciou recentemente o desenvolvimento de um novo método de segurança chamado 'Classificador de Robustez', projetado para proteger modelos de linguagem contra manipulação maliciosa. Essa tecnologia visa especificamente o 'Jailbreak Universal' — uma forma de entrada que tenta contornar sistematicamente todas as medidas de segurança para evitar que modelos de IA gerem conteúdo prejudicial. Para verificar a eficácia dessa tecnologia, a Anthropic conduziu um teste em larga escala. A empresa recrutou 183 participantes para tentarem quebrar seu sistema de defesa durante dois meses. Os participantes foram solicitados a inserir...

Anthropic lança o 'Classificador de Robustez': bloqueia com sucesso 95% das tentativas de jailbreak de modelos

2024-10-24 10:03:24.AIbase

Pesquisadores desenvolvem novo método de jailbreak para LLMs com taxa de sucesso de 65%

Recentemente, a equipe de pesquisa Unit42 da empresa de segurança cibernética Palo Alto Networks publicou uma pesquisa notável, revelando um novo método de jailbreak chamado “Deceptive Delight”. Esse método consegue induzir com sucesso modelos de linguagem grandes (LLMs) a gerar conteúdo prejudicial em apenas duas ou três interações, com uma taxa de sucesso de 65%. Essa descoberta acende um alerta para a segurança dos LLMs. Nota da imagem: Imagem gerada por IA, serviço de licenciamento de imagens.

Pesquisadores desenvolvem novo método de jailbreak para LLMs com taxa de sucesso de 65%

2024-08-10 18:00:39.AIbase

Anthropic expande o programa de recompensas por vulnerabilidades para testar o sistema de segurança de IA de próxima geração

A Anthropic anunciou a expansão de seu programa de recompensas por vulnerabilidades, projetado para testar um "sistema de mitigação de segurança de IA de próxima geração", focando principalmente na identificação e defesa de "ataques de jailbreak universais". Há um foco especial em áreas de alto risco, incluindo defesa CBRN e segurança cibernética. Os participantes terão acesso antecipado ao novo sistema de segurança, buscando encontrar vulnerabilidades ou contornar as medidas de segurança, com recompensas de até US$ 15.000. Esta iniciativa visa melhorar a segurança dos sistemas de IA, estabelecendo um novo padrão para a proteção de segurança na indústria de IA, ao atrair pesquisadores de segurança para ajudar a identificar e corrigir ameaças potenciais.

Anthropic expande o programa de recompensas por vulnerabilidades para testar o sistema de segurança de IA de próxima geração

2024-07-19 14:12:29.AIbase

Novo método de 'jailbreak' de IA! Prompt no passado contorna GPT-4o e outros seis modelos

O artigo aponta que os modelos de linguagem grandes (LLMs) demonstram excelente desempenho em tarefas de processamento de linguagem natural. No entanto, os mecanismos dos modelos baseados em ajuste fino supervisionado, aprendizado por reforço com feedback humano e treinamento adversarial para rejeitar solicitações prejudiciais mostraram-se frágeis. Os pesquisadores descobriram que, ao transformar solicitações prejudiciais no passado, os modelos-chave podem 'contornar' o treinamento de rejeição, aumentando significativamente sua taxa de sucesso. No caso do GPT-4o, a taxa aumentou de 1% para 88%. Isso indica que, apesar das limitações das estratégias de resposta, elas se manifestam em diferentes idiomas e codificações de entrada específicas.

Novo método de 'jailbreak' de IA! Prompt no passado contorna GPT-4o e outros seis modelos

2023-10-23 11:59:38.AIbase

Falha de segurança em IA! DALL-E 3 da OpenAI é vulnerável a ataques de jailbreak, gerando imagens de crianças fumando

O DALL-E 3 da OpenAI, uma IA geradora de imagens, foi descoberto como vulnerável a prompts de jailbreak, resultando na geração de imagens de crianças fumando. A técnica de jailbreak foi descoberta pelo usuário do LinkedIn, Peter Gostev, que compartilhou como contornar com sucesso as restrições da IA para gerar imagens de crianças fumando. Embora o prompt de jailbreak seja bastante complexo, o incidente serve como um alerta de que mesmo as empresas mais ricas do Vale do Silício têm dificuldades em estabelecer proteções abrangentes para seus sistemas de IA.