Estudio de riesgos de filtración de datos de entrenamiento de ChatGPT

AIGC开放社区

Publicado elNoticias de IA · 1 minutos de lectura · Dec 12, 2023

Los grandes modelos de lenguaje, como ChatGPT, memorizan una cierta cantidad de datos de entrenamiento originales durante su proceso de entrenamiento. Los atacantes pueden utilizar métodos específicos para extraer una gran cantidad de datos de entrenamiento de estos modelos, lo que amenaza la privacidad de los propietarios de los datos. Los investigadores recomiendan que, al desarrollar y utilizar grandes modelos de lenguaje, se tomen medidas de protección de datos para prevenir fugas de información.

OpenAI se defiende ante la corte de la India, negándose a eliminar datos de entrenamiento de ChatGPT

Recientemente, la empresa estadounidense de inteligencia artificial OpenAI presentó una defensa ante el Tribunal Superior de Delhi, argumentando que el tribunal no tiene derecho a exigirle que elimine los datos de entrenamiento de ChatGPT. Este caso se deriva de una demanda presentada en noviembre pasado por la agencia de noticias india ANI, que afirma que OpenAI utilizó su contenido publicado sin autorización para entrenar ChatGPT. ANI exige la eliminación de su contenido del conjunto de datos de entrenamiento del modelo y acusa a OpenAI de infracción de derechos de autor. En un documento presentado ante el Tribunal Superior de Delhi el 10 de enero...

Los altos ejecutivos de Meta obsesionados con superar a GPT-4, ¡los datos de entrenamiento enfrentan problemas de derechos de autor!

Recientemente, con el avance de un caso sobre derechos de autor de inteligencia artificial - el caso Kadrey contra Meta - la información interna de la compañía Meta fue revelada por la corte, mostrando la obsesión de los altos ejecutivos en el desarrollo de Llama3 por superar el modelo GPT-4 de OpenAI. En un mensaje de octubre de 2023, Ahmad Al-Dahle, vicepresidente de IA generativa de Meta, mencionó: "Honestamente, nuestro objetivo debe ser GPT..."

Se lanza la primera plantilla mundial de transparencia de datos de entrenamiento de IA para impulsar la transparencia en la industria de la inteligencia artificial

En el avance hacia la transparencia en el campo de la inteligencia artificial (IA), la Asociación de la Industria de Computación y Comunicaciones (CCIA) anunció conjuntamente en Bruselas y Washington una nueva iniciativa innovadora: una plantilla global de informes de transparencia del sector. Esta plantilla tiene como objetivo mejorar la confianza y la comprensión pública de los datos de entrenamiento de los modelos de Inteligencia Artificial Generalizada (GPAI). La "plantilla de transparencia de datos de entrenamiento de modelos de IA" publicada requiere que las empresas divulguen los tipos de datos utilizados para entrenar modelos GPAI específicos, como podcasts, libros, etc., y también deben aclarar la principal...

Superando los límites de la IA de código abierto: DeepSeek V3 supera a Llama 3.1 con 14,8 billones de tokens de datos de entrenamiento

La empresa china de inteligencia artificial DeepSeek ha lanzado recientemente DeepSeek V3, un modelo de lenguaje grande de código abierto que marca un hito. Este modelo, con 6710 billones de parámetros, no solo supera en tamaño al Llama 3.1 de Meta, sino que también supera a los modelos de código cerrado predominantes, incluido GPT-4, en varias pruebas de referencia. DeepSeek V3 destaca por su potente rendimiento y su eficiente proceso de desarrollo. El modelo ha demostrado un excelente rendimiento en las competiciones de la plataforma de programación Codeforces, y en las pruebas...