Recientemente, un equipo de investigación de la Universidad de Princeton publicó un interesante informe que indica que, en agosto de 2024, aproximadamente el 4.36% de los nuevos artículos de Wikipedia contenían un contenido generado por IA de forma significativa.
Esta investigación fue realizada por los académicos Creston Brooks, Samuel Eggert y Denis Peskoff, quienes utilizaron herramientas llamadas GPTZero y Binoculars para detectar este contenido generado por IA.
El estudio muestra un aumento significativo en el contenido generado por IA en los artículos de Wikipedia de 2024 en comparación con los datos anteriores al lanzamiento de GPT-3.5. De los 2909 artículos de Wikipedia en inglés analizados, GPTZero marcó 156, Binoculars marcó 96, y 45 artículos fueron marcados por ambas herramientas.
Los artículos marcados suelen ser de baja calidad, con pocas citas y poca integración en la red de conocimiento de Wikipedia. Algunos artículos incluso parecen autopromocionales, involucrando publicidad personal o comercial, a menudo con citas superficiales, como videos de YouTube personales.
En cuanto al contenido político, ocho artículos promovían claramente puntos de vista específicos sobre temas controvertidos, como las guerras de edición sobre la historia de Albania. Además, algunos usuarios utilizaron modelos lingüísticos grandes (LLM) para escribir sobre temas de nicho, incluyendo hongos, gastronomía y deportes, e incluso resúmenes de libros capítulo por capítulo.
El estudio también comparó el contenido generado por IA en Wikipedia con Reddit y comunicados de prensa de la ONU, encontrando que el contenido generado por IA en Reddit es mucho menor que en Wikipedia, representando menos del 1%. Esto sugiere que el contenido generado por IA en Reddit es escaso, está sujeto a moderación o es difícil de detectar. Por otro lado, los comunicados de prensa de la ONU generados por IA aumentaron significativamente, pasando de menos del 1% antes de 2022 a un 20% en 2024.
El informe concluye que, con el auge de los LLM generativos, las herramientas de detección de IA también están en constante desarrollo. Sin embargo, sigue siendo un desafío evaluar estos detectores en diferentes contextos, como la longitud del texto, el dominio y la integración humano-máquina.
Para abordar el desafío del contenido generado por IA, las personas, las instituciones educativas, las empresas y los gobiernos deben buscar activamente métodos fiables para verificar el contenido creado por humanos. Los organismos reguladores de todo el mundo también deben reforzar la gestión del contenido generado por IA. Por ejemplo, China ha comenzado a tomar medidas para aumentar la transparencia de la información generada por IA en Internet, publicando proyectos de normas al respecto. India también publicó este año recomendaciones sobre el etiquetado de contenido relacionado con la IA, aunque esta propuesta generó una amplia controversia y críticas.
Puntos clave:
📊 El estudio muestra que aproximadamente el 4.36% de los nuevos artículos de Wikipedia son generados por IA.
🔍 El contenido generado por IA en Reddit es inferior al 1%, mostrando una diferencia significativa.
🌐 Los países están explorando medidas regulatorias y requisitos de etiquetado para el contenido generado por IA.