Recientemente, el proyecto de inteligencia artificial Gemini de Google está mejorando su rendimiento comparando sus resultados con el modelo Claude de Anthropic. Según registros de comunicación interna obtenidos por TechCrunch, los contratistas encargados de mejorar Gemini están evaluando sistemáticamente las respuestas de ambos modelos de IA.
Nota de la imagen: Imagen generada por IA, proveedora Midjourney.
En la industria de la IA, la evaluación del rendimiento de los modelos suele realizarse mediante pruebas comparativas del sector, en lugar de que los contratistas comparen individualmente las respuestas de diferentes modelos. Los contratistas responsables de Gemini deben calificar los resultados del modelo según varios criterios, incluyendo la veracidad y el nivel de detalle. Disponen de hasta 30 minutos para determinar cuál de las respuestas, la de Gemini o la de Claude, es mejor.
Recientemente, estos contratistas han observado una frecuencia significativa de referencias a Claude en la plataforma interna que utilizan. Parte del contenido que se muestra a los contratistas indica claramente: "Soy Claude, creado por Anthropic". En una conversación interna, los contratistas también descubrieron que las respuestas de Claude destacan más en cuanto a seguridad. Algunos contratistas señalaron que la configuración de seguridad de Claude es la más estricta de todos los modelos de IA. En algunos casos, Claude elige no responder a indicaciones que considera inseguras, como interpretar el papel de otros asistentes de IA. En otro caso, Claude eludió una indicación, mientras que la respuesta de Gemini fue marcada como una "violación de seguridad grave" por contener contenido de "desnudez y ligaduras".
Cabe señalar que las condiciones de servicio comerciales de Anthropic prohíben a los clientes utilizar Claude para "construir productos o servicios de la competencia" o "entrenar modelos de IA de la competencia" sin autorización. Google es uno de los principales inversores de Anthropic.
Shira McNamara, portavoz de Google DeepMind, en una entrevista con TechCrunch, no reveló si Google obtuvo la aprobación de Anthropic para utilizar Claude. McNamara afirmó que DeepMind sí compara los resultados de los modelos para su evaluación, pero que no entrenó Gemini con el modelo Claude. Mencionó: "Por supuesto, siguiendo las prácticas estándar de la industria, comparamos los resultados de los modelos en algunos casos. Sin embargo, cualquier afirmación sobre el uso del modelo Anthropic para entrenar Gemini es inexacta."
La semana pasada, TechCrunch también informó en exclusiva que se pidió a los contratistas de Google que calificaran las respuestas de IA de Gemini en áreas fuera de su experiencia profesional. Algunos contratistas expresaron su preocupación en comunicaciones internas, considerando que Gemini podría generar información inexacta sobre temas delicados como la atención médica.
Puntos clave:
🌟 Gemini se está probando comparativamente con Claude para mejorar el rendimiento de su modelo de IA.
🔍 Los contratistas se encargan de la calificación, y la comparación de las respuestas de ambos implica varios criterios, incluyendo la veracidad y la seguridad.
🚫 Anthropic prohíbe el uso de Claude para entrenar modelos de la competencia sin autorización.