El equipo de IA/ML de Apple, en colaboración con la Universidad de Columbia, ha desarrollado un modelo multimodal de gran escala llamado "Hurón" (Ferret) que ha superado con éxito el CAPTCHA de Google. Este modelo puede identificar señales de tráfico y mejorar la precisión de los modelos de gran escala en tareas de "ver, decir y responder".

La innovación de Ferret radica en su capacidad de comprensión espacial que integra referencias y localización, permitiendo comprender simultáneamente el significado y el objetivo, a diferencia de los modelos multimodales tradicionales. Utilizando un método de representación de regiones mixtas que combina coordenadas discretas y características continuas, el modelo ha demostrado un excelente rendimiento en evaluaciones multitarea, especialmente en tareas de referencia y grounding visual.

Este avance, logrado por un equipo chino, destaca la fortaleza de China en la investigación de modelos multimodales de gran escala, ofreciendo una nueva dirección para la comprensión de imágenes y tareas multimodales. Se espera que los logros de Ferret logren importantes avances en áreas como la interacción humano-computadora y la búsqueda inteligente.