Mobile-Agent
Agente móvil multi-modal autónomo
Producto ComúnProductividadAutónomoMulti-modal
Mobile-Agent es un agente móvil multi-modal autónomo que utiliza la tecnología de modelos de lenguaje grandes multi-modales (MLLM). Primero, utiliza herramientas de percepción visual para identificar y localizar con precisión elementos visuales y de texto en la interfaz frontal de la aplicación. Basándose en el entorno visual percibido, planifica y descompone de forma autónoma tareas de operación complejas, y navega por las aplicaciones móviles mediante operaciones paso a paso. A diferencia de las soluciones anteriores que dependían de archivos XML de la aplicación o metadatos del sistema móvil, Mobile-Agent adopta un enfoque visual, lo que le proporciona una mayor adaptabilidad en diversos entornos operativos móviles y elimina la necesidad de personalización para sistemas específicos. Para evaluar el rendimiento de Mobile-Agent, hemos introducido Mobile-Eval, un benchmark para la evaluación de las operaciones de dispositivos móviles. Basándonos en Mobile-Eval, hemos realizado una evaluación exhaustiva de Mobile-Agent. Los resultados experimentales muestran que Mobile-Agent ha logrado una precisión y una tasa de finalización notables. Incluso con instrucciones complejas, como las operaciones de múltiples aplicaciones, Mobile-Agent puede completar las tareas requeridas.