El equipo de investigación de Microsoft ha presentado recientemente una tecnología de inteligencia artificial llamada "Modelo de Acción Grande" (Large Action Model, o LAM), marcando una nueva etapa en el desarrollo de la IA. A diferencia de los modelos de lenguaje tradicionales como GPT-4, LAM puede operar programas de Windows de forma autónoma, lo que significa que la IA no solo puede conversar o brindar sugerencias, sino que puede ejecutar tareas reales.
La ventaja de LAM radica en su capacidad para comprender diversas entradas del usuario, incluyendo texto, voz e imágenes, y luego convertir estas solicitudes en planes de acción detallados. LAM no solo puede elaborar planes, sino que también puede ajustar sus estrategias de acción según las circunstancias en tiempo real. El proceso de construcción de LAM se divide en cuatro pasos principales: primero, el modelo aprende a descomponer las tareas en pasos lógicos; luego, a través de sistemas de IA más avanzados (como GPT-4), aprende a convertir estos planes en acciones concretas; después, LAM explora de forma independiente nuevas soluciones, incluso resolviendo problemas que otros sistemas de IA no pueden abordar; finalmente, se realiza un entrenamiento de ajuste fino mediante un mecanismo de recompensas.
En los experimentos, el equipo de investigación construyó un modelo LAM basado en Mistral-7B y lo probó en un entorno de Word. Los resultados mostraron que el modelo completó las tareas con éxito en un 71% de los casos, en comparación con el 63% de GPT-4 sin información visual.
Además, LAM mostró una excelente velocidad de ejecución de tareas, completando cada una en solo 30 segundos, mientras que GPT-4 necesitaba 86 segundos. Aunque la tasa de éxito de GPT-4 aumentó al 75.5% al procesar información visual, en general, LAM mostró ventajas significativas en velocidad y eficacia.
Para construir los datos de entrenamiento, el equipo de investigación recopiló inicialmente 29.000 ejemplos de pares de tareas y planes, obtenidos de documentos de Microsoft, artículos de wikiHow y búsquedas de Bing. Posteriormente, utilizaron GPT-4 para convertir tareas simples en tareas complejas, expandiendo el conjunto de datos a 76.000 pares, un aumento del 150%. Finalmente, aproximadamente 2.000 secuencias de acciones exitosas se incorporaron al conjunto de entrenamiento final.
Aunque LAM ha demostrado su potencial en el desarrollo de la IA, el equipo de investigación aún enfrenta algunos desafíos, como la posibilidad de errores en las acciones de la IA, las cuestiones regulatorias y las limitaciones técnicas para su expansión y adaptación en diferentes aplicaciones. Sin embargo, los investigadores creen que LAM representa un cambio importante en el desarrollo de la IA, presagiando que los asistentes de inteligencia artificial podrán ayudar de manera más activa a los humanos a completar tareas reales.
Puntos clave:
🌟 LAM puede ejecutar programas de Windows de forma autónoma, superando la limitación de las IA tradicionales que solo conversan.
⏱️ En las pruebas con Word, LAM logró completar las tareas con éxito en un 71%, superior al 63% de GPT-4, y con mayor velocidad.
📈 El equipo de investigación, mediante una estrategia de expansión de datos, aumentó el número de pares de tareas y planes a 76.000, mejorando aún más el entrenamiento del modelo.