Un equipo de investigación conjunto del laboratorio Tencent Youtu y la Universidad Jiao Tong de Shanghái ha presentado un método revolucionario de mejora del conocimiento para la optimización de modelos de gran escala, abriendo nuevas vías en este campo. Esta innovadora tecnología abandona las limitaciones del ajuste fino tradicional de modelos, extrayendo conocimiento directamente de datos de código abierto. Esto simplifica enormemente el proceso de optimización del modelo y logra un rendimiento superior al estado del arte (SOTA) en múltiples tareas.

image.png

En los últimos años, los modelos de lenguaje a gran escala (LLM) han hecho progresos notables en diversas áreas, pero aún enfrentan numerosos desafíos en aplicaciones reales. Los métodos tradicionales de ajuste fino de modelos requieren una gran cantidad de datos etiquetados y recursos computacionales, lo cual suele ser inviable para muchas aplicaciones prácticas. Aunque la comunidad de código abierto ofrece una gran cantidad de modelos ajustados y conjuntos de datos de instrucciones, la forma de utilizar eficazmente estos recursos con muestras etiquetadas limitadas para mejorar la capacidad de la tarea y el rendimiento de generalización del modelo sigue siendo un desafío en la industria.

Para abordar este problema, el equipo de investigación propone un nuevo marco experimental que se centra en mejorar las capacidades del modelo utilizando conocimientos de código abierto bajo la condición de datos de negocios reales etiquetados con K-shot. Este marco aprovecha al máximo el valor de las muestras limitadas, proporcionando una mejora del rendimiento de las tareas dirigidas para los modelos de lenguaje a gran escala.

image.png

Las principales innovaciones de esta investigación incluyen:

Selección eficiente de modelos: Mediante la evaluación integral de la perplejidad de la inferencia, el rendimiento del modelo y la riqueza del conocimiento, se maximiza el potencial de los modelos existentes con datos limitados.

Optimización de la extracción de conocimiento: Se ha diseñado un método para extraer conocimientos relevantes de los datos de código abierto. A través de una estrategia de selección de datos que equilibra la similitud y la diversidad, se proporciona información complementaria al modelo, reduciendo al mismo tiempo el riesgo de sobreajuste.

Sistema de modelos adaptativo: Se ha construido un sistema adaptativo basado en una estructura de modelo de experto mixto, que permite la complementariedad del conocimiento entre varios modelos efectivos, mejorando el rendimiento general.

En la fase experimental, el equipo de investigación realizó una evaluación exhaustiva utilizando seis conjuntos de datos de código abierto. Los resultados muestran que este nuevo método supera a los métodos de referencia y a otros métodos avanzados en todas las tareas. Mediante la visualización del patrón de activación de los expertos, la investigación también descubrió que la contribución de cada experto al modelo es indispensable, lo que confirma aún más la eficacia del método.

Esta investigación no solo demuestra el enorme potencial de los conocimientos de código abierto en el campo de los modelos de gran escala, sino que también proporciona nuevas ideas para el futuro desarrollo de la tecnología de inteligencia artificial. Supera las limitaciones de la optimización tradicional de modelos y ofrece una solución viable para que las empresas e instituciones de investigación mejoren el rendimiento de los modelos con recursos limitados.

Con la mejora y la difusión continua de esta tecnología, podemos confiar en que desempeñará un papel importante en la actualización inteligente de diversos sectores. La colaboración entre Tencent Youtu y la Universidad Jiao Tong de Shanghái no solo es un ejemplo de colaboración entre el mundo académico y la industria, sino también un paso importante para impulsar el desarrollo de la tecnología de inteligencia artificial a un nivel superior.

Enlace del artículo: https://www.arxiv.org/pdf/2408.15915