El 19 de julio de 2024, la Fundación de código abierto RWKV anunció el lanzamiento global de código abierto del modelo RWKV-6-World14B, el modelo de lenguaje grande (LLM) puramente recurrente denso más potente hasta la fecha. Este modelo ha demostrado un rendimiento excepcional en las pruebas de rendimiento más recientes, con un rendimiento en inglés comparable al de Llama2-13B y una ventaja significativa en el rendimiento multilingüe, con soporte para más de 100 idiomas y códigos de todo el mundo.

Las pruebas de referencia del modelo incluyeron cuatro modelos de lenguaje grandes de código abierto con un tamaño de aproximadamente 14B de parámetros, evaluando el rendimiento en inglés mediante 12 pruebas de referencia independientes, y la capacidad multilingüe mediante cuatro pruebas de referencia: xLAMBDA, xStoryCloze, xWinograd y xCopa. RWKV-6-World14B obtuvo excelentes resultados en todas estas pruebas, superando en particular a llama2-13B y Qwen-1.5-14B en la clasificación Uncheatable Eval, una clasificación que evalúa modelos sin posibilidad de hacer trampa.

微信截图_20240722082902.png

La mejora del rendimiento del modelo RWKV-6-World14B se debe a las mejoras de arquitectura de RWKV-4 a RWKV-6. El modelo no se entrenó con ningún conjunto de datos de pruebas de referencia, evitando optimizaciones específicas, por lo que su capacidad real es superior a su clasificación. En la evaluación Uncheatable Eval, RWKV-6-World14B se evaluó con datos en tiempo real, incluyendo artículos de arXiv recientemente publicados, noticias, novelas de ao3 y código de GitHub, demostrando su verdadera capacidad de modelado y generalización.

Actualmente, el modelo RWKV-6-World14B se puede descargar e implementar localmente a través de plataformas como Hugging Face, ModelScope y WiseModel. Debido a que Ai00 solo admite modelos en formato safetensor (.st), también se puede descargar el modelo convertido a formato .st en el repositorio Ai00HF. La memoria RAM necesaria para la implementación local y la inferencia del modelo RWKV-6-World14B varía de aproximadamente 10 GB a 28 GB, dependiendo del método de cuantificación.

La vista previa de los resultados del modelo RWKV-6-World14B incluye varios escenarios de aplicación, como el procesamiento del lenguaje natural (análisis de sentimientos, comprensión de lectura automática), la creación de prosa y poesía, la lectura y modificación de código, sugerencias de temas para trabajos de investigación en finanzas, la extracción de información clave de noticias, la expansión de frases y la creación de un pequeño juego de Serpientes y Escaleras en Python.

Cabe señalar que todos los modelos RWKV publicados de código abierto son modelos base, con cierta capacidad de instrucciones y diálogo, pero no están optimizados para tareas específicas. Si desea que un modelo RWKV tenga un buen rendimiento en una tarea específica, se recomienda utilizar un conjunto de datos de esa tarea para entrenarlo mediante ajuste fino.

Dirección del proyecto:

  • Hugging Face:https://huggingface.co/BlinkDL/rwkv-6-world/tree/main

  • ModelScope:https://modelscope.cn/models/RWKV/rwkv-6-world/files

  • WiseModel:https://wisemodel.cn/models/rwkv4fun/Rwkv-6-world/file