Recientemente, el equipo de investigación de Microsoft lanzó oficialmente un modelo de lenguaje grande de código abierto llamado BitNet b1.582B4T. Este modelo cuenta con 2 mil millones de parámetros y utiliza una arquitectura de baja precisión única de 1.58 bits para entrenamiento nativo. En comparación con los métodos tradicionales de cuantificación posterior al entrenamiento, BitNet reduce significativamente la necesidad de recursos computacionales. Según Microsoft, el modelo solo ocupa 0.4 GB de memoria no incrustada, mucho menos que otros productos similares en el mercado, como Gemma-31B (1.4 GB) y MiniCPM2B (4.8 GB).

QQ_1744940438793.png

El alto rendimiento de BitNet se debe a su innovador diseño de arquitectura. El modelo abandona los valores tradicionales de 16 bits y utiliza una capa BitLinear personalizada, limitando los pesos a tres estados: -1, 0 y +1, formando un sistema ternario. Esto permite que cada peso solo requiera aproximadamente 1.58 bits de almacenamiento de información. Además, los valores de activación entre capas se cuantifican utilizando enteros de 8 bits, lo que resulta en una configuración W1.58A8. Microsoft también ajustó la arquitectura Transformer, introduciendo la función de activación ReLU cuadrada, la incrustación posicional de rotación estándar (RoPE) y la normalización subln para asegurar la estabilidad del entrenamiento de baja precisión.

QQ_1744940395825.png

Durante su desarrollo, BitNet pasó por tres etapas: primero, un pre-entrenamiento con 4 billones de tokens de datos de la web, código y conjuntos de datos matemáticos sintéticos; luego, un ajuste fino supervisado con conjuntos de datos de instrucciones públicas y sintéticas; y finalmente, la utilización del método de optimización de preferencia directa (DPO) con conjuntos de datos como UltraFeedback para mejorar las capacidades de conversación y la seguridad del modelo.

Los resultados de las pruebas de Microsoft muestran que BitNet tiene un rendimiento excepcional en pruebas de referencia como GSM8K (matemáticas) y PIQA (conocimiento físico), con un rendimiento general comparable a los modelos de precisión completa con 1B-2B parámetros. Simultáneamente, presenta ventajas significativas en el consumo de energía (0.028 julios por token) y la latencia de decodificación de la CPU (29 milisegundos).

Aunque BitNet muestra un enorme potencial, su eficiencia depende del framework C++ propietario bitnet.cpp proporcionado por Microsoft. Herramientas comunes como la biblioteca Hugging Face transformers no pueden reflejar completamente sus ventajas en velocidad y consumo de energía. Microsoft planea optimizar el soporte para GPU y NPU, ampliar la ventana de contexto a 4096 tokens y explorar modelos de mayor escala y funciones multilingües. Actualmente, BitNet b1.582B4T se ha publicado bajo la licencia MIT en la plataforma Hugging Face para que los desarrolladores e investigadores lo prueben y utilicen.

Artículo: https://arxiv.org/html/2504.12285v1

Hugging Face: https://huggingface.co/microsoft/bitnet-b1.58-2B-4T

Puntos clave:

🌟 El modelo tiene 2 mil millones de parámetros y un consumo de memoria de solo 0.4 GB, significativamente menor que los productos similares.

🔧 Emplea una arquitectura innovadora, abandonando los valores tradicionales de 16 bits y utilizando un almacenamiento de pesos de baja precisión de 1.58 bits.

🚀 Ya está disponible en Hugging Face, y Microsoft planea optimizar aún más las funciones y el rendimiento del modelo.