Noticias de IA

No te pierdas ningún momento de la innovación global en IA

IA Diario

Tendencias diarias de la industria de la IA en tres minutos

Cronología de la IA

Hitos de la industria de la IA

Al hardware

lista todos los productos de hardware AI.

Guía de Monetización de la IA

Últimos Casos

Compartiendo casos de monetización de IA

Colección de Imágenes

Casos de monetización de creación de imágenes con IA

Colección de Videos

Casos de monetización de creación de videos con IA

Colección de Audio

Casos de monetización de creación de audio con IA

Colección de Contenido

Casos de monetización de redacción de contenido con IA

Tutoriales de IA

Últimos Tutoriales

Compartiendo gratuitamente los últimos tutoriales de IA

Rankings de Productos de IA

Ranking de Productos de IA

Muestra el ranking de visitas totales de sitios web de IA

Ranking de Crecimiento de Tráfico de IA

Rastrea los sitios web de IA de más rápido crecimiento por tráfico

Ranking de Descenso de Tráfico de IA

Se centra en los sitios web de IA con descensos de tráfico significativos

Ranking Semanal de IA

Muestra el ranking semanal de visitas de sitios web de IA

Rankings de Países Populares

Estados Unidos

Sitios web de IA más populares entre los usuarios estadounidenses

China

Sitios web de IA más populares entre los usuarios chinos

India

Sitios web de IA más populares entre los usuarios indios

Brasil

Sitios web de IA más populares entre los usuarios brasileños

Rankings de Categorías Populares

Generación de Imágenes

Ranking total de visitas de sitios web de generación de imágenes con IA

Asistente Personal

Ranking total de visitas de sitios web de asistentes personales con IA

Generación de Personajes

Ranking total de visitas de sitios web de generación de personajes con IA

Generación de Videos

Ranking total de visitas de sitios web de generación de videos con IA

Rankings de Datos de Código Abierto Populares

Ranking de Proyectos de IA

Proyectos de IA populares en GitHub por estrellas totales

Ranking de Crecimiento de Proyectos de IA

Proyectos de IA populares en GitHub por tasa de crecimiento

Ranking de Desarrolladores de IA

Ranking de desarrolladores de IA populares en GitHub

Ranking de Organizaciones de IA

Ranking de organizaciones de IA populares en GitHub

Categorías de Código Abierto Populares

Deepseek

Proyectos de código abierto de Deepseek populares en GitHub

TTS

Proyectos de código abierto de TTS populares en GitHub

LLM

Proyectos de código abierto de LLM populares en GitHub

ChatGPT

Proyectos de código abierto de ChatGPT populares en GitHub

Biblioteca de Proyectos de Código Abierto de IA

Visión General

Visión general de los proyectos de código abierto de IA populares en GitHub

Biblioteca de productos Navegación de herramientas

Microsoft lanza el nuevo modelo de lenguaje BitNet b1.58 2B4T con solo 0.4 GB de memoria

AIbase基地

Publicado elNoticias de IA · 5 minutos de lectura · Apr 18, 2025

Recientemente, el equipo de investigación de Microsoft lanzó oficialmente un modelo de lenguaje grande de código abierto llamado BitNet b1.582B4T. Este modelo cuenta con 2 mil millones de parámetros y utiliza una arquitectura de baja precisión única de 1.58 bits para entrenamiento nativo. En comparación con los métodos tradicionales de cuantificación posterior al entrenamiento, BitNet reduce significativamente la necesidad de recursos computacionales. Según Microsoft, el modelo solo ocupa 0.4 GB de memoria no incrustada, mucho menos que otros productos similares en el mercado, como Gemma-31B (1.4 GB) y MiniCPM2B (4.8 GB).

El alto rendimiento de BitNet se debe a su innovador diseño de arquitectura. El modelo abandona los valores tradicionales de 16 bits y utiliza una capa BitLinear personalizada, limitando los pesos a tres estados: -1, 0 y +1, formando un sistema ternario. Esto permite que cada peso solo requiera aproximadamente 1.58 bits de almacenamiento de información. Además, los valores de activación entre capas se cuantifican utilizando enteros de 8 bits, lo que resulta en una configuración W1.58A8. Microsoft también ajustó la arquitectura Transformer, introduciendo la función de activación ReLU cuadrada, la incrustación posicional de rotación estándar (RoPE) y la normalización subln para asegurar la estabilidad del entrenamiento de baja precisión.

Durante su desarrollo, BitNet pasó por tres etapas: primero, un pre-entrenamiento con 4 billones de tokens de datos de la web, código y conjuntos de datos matemáticos sintéticos; luego, un ajuste fino supervisado con conjuntos de datos de instrucciones públicas y sintéticas; y finalmente, la utilización del método de optimización de preferencia directa (DPO) con conjuntos de datos como UltraFeedback para mejorar las capacidades de conversación y la seguridad del modelo.

Los resultados de las pruebas de Microsoft muestran que BitNet tiene un rendimiento excepcional en pruebas de referencia como GSM8K (matemáticas) y PIQA (conocimiento físico), con un rendimiento general comparable a los modelos de precisión completa con 1B-2B parámetros. Simultáneamente, presenta ventajas significativas en el consumo de energía (0.028 julios por token) y la latencia de decodificación de la CPU (29 milisegundos).

Aunque BitNet muestra un enorme potencial, su eficiencia depende del framework C++ propietario bitnet.cpp proporcionado por Microsoft. Herramientas comunes como la biblioteca Hugging Face transformers no pueden reflejar completamente sus ventajas en velocidad y consumo de energía. Microsoft planea optimizar el soporte para GPU y NPU, ampliar la ventana de contexto a 4096 tokens y explorar modelos de mayor escala y funciones multilingües. Actualmente, BitNet b1.582B4T se ha publicado bajo la licencia MIT en la plataforma Hugging Face para que los desarrolladores e investigadores lo prueben y utilicen.

Artículo: https://arxiv.org/html/2504.12285v1

Hugging Face: https://huggingface.co/microsoft/bitnet-b1.58-2B-4T

Puntos clave:
🌟 El modelo tiene 2 mil millones de parámetros y un consumo de memoria de solo 0.4 GB, significativamente menor que los productos similares.
🔧 Emplea una arquitectura innovadora, abandonando los valores tradicionales de 16 bits y utilizando un almacenamiento de pesos de baja precisión de 1.58 bits.
🚀 Ya está disponible en Hugging Face, y Microsoft planea optimizar aún más las funciones y el rendimiento del modelo.

BitNetb1.582B4T Modelodelenguajegrande Arquitecturadebajaprecisiónde1.58bits Sistemadetresvalores

Este artículo proviene de AIbase Daily

¡Bienvenido a la columna [AI Diario]! Aquí está tu guía diaria para explorar el mundo de la inteligencia artificial. Todos los días te presentamos el contenido más destacado en el campo de la IA, centrándonos en los desarrolladores para ayudarte a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.

—— Creado por el grupo AIbase Daily