AI2 publica el conjunto de datos de código abierto para modelos de lenguaje extenso Dolma, con 3 billones de tokens

站长之家

Publicado elNoticias de IA · 2 minutos de lectura · Aug 24, 2023

El conjunto de datos Dolma

El Instituto de Inteligencia Artificial Allen de Estados Unidos ha publicado recientemente un conjunto de datos de código abierto llamado Dolma, que contiene 3 billones de tokens. Este conjunto de datos servirá de base para el modelo de lenguaje abierto OLMo, que está siendo desarrollado por AI2 y cuyo lanzamiento está previsto para principios de 2024. Los datos de Dolma provienen de diversas fuentes, incluyendo contenido web, publicaciones académicas, código y libros.

Este conjunto de datos es el más grande de su tipo disponible públicamente en la actualidad.

Tencent solicita patente para un "método de entrenamiento de modelos de lenguaje extenso", mejorando la capacidad de generalización y la precisión del modelo

La aplicación Tianyancha muestra que Tencent Technology (Shenzhen) Co., Ltd. solicitó recientemente una patente denominada "Método de entrenamiento de modelos de lenguaje extenso, dispositivo, equipo informático y medio de almacenamiento". El resumen de esta patente revela que el método proporciona más información aprendible para el modelo durante el entrenamiento introduciendo un primer texto de resumen y un segundo texto de resumen. Según la descripción de la patente, la cantidad de información contenida en el primer y segundo texto de resumen es diferente, y el primer texto de resumen también incluye oraciones correctas e incorrectas. Mediante el uso de estos dos textos para el mismo texto

Tencent publica una nueva patente para el entrenamiento de modelos de lenguaje extenso, mejorando la generalización y la precisión del modelo

Recientemente, Tencent Technology (Shenzhen) Co., Ltd. publicó en la aplicación Tianyancha una patente sobre un método de entrenamiento y dispositivos relacionados para modelos de lenguaje extenso. Esta patente, titulada "Método de entrenamiento, dispositivo, equipo informático y medio de almacenamiento para modelos de lenguaje extenso", tiene como objetivo mejorar la capacidad de aprendizaje y la precisión de los modelos de lenguaje extenso mediante un método de entrenamiento innovador. En el entrenamiento de modelos de lenguaje extenso, los métodos tradicionales a menudo dependen de un solo resumen de texto, lo que puede provocar un sobreajuste del modelo y afectar la precisión y la diversidad del contenido generado. Sin embargo, la nueva patente de Tencent...

ByteDance lanza PaSa: un agente de búsqueda de artículos académicos inteligente basado en modelos de lenguaje extenso

En el campo de la investigación académica, la búsqueda de literatura es una tarea compleja e importante de obtención de información. Los investigadores necesitan la capacidad de manejar consultas complejas en áreas de conocimiento especializadas para satisfacer las necesidades de investigación detalladas. Sin embargo, las plataformas de búsqueda académica existentes, como Google Académico, a menudo tienen dificultades para manejar estas consultas de investigación complejas. Por ejemplo, una consulta especializada sobre el aprendizaje por refuerzo no estacionario que utiliza el método UCB requiere una capacidad de cálculo y análisis más potente. Además, los investigadores suelen dedicar mucho tiempo y esfuerzo a revisar manualmente una gran cantidad de trabajos académicos cuando realizan revisiones de la literatura.

Serie GLM-Edge de modelos de lenguaje extenso y multimodales de código abierto para dispositivos perimetrales de Zhipu AI

Zhipu AI anunció recientemente la publicación de código abierto de su serie de modelos de lenguaje extenso y multimodales para dispositivos perimetrales, GLM-Edge. Esta iniciativa representa un intento significativo de la compañía por lograr una implementación real en escenarios de uso en dispositivos perimetrales. La serie GLM-Edge consta de cuatro modelos de diferentes tamaños: GLM-Edge-1.5B-Chat, GLM-Edge-4B-Chat, GLM-Edge-V-2B y GLM-Edge-V-5B, optimizados para plataformas móviles como teléfonos y vehículos, así como para plataformas de escritorio como PC.