Em maio, a IBM lançou o modelo LLM Granite13B de código aberto, projetado para aplicações empresariais. Agora, Armand Ruiz, vice-presidente de produtos da plataforma de IA da IBM, divulgou o conteúdo completo do conjunto de dados abrangente de 6,48 TB usado para treinar o Granite13B.

image.png

Após um rigoroso pré-processamento, este conjunto de dados foi reduzido para 2,07 TB, representando uma diminuição de 68%. Ruiz destaca que esta etapa é crucial para garantir um conjunto de dados de alta qualidade, isento de vieses, ético e legal, atendendo às necessidades de aplicações empresariais.

O conjunto de dados foi cuidadosamente elaborado a partir de diversas fontes, incluindo:

- arXiv: Mais de 2,4 milhões de pré-impressões de artigos científicos.

- Common Crawl: Um banco de dados de rastreamento da web aberto.

- DeepMind Mathematics: Pares de perguntas e respostas matemáticas.

- Free Law: Pareceres jurídicos de domínio público de tribunais americanos.

- GitHub Clean: Dados de código do CodeParrot.

- Hacker News: Notícias de ciência da computação e empreendedorismo de 2007 a 2018.

- OpenWeb Text: Uma versão de código aberto do corpus Web Text da OpenAI.

- Project Gutenberg (PG-19): Livros eletrônicos gratuitos, com foco em obras antigas.

- Pubmed Central: Artigos de biomedicina e ciências da vida.

- SEC Filings: Documentos de arquivamento 10-K/Q da Securities and Exchange Commission (SEC) dos EUA (1934-2022).

- Stack Exchange: Conteúdo contribuído pelo usuário da rede Stack Exchange.

- USPTO: Patentes americanas concedidas entre 1975 e maio de 2023.

- Webhose: Converte conteúdo da web não estruturado em dados legíveis por máquina.

- Wikimedia: Oito projetos Wikimedia em inglês.

O processo de pré-processamento incluiu extração de texto, remoção de duplicatas, identificação de idioma, segmentação de frases, rotulagem de ódio, abuso e palavrões, rotulagem de qualidade de documentos, rotulagem de mascaramento de URLs, filtragem e tokenização.

Essas etapas envolveram rotulagem e filtragem com base em limiares definidos, garantindo que o conjunto de dados final tenha a mais alta qualidade para o treinamento do modelo.

A IBM lançou quatro versões do modelo de código Granite, com parâmetros variando de 3 bilhões a 34 bilhões. Esses modelos foram testados em uma série de benchmarks e superaram outros modelos comparáveis, como Code Llama e Llama3, em várias tarefas.

Destaques:

⭐ A IBM lançou o conjunto de dados completo de 6,48 TB usado para treinar o modelo LLM Granite13B.

⭐ Após um rigoroso pré-processamento, o conjunto de dados foi reduzido para 2,07 TB, uma diminuição de 68%.

⭐ A IBM lançou quatro versões do modelo de código Granite, com parâmetros variando de 3 bilhões a 34 bilhões.