No campo da inteligência artificial em rápida evolução, os modelos de linguagem pequenos (LLMs) estão se tornando cada vez mais importantes. Eles não apenas podem funcionar de forma eficiente em hardware de consumo, mas também suportam aplicativos totalmente offline. A equipe da H2O.ai orgulhosamente apresenta o H2O-Danube3, uma série de modelos de linguagem pequenos que demonstraram alta competitividade em vários benchmarks acadêmicos, de bate-papo e de ajuste fino.
O H2O-Danube3 inclui dois modelos: H2O-Danube3-4B (400 milhões de parâmetros) e H2O-Danube3-500M (50 milhões de parâmetros). Esses dois modelos foram pré-treinados em 6T e 4T de tokens, respectivamente, usando dados da Web de alta qualidade, principalmente tokens em inglês, e passaram por três estágios de mistura de dados diferentes, culminando em um ajuste supervisionado para atender às necessidades da versão de bate-papo.
Destaques técnicos:
Arquitetura eficiente: O design da arquitetura do H2O-Danube3 enfatiza a eficiência de parâmetros e computação, permitindo que ele funcione eficientemente mesmo em smartphones modernos, possibilitando inferência local e processamento rápido.
Licença de código aberto: Todos os modelos são publicados sob a licença Apache2.0, impulsionando ainda mais a popularização dos modelos de linguagem grandes (LLMs).
Cenários de aplicação diversificados: O H2O-Danube3 pode ser usado em chatbots, pesquisa, ajuste fino para casos de uso específicos, e até mesmo em aplicativos offline em dispositivos móveis.
O H2O-Danube3 obteve excelentes resultados em vários benchmarks acadêmicos, como os melhores resultados em CommonsenseQA e PhysicsQA, e uma precisão de 50,14% no benchmark matemático GSM8K. Além disso, ele demonstrou desempenho robusto em benchmarks de bate-papo e ajuste fino.
Outro aplicativo comum para modelos de linguagem pequenos é o ajuste fino. O H2O-Danube3, após o ajuste fino em tarefas de classificação de texto, demonstrou excelente adaptabilidade e desempenho. Mesmo o modelo de 500M com menor número de parâmetros apresenta alta competitividade após o ajuste fino.
Para promover ainda mais o uso do modelo em dispositivos de borda, o H2O-Danube3 oferece versões quantizadas que reduzem significativamente o tamanho do modelo sem comprometer o desempenho.
O lançamento do H2O-Danube3 não apenas enriquece o ecossistema de modelos de linguagem pequenos de código aberto, mas também oferece suporte robusto para vários cenários de aplicação. De chatbots a ajuste fino para tarefas específicas e aplicativos offline em dispositivos móveis, o H2O-Danube3 demonstra sua ampla aplicabilidade e eficiência.
Endereço para download do modelo: https://top.aibase.com/tool/h2o-danube3
Endereço do artigo: https://arxiv.org/pdf/2407.09276