No campo da inteligência artificial, que se desenvolve rapidamente, desenvolvedores e organizações enfrentam diversos desafios práticos, como alta demanda computacional, problemas de latência e a falta de modelos de código aberto verdadeiramente flexíveis. Esses problemas muitas vezes limitam o progresso, com muitas soluções existentes exigindo infraestrutura de nuvem cara ou sendo muito grandes para uso em dispositivos. Portanto, há uma necessidade urgente de modelos eficientes e flexíveis para preencher essa lacuna.

QQ_1741747624441.png

Para isso, a Reka AI lançou o Reka Flash3, um modelo de inferência construído do zero com 2,1 bilhões de parâmetros. O modelo visa apoiar conversas gerais, assistência de codificação, seguimento de instruções e até mesmo chamadas de funções, tornando-se uma base prática para diversos aplicativos. Seu processo de treinamento combinou conjuntos de dados abertos e conjuntos de dados sintéticos, e utilizou ajuste fino de instruções cuidadoso e o método de aprendizado por reforço REINFORCE Leave One-Out (RLOO). Esse método de treinamento minucioso visa equilibrar capacidade e eficiência, fazendo com que o Reka Flash3 se destaque entre muitos modelos semelhantes.

Em termos técnicos, o Reka Flash3 possui várias características que o tornam flexível e eficiente em termos de recursos. Um recurso notável é sua capacidade de lidar com um comprimento de contexto de até 32k tokens, facilitando o processamento de documentos longos e tarefas complexas sem sobrecarregar o sistema. Além disso, o modelo introduziu um mecanismo de "restrição orçamentária", usando tags específicas <reasoning> para permitir que os usuários limitem as etapas do processo de raciocínio do modelo, garantindo um desempenho consistente sem aumentar a sobrecarga computacional. Ao mesmo tempo, o Reka Flash3 é ideal para implantação em dispositivos, com um tamanho de precisão total de 39 GB (fp16), que pode ser ainda mais compactado para 11 GB por meio de quantização de 4 bits. Essa flexibilidade permite uma implantação local mais suave, oferecendo uma vantagem sobre modelos maiores e mais intensivos em recursos.

Métricas de avaliação e dados de desempenho corroboram a utilidade do modelo. Por exemplo, embora o Reka Flash3 tenha obtido uma pontuação moderada de 65,0 no MMLU-Pro, sua competitividade permanece considerável quando combinada com fontes de conhecimento adicionais, como pesquisa na web. Além disso, a capacidade multilíngue do Reka Flash3 atingiu uma pontuação COMET de 83,2 no WMT’23, demonstrando suporte razoável para entradas não inglesas, embora seu foco principal seja o inglês. Esses resultados, juntamente com seu número eficiente de parâmetros em comparação com modelos semelhantes como o QwQ-32B, destacam seu potencial em aplicações práticas.

QQ_1741747656664.png

Em resumo, o Reka Flash3 representa uma solução de inteligência artificial mais acessível. Ao equilibrar habilmente desempenho e eficiência, o modelo oferece uma opção robusta e flexível para bate-papo geral, codificação e tarefas de instruções. Seu design compacto, janela de contexto aprimorada de 32k tokens e o mecanismo inovador de restrição orçamentária o tornam uma opção prática para implantação em dispositivos e aplicativos de baixa latência. Para pesquisadores e desenvolvedores que buscam um modelo capaz e gerenciável, o Reka Flash3 certamente oferece uma base promissora.

Introdução:https://www.reka.ai/news/introducing-reka-flash

Modelo: https://huggingface.co/RekaAI/reka-flash-3

Destaques:

🌟 O Reka Flash3 é um modelo de inferência de código aberto lançado pela Reka AI, com 2,1 bilhões de parâmetros, adequado para diversas aplicações.

💻 O modelo suporta o processamento de contexto de 32k tokens, adequado para tarefas complexas e com operação eficiente em dispositivos.

📈 Os dados de desempenho mostram que o Reka Flash3 apresenta excelente desempenho em capacidade multilíngue e aplicações práticas, sendo uma solução de IA acessível.