Em 19 de julho de 2024, a Fundação RWKV de código aberto anunciou o lançamento global do modelo RWKV-6-World14B, o modelo de linguagem grande recorrente pura densa mais poderoso atualmente. Este modelo apresentou desempenho excepcional em testes de desempenho recentes, com desempenho em inglês comparável ao Llama2 13B e desempenho significativamente superior em vários idiomas, suportando mais de 100 idiomas e códigos em todo o mundo.

Os testes de referência incluíram 4 modelos de linguagem grandes de código aberto com cerca de 14B de parâmetros, avaliando o desempenho em inglês por meio de 12 testes de referência independentes, e as capacidades multilínguas por meio dos testes de referência xLAMBDA, xStoryCloze, xWinograd e xCopa. O RWKV-6-World14B obteve excelentes resultados nesses testes, especialmente na classificação Uncheatable Eval ("avaliação de modelo sem trapaças"), com uma pontuação combinada superior à do llama2 13B e Qwen 1.5 14B.

微信截图_20240722082902.png

A melhoria de desempenho do modelo RWKV-6-World14B é atribuída às melhorias de arquitetura de RWKV-4 para RWKV-6. O modelo não incluiu nenhum conjunto de dados de teste de referência durante o treinamento, evitando otimizações especiais; portanto, sua capacidade real é superior à classificação. Na avaliação Uncheatable Eval, o RWKV-6-World14B foi avaliado em dados em tempo real, como artigos científicos recentes do arXiv, notícias, ficção de ao3 e código do GitHub em julho, demonstrando sua verdadeira capacidade de modelagem e generalização.

Atualmente, o modelo RWKV-6-World14B pode ser baixado e implantado localmente por meio de plataformas como Hugging Face, ModelScope e WiseModel. Como o Ai00 só suporta modelos no formato safetensor (.st), o modelo convertido para .st também pode ser baixado no repositório Ai00HF. A necessidade de memória para implantação e inferência local do modelo RWKV-6-World14B varia de aproximadamente 10 GB a 28 GB, dependendo do método de quantização.

A visualização dos resultados do modelo RWKV-6-World14B inclui vários cenários de aplicação, como processamento de linguagem natural (análise de sentimentos, compreensão de leitura de máquina), criação de prosa e poesia, leitura e edição de código, sugestões de tópicos de artigos acadêmicos em finanças, extração de conteúdo-chave de notícias, expansão de texto de uma frase e desenvolvimento de um pequeno jogo de Snake em Python.

É importante notar que todos os modelos RWKV de código aberto são modelos base, com alguma capacidade de instruções e diálogo, mas não foram otimizados para tarefas específicas. Se você deseja que o modelo RWKV tenha um bom desempenho em uma tarefa específica, recomenda-se o ajuste fino com conjuntos de dados de tarefas relevantes.

Endereço do projeto:

  • Hugging Face:https://huggingface.co/BlinkDL/rwkv-6-world/tree/main

  • ModelScope:https://modelscope.cn/models/RWKV/rwkv-6-world/files

  • WiseModel:https://wisemodel.cn/models/rwkv4fun/Rwkv-6-world/file