No contexto da onda global de IA generativa de 2022, a YuanShi Intelligence (RWKV) concluiu uma rodada de financiamento anjo de dezenas de milhões de yuans chineses em dezembro de 2023, com investimento da Tianji Capital. Após este financiamento, a avaliação da empresa dobrou, e os fundos serão usados para expansão da equipe, desenvolvimento de novas arquiteturas e comercialização de produtos.
O surgimento do RWKV representa um forte desafio à arquitetura tradicional do Transformer. Com o desenvolvimento de modelos de linguagem grandes (LLM), embora o tamanho dos parâmetros do modelo esteja aumentando cada vez mais, suas deficiências em termos de alucinações e precisão permanecem difíceis de resolver. Portanto, a equipe fundadora do RWKV decidiu explorar uma nova arquitetura, a fim de alcançar maior eficiência e flexibilidade.
A filosofia de design do RWKV é radicalmente diferente da do Transformer. A cofundadora Luo Xuan disse que os modelos tradicionais do Transformer precisam "reler" o texto anterior a cada vez que geram um token, enquanto o RWKV não precisa registrar o estado de cada token, reduzindo significativamente a carga computacional. O RWKV, combinando as vantagens da RNN (rede neural recorrente), alcançou um avanço na eficiência e na capacidade de modelagem de linguagem.
A vantagem desta arquitetura inovadora reside no fato de que o RWKV pode processar informações em um espaço de estado limitado; por meio de métodos de aprendizado por reforço, o modelo pode determinar automaticamente quando precisa revisar o texto anterior, melhorando assim sua capacidade de memória. Em comparação com os modelos tradicionais, o RWKV apresentou desempenho superior em vários testes de referência, demonstrando sua melhoria na eficiência do aprendizado de linguagem.
Atualmente, o RWKV já concluiu o treinamento de modelos de 0,1B a 14B, e lançou um modelo de visualização de 32B na comunidade internacional. No futuro, a YuanShi Intelligence planeja lançar o RWKV-7 com 70B ou mais parâmetros em 2025, e explorar novas estruturas de inferência e chips para melhorar ainda mais o desempenho do modelo.
Em termos de negócios, o RWKV não apenas fornece projetos de código aberto, mas também está ativamente envolvido no desenvolvimento comercial, incluindo a geração de música com IA e colaborações com empresas, tendo já estabelecido parcerias com empresas como a State Grid Corporation of China. Com o desenvolvimento da tecnologia e o avanço da comercialização, o RWKV busca se tornar o "Android e Linux" do setor de modelos de linguagem grandes.