Dans le contexte de la vague mondiale de l'IA générative en 2022, YuanShi Intelligence (RWKV) a bouclé un tour de financement de plusieurs dizaines de millions de yuans chinois en décembre 2023, mené par Tianji Capital. Suite à ce financement, la valorisation de l'entreprise a doublé, et les fonds seront utilisés pour développer l'équipe, la recherche et développement d'une nouvelle architecture et la commercialisation des produits.

L'apparition de RWKV représente un défi important pour l'architecture Transformer traditionnelle. Avec le développement des grands modèles de langage (LLM), bien que l'échelle des paramètres des modèles augmente constamment, les problèmes d'hallucinations et de précision restent difficiles à résoudre. Par conséquent, l'équipe fondatrice de RWKV a décidé d'explorer une architecture entièrement nouvelle afin d'atteindre une efficacité et une flexibilité supérieures.

Investissement, financement, argent

La philosophie de conception de RWKV diffère radicalement de celle de Transformer. Luo Xuan, co-fondateur, explique que les modèles Transformer traditionnels doivent "relire" le texte précédent à chaque génération d'un jeton, tandis que RWKV n'a pas besoin d'enregistrer l'état de chaque jeton, réduisant ainsi considérablement la charge de calcul. RWKV, en combinant les avantages des RNN (réseaux neuronaux récurrents), a réalisé une percée en termes d'efficacité et de capacité de modélisation linguistique.

L'avantage de cette architecture innovante réside dans la capacité de RWKV à traiter les informations dans un espace d'état limité. Grâce à des méthodes d'apprentissage par renforcement, le modèle peut automatiquement déterminer quand il est nécessaire de revoir le texte précédent, améliorant ainsi sa capacité de mémorisation. Comparé aux modèles traditionnels, RWKV surpasse les autres modèles dans plusieurs tests de référence, démontrant une amélioration de l'efficacité de l'apprentissage linguistique.

Actuellement, RWKV a terminé l'entraînement de modèles allant de 0,1 milliard à 14 milliards de paramètres, et a publié un modèle d'aperçu de 32 milliards de paramètres sur les communautés en ligne internationales. À l'avenir, YuanShi Intelligence prévoit de lancer RWKV-7 avec 70 milliards de paramètres ou plus en 2025, et d'explorer de nouveaux frameworks d'inférence et de nouvelles puces pour améliorer encore les performances du modèle.

Sur le plan commercial, RWKV propose non seulement des projets open source, mais déploie également activement des stratégies de commercialisation, notamment dans la génération de musique par IA et les collaborations avec les entreprises. Des partenariats ont déjà été conclus avec plusieurs entreprises, dont le réseau électrique national chinois. Avec le développement technologique et la progression de la commercialisation, RWKV ambitionne de devenir l'"Android et Linux" du secteur des grands modèles.