Uma equipe de pesquisa recentemente apresentou um novo método emocionante chamado T-FREE, que aumenta drasticamente a eficiência de grandes modelos de linguagem. Cientistas da Aleph Alpha, da Universidade Técnica de Darmstadt, da hessian.AI e do Centro de Pesquisa Alemão de Inteligência Artificial (DFKI) uniram forças para lançar esta tecnologia impressionante, cujo nome completo é "Representação esparsa sem tokenizador para embeddings eficientes em memória".
Tradicionalmente, usamos tokenizadores para converter texto em uma forma numérica que os computadores possam entender, mas o T-FREE escolheu um caminho diferente. Ele usa tríades de caracteres, que chamamos de "tríades", para incorporar palavras diretamente no modelo usando ativação esparsa. O resultado dessa inovação é uma redução impressionante de mais de 85% no número de parâmetros na camada de embedding, sem afetar o desempenho do modelo em tarefas como classificação de texto e perguntas e respostas.
Outro destaque do T-FREE é sua maneira inteligente de modelar a similaridade morfológica entre palavras. Assim como frequentemente encontramos palavras como "casa", "casas" e "doméstico" no nosso dia a dia, o T-FREE representa essas palavras semelhantes de forma mais eficiente no modelo. Os pesquisadores acreditam que palavras semelhantes devem estar mais próximas umas das outras no embedding, resultando em uma maior taxa de compressão. Portanto, o T-FREE não apenas reduz o tamanho da camada de embedding, mas também reduz o comprimento médio de codificação do texto em 56%.
Ainda mais notável é o excelente desempenho do T-FREE em aprendizado de transferência entre diferentes idiomas. Em um experimento, os pesquisadores usaram um modelo com 3 bilhões de parâmetros, primeiro treinando-o em inglês e depois em alemão. Os resultados mostraram que o T-FREE se adapta muito melhor do que os métodos tradicionais baseados em tokenizadores.
No entanto, os pesquisadores mantêm uma postura humilde em relação aos resultados atuais. Eles reconhecem que os experimentos até agora se limitaram a modelos com até 3 bilhões de parâmetros e planejam avaliações adicionais em modelos maiores e conjuntos de dados maiores no futuro.