A Alibaba Cloud lançou o novo e aprimorado modelo de linguagem grande Qwen2.5-Turbo, com um comprimento de contexto impressionante de 1 milhão de tokens. O que isso significa? Equivale a 10 livros de "Os Três Corpos", 150 horas de transcrição de voz ou 30.000 linhas de código! Ler dez romances de uma só vez deixou de ser um sonho!
O modelo Qwen2.5-Turbo alcançou 100% de precisão na tarefa de recuperação de chave (Passkey Retrieval) e superou modelos semelhantes, como o GPT-4, na compreensão de textos longos. No teste de referência de texto longo RULER, obteve uma pontuação alta de 93,1, enquanto o GPT-4 obteve 91,6 e o GLM4-9B-1M, 89,9.
Além da capacidade de processamento de textos extremamente longos, o Qwen2.5-Turbo também apresenta precisão no processamento de textos curtos, com desempenho semelhante ao GPT-4o-mini e ao modelo Qwen2.5-14B-Instruct em testes de referência de textos curtos.
Ao adotar o mecanismo de atenção esparsa, o modelo Qwen2.5-Turbo reduziu o tempo de processamento do primeiro token de 1 milhão de tokens de 4,9 minutos para 68 segundos, representando um aumento de 4,3 vezes na velocidade de inferência.
Além disso, o custo de processamento de 1 milhão de tokens é de apenas 0,3 yuans chineses. Comparado ao GPT-4o-mini, ele pode processar 3,6 vezes mais conteúdo com o mesmo custo.
A Alibaba Cloud preparou uma série de demonstrações para o modelo Qwen2.5-Turbo, mostrando suas aplicações em compreensão profunda de romances longos, auxílio em codificação e leitura de várias pesquisas. Por exemplo, após o upload da trilogia chinesa de "Os Três Corpos" (690.000 tokens), o modelo resumiu com sucesso o enredo de cada livro em inglês.
Você pode experimentar os poderosos recursos do modelo Qwen2.5-Turbo por meio dos serviços de API do Alibaba Cloud Model Studio, HuggingFace Demo ou ModelScope Demo.
A Alibaba Cloud afirmou que continuará otimizando o modelo, melhorando o alinhamento de preferências humanas em tarefas de sequências longas, otimizando ainda mais a eficiência de inferência, reduzindo o tempo de computação e tentando lançar modelos de contexto longo maiores e mais poderosos.
Apresentação oficial: https://qwenlm.github.io/blog/qwen2.5-turbo/
Demonstração online: https://huggingface.co/spaces/Qwen/Qwen2.5-Turbo-1M-Demo
Documentação da API: https://help.aliyun.com/zh/model-studio/getting-started/first-api-call-to-qwen