Com o aprofundamento da globalização, a tecnologia de tradução automática neural (NMT) desempenha um papel cada vez mais importante na comunicação entre idiomas. Embora as ferramentas de tradução atuais se saiam bem no processamento de documentos técnicos e textos simples, ainda enfrentam muitos desafios na tradução de textos literários. Obras literárias frequentemente contêm metáforas e alegorias, expressões ricas em significado cultural e emocional, que os sistemas de tradução tradicionais geralmente têm dificuldade em transmitir com precisão.

image.png

Para compensar essa deficiência, a equipe de pesquisa da Tencent lançou um novo sistema de tradução chamado DRT-o1. O sistema inclui duas versões: DRT-o1-7B e DRT-o1-14B. Esses dois modelos são construídos com base no Qwen2.5 e introduzem uma nova estrutura multiagente, otimizada especificamente para a tradução de metáforas e alegorias. A equipe de pesquisa coletou cerca de 400 livros de domínio público em inglês do Projeto Gutenberg, extraiu 577.600 frases e selecionou 63.000 frases contendo metáforas e alegorias como dados de treinamento.

O sistema DRT-o1 utiliza um método de colaboração composto por três papéis: tradutor, consultor e avaliador. O fluxo de trabalho dessa estrutura multiagente começa com a identificação e tradução individual dos termos-chave na frase de origem, garantindo a precisão do contexto. Após a geração da tradução preliminar, várias rodadas de melhorias e avaliações são realizadas, resultando em uma tradução fluente e fácil de entender. Ao traduzir obras literárias, o sistema consegue capturar melhor seu significado cultural e nuances emocionais.

Os resultados experimentais mostram que a pontuação BLEU do DRT-o1-7B aumentou em 8,26 pontos e a pontuação COMET aumentou em 3,36 pontos, superando seu antecessor Qwen2.5-7B-Instruct. O DRT-o1-14B também apresentou excelente desempenho, com um aumento de 7,33 pontos na pontuação BLEU e 1,66 pontos na pontuação COMET. Esses resultados indicam que o DRT-o1 supera os modelos existentes na tradução literária, especialmente sua versão 7B, que até mesmo supera o modelo QwQ-32B maior.

image.png

O sistema DRT-o1, por meio da introdução de uma estrutura multiagente e um método de raciocínio de cadeia longa, trouxe avanços inovadores para o campo da tradução automática neural. Ele não apenas melhora a precisão e a fluidez da tradução, mas também fornece novas soluções para a tradução de textos literários complexos.

Entrada do projeto: https://github.com/krystalan/DRT-o1

Destaques:

🌟 O sistema DRT-o1 inclui duas versões (7B e 14B) e utiliza uma estrutura multiagente para otimizar a tradução de metáforas e alegorias.

📚 A equipe de pesquisa extraiu e selecionou 63.000 frases literárias de 400 livros de domínio público como dados de treinamento.

🚀 O DRT-o1 apresentou melhorias significativas nas pontuações BLEU e COMET, demonstrando uma forte capacidade de tradução literária.