Na área de inteligência artificial, a versão mais recente do DeepSeek, o DeepSeek-V2.5, mais uma vez prova sua posição de ponta com sua capacidade excepcional de codificação e desempenho do modelo de bate-papo. Em uma competição acirrada com o GPT-4, o DeepSeek-V2.5 mostrou uma melhoria significativa na taxa de vitória em vários conjuntos de testes.
No teste ArenaHard, sua taxa de vitória saltou de 68,3% para 76,3%, enquanto no teste AlpacaEval2.0LC, a taxa de vitória aumentou de 46,61% para 50,52%. Esses resultados não apenas demonstram a capacidade do DeepSeek-V2.5 em entender problemas complexos e fornecer soluções, mas também refletem sua adaptabilidade e precisão em ambientes chinês e inglês.
Além da melhoria na taxa de vitória, o DeepSeek-V2.5 também apresentou avanços em outros indicadores de avaliação. A pontuação MT-Bench aumentou de 8,84 para 9,02, e a pontuação AlignBench também aumentou de 7,88 para 8,04. Esse crescimento nas pontuações demonstra ainda mais que a capacidade do DeepSeek-V2.5 em tarefas de escrita, obediência a instruções e rejeição de solicitações impróprias foi otimizada.
Em termos de capacidade de geração de código, o DeepSeek-V2.5 foi aprimorado com base no DeepSeek-Coder-V2-0724 e obteve resultados impressionantes em conjuntos de testes padrão. A pontuação HumanEval atingiu 89%, enquanto a pontuação LiveCodeBench (janeiro-setembro) atingiu 41%. Esses resultados indicam que a capacidade do DeepSeek-V2.5 de gerar código de alta qualidade e executável foi significativamente aprimorada.
A equipe DeepSeek também desenvolveu uma estrutura abrangente chamada Fire-Flyer AI-HPC, que integra o design de hardware e software para otimizar o desempenho, a relação custo-benefício e o consumo de energia. O desempenho do Fire-Flyer2 é comparável ao do NVIDIA DGX-A100, líder do setor, com uma redução de 50% no custo e 40% no consumo de energia. Esses resultados são atribuídos a um design de engenharia cuidadoso e decisões de design bem pensadas que otimizaram os componentes de hardware e software do sistema.
Endereço para experimentar: https://top.aibase.com/tool/deepseek-chat