Recentemente, a plataforma TI da Tencent Cloud anunciou o lançamento oficial dos aguardados modelos da série DeepSeek, incluindo o modelo V3 de "versão completa" com 671 bilhões de parâmetros e o modelo original R1, além de uma série de modelos derivados do DeepSeek-R1 por meio de destilação, com tamanhos de parâmetros variando de 70 bilhões a 1,5 bilhão. Essa iniciativa fornece aos desenvolvedores um poderoso suporte de ferramentas de IA, impulsionando ainda mais a popularização e aplicação da tecnologia de modelos grandes.
Os modelos da série DeepSeek ganharam ampla atenção global por seu desempenho excepcional. O DeepSeek-R1, lançado como código aberto, utilizou extensivamente técnicas de aprendizado por reforço na fase de pós-treinamento, permitindo uma melhoria significativa na capacidade de raciocínio do modelo mesmo com dados rotulados mínimos. Em tarefas de matemática, código e raciocínio de linguagem natural, o desempenho do DeepSeek-R1 é comparável ao do GPT-4 oficial da OpenAI.
Além disso, o DeepSeek-R1 segue a licença MIT, permitindo que os usuários treinem outros modelos por meio da técnica de destilação. Seu modelo destilado, o DeepSeek-R1-Distill, apresenta excelente desempenho em testes de referência, mesmo com menor escala de parâmetros e custo de inferência reduzido.
A plataforma TI da Tencent Cloud não apenas oferece suporte abrangente à implantação com um único clique para os modelos da série DeepSeek, mas também disponibiliza uma experiência online gratuita e por tempo limitado do modelo R1, oferecendo aos desenvolvedores uma experiência descomplicada e imediata. Os usuários podem acessar a página dos modelos da série DeepSeek na "TI Platform - Large Model Plaza" para obter informações sobre os modelos e experimentar e implantá-los online com um único clique.
Além disso, a plataforma TI fornece recursos de nível empresarial, como gerenciamento de serviços de modelos, monitoramento de operações e dimensionamento de recursos, ajudando empresas e desenvolvedores a integrar os modelos DeepSeek de forma eficiente e estável em seus negócios.
Para atender às necessidades de diferentes usuários, a plataforma TI oferece vários modelos de cobrança, incluindo cobrança por uso e planos anuais/mensais. Para usuários que precisam de uma experiência de curto prazo, podem comprar poder de computação diretamente da plataforma TI e optar pelo modelo de cobrança por uso; para usuários que já compraram máquinas CVM ou precisam de uma experiência de longo prazo, recomenda-se o uso de suas próprias máquinas CVM como poder de computação de inferência.
Em termos de configuração de poder de computação, recomenda-se o uso de 2 máquinas HCCPNV6 de 8 placas na nuvem Tencent para implantar o DeepSeek-R1 de "versão completa" para uma experiência de negócios estável; o modelo DeepSeek-R1-Distill-Qwen-1.5B destilado pode ser implantado em uma única placa gráfica GPU de gama média. Os desenvolvedores podem escolher o modelo adequado para teste com base na complexidade do negócio e integrá-lo a aplicativos de IA por meio de chamadas de API.
Essa nova iniciativa da plataforma TI da Tencent Cloud não apenas fornece aos desenvolvedores um poderoso suporte de ferramentas de IA, mas também impulsiona fortemente a popularização e aplicação da tecnologia de modelos grandes. Por meio da experiência gratuita e da funcionalidade de implantação com um único clique, a plataforma TI reduz a barreira de entrada para o uso de modelos grandes pelos desenvolvedores, permitindo que eles apliquem a tecnologia de IA a negócios reais de forma mais rápida, melhorando ainda mais a praticidade e acessibilidade da tecnologia de IA.