A DeepSeek abriu uma conta oficial no Zhihu e publicou o artigo técnico "Visão geral do sistema de inferência DeepSeek-V3/R1", revelando pela primeira vez detalhes de otimização de seu sistema de inferência de modelo e informações sobre a margem de lucro e custo, marcando o fim oficial da muito esperada "Semana Open Source da DeepSeek".

DeepSeek

O artigo apresenta dois principais objetivos de otimização do sistema de inferência DeepSeek-V3/R1: "maior throughput e menor latência". Para atingir esses objetivos, a DeepSeek adotou a tecnologia de paralelismo de especialistas em larga escala entre nós (EP), apesar do aumento da complexidade do sistema. O artigo destaca como a tecnologia EP é usada para aumentar o tamanho do lote, ocultar o tempo de transferência e alcançar o balanceamento de carga.

É particularmente notável que a DeepSeek divulgou publicamente seus dados de custo e margem de lucro, algo incomum. O artigo revela: "Considerando um custo de aluguel de GPU de US$ 2/hora, o custo total é de US$ 87.072/dia. Se todos os tokens forem calculados de acordo com o preço do DeepSeek R1, a receita teórica diária seria de US$ 562.027, com uma margem de lucro de 545%."