Na Conferência Mundial de Inteligência Artificial de 2024, a SenseTime lançou o primeiro modelo WYSIWYG da China, "日日新5o" (Rìrìxīn 5o). A experiência interativa deste modelo é comparável à do GPT-4o, permitindo interação multi-modal em tempo real. Integrando informações multimodais como áudio, texto, imagens e vídeos, o modelo consegue compreender e responder instantaneamente. Por exemplo, ele pode identificar crachás de funcionários para determinar a localização na conferência, descrever a aparência e a roupa de um brinquedo de cachorro e até mesmo avaliar instantaneamente um desenho feito à mão por um funcionário.
A capacidade de interação em tempo real do modelo "日日新5o" (Rìrìxīn 5o) é especialmente adequada para aplicações como diálogo em tempo real e reconhecimento de voz. Ele consegue processar várias tarefas no mesmo modelo e adaptar seu comportamento e saída de acordo com diferentes contextos. Este modelo é baseado no modelo básico "日日新5.5" (Rìrìxīn 5.5), que por sua vez é uma versão atualizada do "日日新5.0" (Rìrìxīn 5.0) lançado em abril deste ano, com um aumento médio de 30% no desempenho geral, especialmente em raciocínio matemático, proficiência em inglês e seguimento de instruções.
O "日日新5.5" (Rìrìxīn 5.5) utiliza uma arquitetura colaborativa híbrida de nuvem e ponta, treinada com mais de 10 TB de tokens de dados de alta qualidade, incluindo dados de cadeia de pensamento sintética, para melhorar sua capacidade de raciocínio. Para reduzir a barreira de entrada para empresas, a SenseTime lançou o plano "Modelo Grande 0 Yuan Go", oferecendo vários serviços gratuitos para novos usuários registrados, incluindo 50 milhões de tokens, além de um consultor de migração dedicado para ajudar usuários do OpenAI a migrar com custo zero.