Unified-IO 2
Modelo de geração multimodais unificado
Produto ComumImagemMultimodalTransformer
O Unified-IO 2 é um modelo de geração multimodais unificado que consegue compreender e gerar imagens, texto, áudio e ações. Ele utiliza um único modelo Transformer de codificador-decodificador, representando entradas e saídas de diferentes modalidades (imagens, texto, áudio, ações, etc.) em um espaço semântico compartilhado para processamento. O modelo foi treinado do zero em um corpus de pré-treinamento multimodais em larga escala, otimizado com um objetivo de desruidificação multimodais. Para aprender habilidades amplas, o modelo também foi ajustado finamente em 120 conjuntos de dados existentes, incluindo prompts e aumento de dados. O Unified-IO 2 atingiu o desempenho de última geração no benchmark GRIT, obtendo resultados robustos em mais de 30 benchmarks, incluindo geração e compreensão de imagens, compreensão de texto, compreensão de vídeo e áudio, e operação robótica.
Unified-IO 2 Situação do Tráfego Mais Recente
Total de Visitas Mensais
442
Taxa de Rejeição
58.22%
Média de Páginas por Visita
1.0
Duração Média da Visita
00:00:00