Laboratório de IA de Xangai lança o primeiro modelo de criação de texto e imagem de código aberto, o "Pǔyǔ Língbǐ"

上海人工智能实验室

Publicado emNotícias e Informações de IA · 2 minutos de leitura · Oct 10, 2023

110

Recentemente, o Laboratório de Inteligência Artificial de Xangai (Laboratório de IA de Xangai) lançou o InternLM-XComposer, seu primeiro grande modelo de criação de conteúdo misto de texto e imagem. O InternLM-XComposer consegue realizar conversas fluentes em chinês e inglês com imagens, compreender com precisão o conteúdo das imagens e, ainda mais, desbloqueou a capacidade de "geração com um clique" de artigos mistos de texto e imagem. O usuário só precisa fornecer o tema, e o InternLM-XComposer pode gerar um artigo com texto e imagens de forma automática. O InternLM-XComposer utiliza um processo de algoritmo em "três etapas" para criar artigos com texto e imagens, incluindo a geração de texto, o planejamento de ilustrações e a seleção inteligente de imagens. Em várias avaliações de modelos multimodais principais, o InternLM-XComposer apresentou desempenho de ponta, especialmente na compreensão multimodal em chinês. O InternLM-XComposer já está disponível em código aberto em plataformas como o GitHub, e os desenvolvedores são convidados a testar e criar aplicações inovadoras.

Chegou o OpenAI Operator de código aberto! O super-herói de automação de IA gratuito do navegador Nanobrowser

Está cansado de pagar centenas de dólares por mês em assinaturas do OpenAI Operator? O Nanobrowser é a solução. É uma ferramenta gratuita e de código aberto, sem custos de assinatura, que o liberta de quaisquer restrições financeiras. Basta instalar a extensão e configurar sua própria chave de API LLM para desfrutar imediatamente dos recursos de automação da web de primeira linha. Este método 'faça você mesmo' não é apenas econômico, mas também permite que você controle seus custos, dando-lhe o controle total da sua IA.

Alibaba Tongyi anuncia o lançamento de código aberto do modelo R1-Omni para aprimorar o reconhecimento de emoções multimodais

Em 11 de março, a equipe do laboratório Tongyi anunciou o lançamento de código aberto do modelo R1-Omni, representando um novo avanço no desenvolvimento de modelos multimodais. Este modelo combina aprendizado por reforço com o método de recompensa verificável (RLVR), focando em melhorar a capacidade de raciocínio e o desempenho de generalização em tarefas de reconhecimento de emoções multimodais. O treinamento do R1-Omni é dividido em duas fases. Na fase de inicialização a frio, a equipe utilizou um conjunto de dados combinado contendo 580 vídeos, provenientes do Explainable Multimodal Emotio...

Notícias e Informações de IA

Laboratório de IA de Xangai lança o primeiro modelo de criação de texto e imagem de código aberto, o "Pǔyǔ Língbǐ"

上海人工智能实验室

Notícias de IA Relacionadas Recomendadas

Reka AI lança novo modelo de código aberto Reka Flash 3: modelo de raciocínio universal com 2,1 bilhões de parâmetros

Equipe Alibaba Tongyi lança código aberto do R1-Omni: modelo multimodais que torna informações de áudio e vídeo transparentes

Chegou o OpenAI Operator de código aberto! O super-herói de automação de IA gratuito do navegador Nanobrowser

Alibaba Tongyi anuncia o lançamento de código aberto do modelo R1-Omni para aprimorar o reconhecimento de emoções multimodais