Salesforce lança o modelo de IA multimodal de código aberto xGen-MM para aprimorar a compreensão visual

A Salesforce lançou um modelo de IA multimodal de código aberto chamado xGen-MM, que pode entender e gerar simultaneamente vários tipos de dados, como texto e imagens, potencialmente revolucionando a pesquisa e aplicação de IA.

A equipe de pesquisa de IA da Salesforce publicou um artigo no arXiv detalhando a estrutura do xGen-MM. Esta estrutura inclui não apenas modelos pré-treinados, mas também conjuntos de dados e código de ajuste fino. Vale ressaltar que este modelo de maior tamanho possui 4 bilhões de parâmetros e apresentou desempenho sólido em vários testes de referência, sendo comparável a modelos de código aberto similares.

Este lançamento de código aberto contrasta com a tendência atual de muitas grandes empresas de tecnologia de manterem modelos de IA avançados em segredo. A Salesforce afirma que espera promover pesquisas e desenvolvimentos mais amplos por meio da abertura de modelos e conjuntos de dados. Na verdade, essa decisão visa permitir que mais pesquisadores e desenvolvedores contribuam para o avanço da tecnologia de IA multimodal.

Uma grande inovação do xGen-MM é sua capacidade de lidar com "dados intercalados", ou seja, pode processar simultaneamente várias imagens e texto. Essa capacidade permite que o modelo execute tarefas mais complexas, como responder a perguntas sobre várias imagens ao mesmo tempo – algo realmente impressionante! Cenários de aplicação potenciais incluem diagnóstico médico e direção autônoma.

Este lançamento também inclui várias versões otimizadas do modelo, como um modelo de pré-treinamento básico, um modelo ajustado para seguir instruções e um modelo de "ajuste seguro" projetado para reduzir saídas prejudiciais. Essa variedade de opções reflete a crescente importância dada pela comunidade de IA ao equilíbrio entre capacidade e ética de segurança.

No entanto, o lançamento de modelos poderosos também gerou discussões sobre os riscos potenciais e o impacto social de sistemas de IA mais avançados. Embora a Salesforce tenha realizado um ajuste seguro para reduzir os riscos, o equilíbrio entre inovação e segurança continua sendo uma questão que merece reflexão.

O lançamento de código aberto da Salesforce fornece aos pesquisadores ferramentas valiosas para entender e melhorar essas tecnologias poderosas. Isso também estabelece um novo padrão de transparência no campo da IA, podendo incentivar outras grandes empresas de tecnologia a serem mais abertas em suas pesquisas.

Acesso ao modelo: https://huggingface.co/collections/Salesforce/xgen-mm-1-models-662971d6cecbf3a7f80ecc2e

Destaques:
🌟 xGen-MM é um modelo de IA multimodal de código aberto da Salesforce, que suporta a compreensão e geração combinadas de texto e imagens.
🔍 O modelo possui a capacidade de processar dados intercalados, podendo responder simultaneamente a perguntas sobre várias imagens, com amplas perspectivas de aplicação.
🔒 Este lançamento inclui várias versões otimizadas, focando em segurança e questões éticas, fornecendo recursos abundantes para pesquisadores.

Notícias e Informações de IA

Salesforce lança o modelo de IA multimodal de código aberto xGen-MM para aprimorar a compreensão visual

AIbase基地