O Qwen-VL, modelo de linguagem visual de código aberto da Alibaba Cloud, permite que o Tongyi Qianwen veja imagens!

AI前线

Publicado emNotícias e Informações de IA · 2 minutos de leitura · Aug 25, 2023

A Alibaba Cloud lançou código aberto para o modelo de linguagem visual Qwen-VL, que segue o lançamento dos modelos de código aberto Qwen-7B (modelo geral) e Qwen-7B-Chat (modelo de conversa) em agosto. O Qwen-VL é outro grande modelo de código aberto. O Qwen-VL suporta chinês e inglês e pode ser usado em vários aplicativos, incluindo perguntas e respostas baseadas em conhecimento, geração de legendas de imagens e perguntas e respostas sobre imagens. Comparado a outros modelos, o Qwen-VL pode realizar localização de domínio aberto em chinês, marcando com precisão as caixas de delimitação em imagens. O Qwen-VL é baseado no Qwen-7B e inclui um codificador visual que suporta entrada de imagens. Em testes em várias tarefas de linguagem visual, o Qwen-VL alcançou os melhores resultados entre modelos semelhantes. O Qwen-VL já está disponível em plataformas de código aberto como o ModelScope. A multimodalidade é uma direção importante no desenvolvimento de grandes modelos, mas ainda enfrenta alguns desafios técnicos.

Huawei Ascend e Step-Video lançam modelo multi-modal de código aberto, avançando em nova área de IA

Recentemente, a comunidade Modelers lançou oficialmente os modelos multimodais de código aberto Step-Video e Step-Audio, desenvolvidos pela Step-Video. Esses dois modelos são usados, respectivamente, para geração de vídeo e interação de voz, com o objetivo de fornecer ferramentas de IA mais poderosas para desenvolvedores e empresas. O modelo Step-Video, com o nome completo Step-Video-T2V, é um modelo de geração de vídeo de código aberto com 30 bilhões de parâmetros, o maior do mundo. O modelo pode gerar diretamente vídeos de 20...

Cisco lança organização de código aberto AGNTCY para impulsionar a infraestrutura de agentes de IA

Recentemente, a Cisco anunciou a criação de uma nova organização de código aberto, a AGNTCY. O objetivo da organização é fornecer infraestrutura fundamental para a construção e colaboração de agentes de IA. A Cisco espera que, por meio dessa organização, possa reunir profissionais de IA e infraestrutura para impulsionar o desenvolvimento de uma internet de agentes aberta e interoperável. Nota sobre a imagem: Imagem gerada por IA, fornecedora de serviços de licenciamento de imagens Midjourney. Ao anunciar oficialmente o lançamento da AGNTCY, a Cisco fez um apelo a especialistas para que participem ativamente e contribuam com seus conhecimentos.

Notícias e Informações de IA

O Qwen-VL, modelo de linguagem visual de código aberto da Alibaba Cloud, permite que o Tongyi Qianwen veja imagens!

AI前线

Notícias de IA Relacionadas Recomendadas

Huawei Ascend e Step-Video lançam modelo multi-modal de código aberto, avançando em nova área de IA

HeyGen de código aberto chegou! Heygem: clonagem precisa de aparência e voz com sincronização labial

Cisco lança organização de código aberto AGNTCY para impulsionar a infraestrutura de agentes de IA

Modelo de raciocínio de linguagem grande Ali Tongyi Qianwen QwQ-32B conquista o primeiro lugar no ranking da comunidade de código aberto global