CogVLM-17B da Tsinghua e Zhishu: Modelo multimodal chinês desafia o GPT-4V

站长之家

Publicado emNotícias e Informações de IA · 2 minutos de leitura · Oct 10, 2023

305

CogVLM-17B: Modelo Multimodal Chinês de Alto Desempenho

O modelo multimodal chinês CogVLM-17B, desenvolvido em parceria entre a Universidade Tsinghua e a empresa de IA ZhiPu AI, demonstrou desempenho excepcional. Este modelo consegue identificar objetos em imagens, distinguindo entre objetos completamente visíveis e parcialmente visíveis.

CogVLM-17B utiliza um método único de fusão profunda, alinhando profundamente as características de imagem e texto através de quatro componentes-chave. Em várias áreas, o modelo superou modelos do Google, sendo apelidado de "guerreiro de 14 lados" (um jogo de palavras que alude à sua versatilidade), demonstrando sua notável capacidade de processamento multimodal.

Este modelo multimodal chinês oferece novas perspectivas e possibilidades para a pesquisa tecnológica na área multimodal.

DeepSeek lança novo modelo multimodal de IA, Janus-Pro, com recursos aprimorados

A DeepSeek, empresa de modelos de linguagem de grande porte, lançou o novo modelo multimodal Janus-Pro, marcando sua entrada oficial no campo da geração de imagens por texto. Este lançamento representa um avanço significativo na tecnologia de IA multimodal da DeepSeek. Em testes de referência como GenEval e DPG-Bench, o Janus-Pro-7B não apenas superou o DALL-E3 da OpenAI, mas também modelos populares como Stable Diffusion e Emu3-Gen. O Janus-Pro utiliza licença MIT.

A Alibaba DAMO Academy lança o modelo multimodal Valley 2 para cenários de comércio eletrônico

A Alibaba DAMO Academy lançou recentemente um modelo de linguagem grande multimodal chamado Valley2, projetado para cenários de comércio eletrônico. Ele visa melhorar o desempenho em várias áreas e expandir os limites de aplicação em comércio eletrônico e vídeos curtos por meio de uma arquitetura de linguagem visual escalável. O Valley2 utiliza o Qwen2.5 como base do LLM, juntamente com o codificador visual SigLIP-384, combinando camadas MLP e convoluções para uma conversão de recursos eficiente.

Ex-especialista em visão da Microsoft, Hu Han, junta-se à Tencent para liderar o desenvolvimento do modelo multimodal HunYuan

Hu Han, ex-chefe de pesquisa do grupo de computação visual do Microsoft Research Asia, juntou-se oficialmente à Tencent, assumindo o desenvolvimento do modelo multimodal HunYuan, substituindo Liu Wei, ex-líder de tecnologia do modelo HunYuan, que deixou a empresa. Esta notícia chamou a atenção da indústria. Hu Han possui um sólido background acadêmico. Em 2008, graduou-se na Universidade Tsinghua e, em 2014, obteve seu doutorado sob a orientação do renomado professor Zhou Jie. Sua tese de doutorado recebeu o Prêmio de Excelência em Teses de Doutorado da Sociedade Chinesa de Inteligência Artificial em 2016. Em 2012, Hu Han trabalhou na Universidade da Pensilvânia...

Equipe da Universidade de Pequim lança o modelo multimodal LLaVA-o1, com capacidade de raciocínio comparável à do GPT-o1!

Recentemente, uma equipe de pesquisa da Universidade de Pequim e outras instituições anunciou o lançamento de um modelo multimodal de código aberto chamado LLaVA-o1. Afirma-se que este é o primeiro modelo de linguagem visual capaz de realizar raciocínio espontâneo e sistemático, comparável ao GPT-o1. O modelo apresentou desempenho excepcional em seis benchmarks multimodais desafiadores, com sua versão de 11B parâmetros superando outros concorrentes, como Gemini-1.5-pro, GPT-4o-mini e Llama-3.2-90B-Vision-Instruct. L