Ex-alunos da Universidade de Zhejiang e Microsoft lançam modelo multimodal LLaVA, desafiando o GPT-4V

量子位

Publicado emNotícias e Informações de IA · 1 minutos de leitura · Oct 12, 2023

Um ex-aluno da Universidade de Zhejiang e o Instituto de Pesquisa da Microsoft colaboraram no lançamento do modelo multimodal LLaVA, desafiando o GPT-4V. O LLaVA se destacou em 11 conjuntos de dados de teste e recebeu mais de 6.000 estrelas. Suas capacidades abrangentes superam o GPT-4V em 85% dos casos. O código-fonte, o modelo e os dados de treinamento do LLaVA já estão disponíveis para uso.

DeepSeek lança novo modelo multimodal de IA, Janus-Pro, com recursos aprimorados

A DeepSeek, empresa de modelos de linguagem de grande porte, lançou o novo modelo multimodal Janus-Pro, marcando sua entrada oficial no campo da geração de imagens por texto. Este lançamento representa um avanço significativo na tecnologia de IA multimodal da DeepSeek. Em testes de referência como GenEval e DPG-Bench, o Janus-Pro-7B não apenas superou o DALL-E3 da OpenAI, mas também modelos populares como Stable Diffusion e Emu3-Gen. O Janus-Pro utiliza licença MIT.

A Alibaba DAMO Academy lança o modelo multimodal Valley 2 para cenários de comércio eletrônico

A Alibaba DAMO Academy lançou recentemente um modelo de linguagem grande multimodal chamado Valley2, projetado para cenários de comércio eletrônico. Ele visa melhorar o desempenho em várias áreas e expandir os limites de aplicação em comércio eletrônico e vídeos curtos por meio de uma arquitetura de linguagem visual escalável. O Valley2 utiliza o Qwen2.5 como base do LLM, juntamente com o codificador visual SigLIP-384, combinando camadas MLP e convoluções para uma conversão de recursos eficiente.

Ex-especialista em visão da Microsoft, Hu Han, junta-se à Tencent para liderar o desenvolvimento do modelo multimodal HunYuan

Hu Han, ex-chefe de pesquisa do grupo de computação visual do Microsoft Research Asia, juntou-se oficialmente à Tencent, assumindo o desenvolvimento do modelo multimodal HunYuan, substituindo Liu Wei, ex-líder de tecnologia do modelo HunYuan, que deixou a empresa. Esta notícia chamou a atenção da indústria. Hu Han possui um sólido background acadêmico. Em 2008, graduou-se na Universidade Tsinghua e, em 2014, obteve seu doutorado sob a orientação do renomado professor Zhou Jie. Sua tese de doutorado recebeu o Prêmio de Excelência em Teses de Doutorado da Sociedade Chinesa de Inteligência Artificial em 2016. Em 2012, Hu Han trabalhou na Universidade da Pensilvânia...

Equipe da Universidade de Pequim lança o modelo multimodal LLaVA-o1, com capacidade de raciocínio comparável à do GPT-o1!

Recentemente, uma equipe de pesquisa da Universidade de Pequim e outras instituições anunciou o lançamento de um modelo multimodal de código aberto chamado LLaVA-o1. Afirma-se que este é o primeiro modelo de linguagem visual capaz de realizar raciocínio espontâneo e sistemático, comparável ao GPT-o1. O modelo apresentou desempenho excepcional em seis benchmarks multimodais desafiadores, com sua versão de 11B parâmetros superando outros concorrentes, como Gemini-1.5-pro, GPT-4o-mini e Llama-3.2-90B-Vision-Instruct. L

Notícias e Informações de IA

Ex-alunos da Universidade de Zhejiang e Microsoft lançam modelo multimodal LLaVA, desafiando o GPT-4V

量子位

Notícias de IA Relacionadas Recomendadas

DeepSeek lança novo modelo multimodal de IA, Janus-Pro, com recursos aprimorados

A Alibaba DAMO Academy lança o modelo multimodal Valley 2 para cenários de comércio eletrônico

Ex-especialista em visão da Microsoft, Hu Han, junta-se à Tencent para liderar o desenvolvimento do modelo multimodal HunYuan

Equipe da Universidade de Pequim lança o modelo multimodal LLaVA-o1, com capacidade de raciocínio comparável à do GPT-o1!