Modelo de IA de código aberto Molmo supera gigantes do setor, ultrapassando GPT-4o e Claude 3.5

AIbase基地

Publicado emNotícias e Informações de IA · 5 minutos de leitura · Sep 26, 2024

604

Recentemente, o Allen Institute for Artificial Intelligence (Ai2) lançou o Molmo, uma nova família de modelos de IA multimodal de código aberto que se destaca, superando até mesmo o GPT-4o da OpenAI, o Claude 3.5 Sonnet da Anthropic e o Gemini 1.5 do Google em vários benchmarks de terceiros.

O Molmo não apenas aceita e analisa imagens enviadas pelos usuários, mas também foi treinado com "1000 vezes menos dados do que seus concorrentes", graças a técnicas de treinamento exclusivas.

Este lançamento demonstra o compromisso do Ai2 com a pesquisa aberta, fornecendo modelos de alto desempenho, além de pesos e dados abertos para uso por uma comunidade e empresas mais amplas. A família Molmo inclui quatro modelos principais: Molmo-72B, Molmo-7B-D, Molmo-7B-O e MolmoE-1B, sendo o Molmo-72B o modelo principal, com 72 bilhões de parâmetros e desempenho excepcional.

De acordo com as avaliações, o Molmo-72B obteve a pontuação mais alta em 11 benchmarks importantes e ficou em segundo lugar apenas para o GPT-4o em termos de preferência do usuário. O Ai2 também lançou um modelo OLMoE, usando uma abordagem de "conjunto de modelos menores" para melhorar a relação custo-benefício.

A arquitetura do Molmo foi cuidadosamente projetada para alcançar eficiência e desempenho excepcionais. Todos os modelos usam o modelo CLIP ViT-L/14336px da OpenAI como codificador visual, processando imagens multi-escala em tokens visuais. A parte do modelo de linguagem é um Transformer decodificador com diferentes capacidades e abertura.

Em termos de treinamento, o Molmo passou por duas fases: primeiro, pré-treinamento multimodal, e depois, ajuste fino supervisionado. Diferentemente de muitos modelos modernos, o Molmo não dependeu do aprendizado por reforço com feedback humano, mas sim de um processo de treinamento finamente ajustado para atualizar os parâmetros do modelo.

O Molmo apresentou desempenho superior em vários benchmarks, especialmente em tarefas complexas como leitura de documentos e raciocínio visual, demonstrando sua capacidade robusta. O Ai2 já lançou esses modelos e conjuntos de dados no Hugging Face, e nos próximos meses lançará mais modelos e relatórios técnicos expandidos, com o objetivo de fornecer mais recursos aos pesquisadores.

Se você quiser conhecer os recursos do Molmo, agora pode fazer uma demonstração pública através do site oficial do Molmo (https://molmo.allenai.org/).

Destaques:
🌟 O modelo de IA multimodal de código aberto Ai2 Molmo supera os principais produtos do setor.
📊 O Molmo-72B apresenta desempenho excepcional em vários benchmarks, ficando atrás apenas do GPT-4o.
🔍 Alta abertura, com modelos e conjuntos de dados disponíveis para uso livre por pesquisadores.

OpenAI Lança o GPT-4O-Audio-Preview: Áudio que 'Entende' Emoções!

A OpenAI lidera novamente a inovação em inteligência artificial com o lançamento do novo modelo gpt-4o-audio-preview. Este modelo demonstra capacidades surpreendentes na geração e análise de áudio, abrindo novas possibilidades para a interação humano-computador. Vamos explorar os recursos deste modelo inovador e suas potenciais aplicações. As principais funcionalidades do gpt-4o-audio-preview incluem três aspectos: primeiro, ele pode gerar respostas de voz naturais e fluidas com base em texto, fornecendo suporte para aplicativos como assistentes de voz e atendimento virtual.

Novo modelo OpenAI gpt-4o-2024-08-06 e gpt-4o-mini com suporte a saída estruturada

A OpenAI adicionou a funcionalidade de saída estruturada à sua API, garantindo que a saída gerada esteja totalmente em conformidade com o esquema JSON predefinido, melhorando significativamente a confiabilidade da API e a precisão dos aplicativos. Este recurso não apenas define a estrutura do JSON, mas também garante a precisão da saída. Simultaneamente, houve uma redução de preços, com o custo de entrada reduzido pela metade e o custo de saída reduzido em 1/3. A introdução da saída estruturada resolveu as limitações do esquema JSON em garantir que a saída esteja em conformidade com uma estrutura específica, melhorando significativamente o desempenho do modelo em relação à saída estruturada. Através de inovações tecnológicas, como restrições...

OpenAI lança novo modelo gpt-4o-64k-output-alpha: GPT-4o API agora suporta até 64K de saída

O principal destaque do novo modelo gpt-4o-64k-output-alpha da OpenAI é a capacidade de gerar uma saída de até 64K tokens de uma só vez, ideal para produzir conteúdo rico e detalhado, atendendo às necessidades de redação, programação e análise de dados complexos. No entanto, este recurso aumenta o preço da API, custando US$ 18 por milhão de tokens de saída, em comparação com US$ 6 por milhão de tokens de entrada. Essa medida visa equilibrar os altos custos computacionais e incentivar o uso responsável desta poderosa ferramenta. O modelo é uma ferramenta valiosa para os campos da criação e da pesquisa.

Notícias e Informações de IA

Modelo de IA de código aberto Molmo supera gigantes do setor, ultrapassando GPT-4o e Claude 3.5

AIbase基地

Notícias de IA Relacionadas Recomendadas

OpenAI Lança o GPT-4O-Audio-Preview: Áudio que 'Entende' Emoções!

Novo modelo OpenAI gpt-4o-2024-08-06 e gpt-4o-mini com suporte a saída estruturada

OpenAI lança novo modelo gpt-4o-64k-output-alpha: GPT-4o API agora suporta até 64K de saída