No mundo da IA, acabamos de receber um novo membro notável: o Cambrian-1, um grande modelo de linguagem multimodal (MLLM) criado por grandes nomes da indústria como LeCun e Xie Saining. O surgimento deste modelo não é apenas um salto tecnológico, mas também uma profunda reflexão sobre a pesquisa de aprendizado multimodal.
A filosofia de design do Cambrian-1 prioriza a visão, o que é particularmente valioso na pesquisa de IA atual, centrada na linguagem. Ele nos lembra que a maneira como os humanos adquirem conhecimento vai muito além da linguagem; experiências sensoriais como visão, audição e tato também são importantes. A disponibilização do código-fonte do Cambrian-1 oferece um recurso valioso para todos os pesquisadores e desenvolvedores interessados em aprendizado multimodal.
A construção deste modelo gira em torno de cinco elementos principais: aprendizado de representação visual, design do conector, dados de ajuste fino de instruções, estratégia de ajuste fino de instruções e testes de referência. Cada elemento representa uma exploração aprofundada do espaço de design do MLLM, refletindo a visão única da equipe de pesquisa sobre os problemas existentes.
Vale ressaltar que o desempenho do Cambrian-1 em tarefas de linguagem visual é impressionante. Ele não apenas supera outros modelos de código aberto, mas também se compara a modelos proprietários de ponta em alguns testes de referência. Por trás dessa conquista está o pensamento inovador da equipe de pesquisa sobre o ajuste fino de instruções e o design do conector.
No entanto, o caminho de pesquisa do Cambrian-1 não foi fácil. Os pesquisadores descobriram que, mesmo MLLMs bem treinados podem ter deficiências na capacidade de diálogo, um fenômeno conhecido como "fenômeno da secretária eletrônica". Para resolver esse problema, eles adicionaram prompts de sistema durante o treinamento para incentivar o modelo a conduzir diálogos mais ricos.
O sucesso do Cambrian-1 é resultado do trabalho de uma equipe de pesquisa forte. Shengbang Tong (童晟邦), como primeiro autor do artigo, teve uma contribuição inestimável. Atualmente, ele está cursando doutorado na Universidade de Nova York, orientado pelos professores Yann LeCun e Xie Saining. Seus interesses de pesquisa abrangem várias áreas, incluindo modelos de mundo, aprendizado não supervisionado/auto supervisionado, modelos generativos e modelos multimodais.
A disponibilização do código-fonte do Cambrian-1 trouxe um sopro de ar fresco para a comunidade de IA. Ele não apenas fornece uma ferramenta poderosa para aprendizado multimodal, mas também estimula uma reflexão mais profunda sobre a pesquisa em aprendizado multimodal. Com mais pesquisadores e desenvolvedores se juntando à exploração do Cambrian-1, temos motivos para acreditar que ele se tornará uma força importante para impulsionar o desenvolvimento da tecnologia de IA.
Endereço do projeto: https://github.com/cambrian-mllm/cambrian
Artigo: https://arxiv.org/abs/2406.16860