Em 11 de abril, o OpenGVLab lançou em código aberto a série de modelos InternVL3, marcando um novo marco no campo dos modelos de linguagem grandes multimodais (MLLM). A série InternVL3 inclui 7 modelos de diferentes tamanhos, de 1B a 78B parâmetros, capazes de processar simultaneamente informações de texto, imagens e vídeos, demonstrando um desempenho geral excepcional.
Em comparação com seu antecessor, o InternVL2.5, o InternVL3 apresenta melhorias significativas na percepção e raciocínio multimodais, expandindo suas capacidades multimodais para áreas como uso de ferramentas, agentes GUI, análise de imagens industriais e percepção visual 3D. Além disso, graças ao pré-treinamento multimodal nativo, o desempenho geral de texto da série InternVL3 supera até mesmo a série Qwen2.5, que serve como parte de inicialização do componente de linguagem do InternVL3.
A arquitetura da série de modelos InternVL3 segue o paradigma "ViT-MLP-LLM", integrando o InternViT, pré-treinado incrementalmente com um projetor MLP inicializado aleatoriamente, com vários LLMs pré-treinados (incluindo InternLM3 e Qwen2.5).
Em termos de inferência do modelo, o InternVL3 utiliza uma operação de desmistura de pixels, reduzindo o número de tokens visuais para um quarto do original, e emprega uma estratégia de resolução dinâmica, dividindo as imagens em blocos de 448×448 pixels. Desde o InternVL2.0, a principal diferença reside na introdução adicional de suporte para dados de múltiplas imagens e vídeos. O InternVL3 também integra a codificação de posição visual variável (V2PE), fornecendo incrementos de posição menores e mais flexíveis para tokens visuais, resultando em uma melhor compreensão de contextos longos.
Para implantação do modelo, o InternVL3 pode ser implantado como uma API compatível com OpenAI usando o LMDeploy api_server. Os usuários precisam apenas instalar lmdeploy>=0.7.3 e, em seguida, usar os comandos relevantes para concluir a implantação. Ao chamar o modelo, os usuários podem especificar o nome do modelo, o conteúdo da mensagem e outros parâmetros por meio da interface de API do OpenAI para obter a resposta do modelo.
Endereço de experiência:https://modelscope.cn/collections/InternVL3-5d0bdc54b7d84e