Zero One Wanwu lança modelo de linguagem multimodal Yi-VL, em duas versões

站长之家

Publicado emNotícias e Informações de IA · 2 minutos de leitura · Jan 23, 2024

O modelo de linguagem multimodal Yi-VL, da Zero One Wanwu (Yi), é o novo membro da família de modelos Yi. Ele demonstra capacidades excepcionais em compreensão de imagens e texto e geração de diálogos. O modelo Yi-VL alcançou resultados de ponta em conjuntos de dados em inglês (MMMU) e chinês (CMMMU), mostrando sua força em tarefas complexas e interdisciplinares.

O Yi-VL-34B superou outros grandes modelos multimodais no novo teste de referência multimodal MMMU, alcançando uma precisão de 41,6%, demonstrando uma poderosa capacidade de compreensão e aplicação de conhecimento interdisciplinar.

O modelo Yi-VL é baseado na arquitetura de código aberto LLaVA, incluindo um Transformador de Visão (ViT), um módulo de projeção e os grandes modelos de linguagem Yi-34B-Chat e Yi-6B-Chat. O ViT é usado para codificação de imagens, o módulo de projeção alinha os recursos de imagem e texto, e os grandes modelos de linguagem fornecem uma poderosa capacidade de compreensão e geração de linguagem.

A Step-1V, da Jieyue Xingchen, e a Chá Baodao firmam parceria estratégica; lojas já utilizam o modelo de linguagem multimodal

A Jieyue Xingchen Intelligent Technology Co., Ltd., de Xangai, e a Chá Baodao, renomada marca chinesa de bebidas de chá, anunciaram em 14 de janeiro de 2025 uma parceria estratégica. Essa colaboração visa utilizar a tecnologia de modelo de linguagem de grande escala da Jieyue Xingchen para explorar novos modelos de inspeção inteligente e marketing AIGC, com o objetivo de criar um novo tipo de operação de produção de lojas digitais, oferecendo aos consumidores uma experiência de consumo de chá com leite mais segura, inteligente e divertida.

Amazon desenvolve novo modelo de linguagem multimodal "Olympus", que pode ser lançado na AWS re:Invent

Relatos recentes indicam que a Amazon está desenvolvendo um modelo de linguagem multimodal de grande escala chamado "Olympus", com lançamento previsto para a conferência AWS re:Invent na próxima semana. De acordo com o The Information, este é o nome de código interno do algoritmo. Em novembro do ano passado, a Reuters reportou que a Amazon investiu milhões de dólares no treinamento de um modelo de linguagem de grande escala chamado "Olympus", com 2 trilhões de parâmetros. Quanto a esta...

A empresa de robôs humanoides, Dongyi Technology, completa rodada de financiamento de milhões, liderada pela Peak Capital e pelo Z Fund

A Dongyi Technology, uma empresa de robôs humanoides fundada em junho de 2024, recebeu milhões de yuans em financiamento da rodada anjo, liderada pela Peak Capital e pelo Z Fund, com a participação de várias instituições de investimento conhecidas. O fundador da empresa, Ren Xiaoyu, possui vasta experiência no desenvolvimento de robôs humanoides bípedes e aprendizado por reforço. Atualmente, os robôs humanoides se destacam na execução de tarefas individuais, mas enfrentam desafios na realização de ações ricas e generalizadas, limitando seu potencial de combinação com modelos de linguagem multimodais. A Dongyi Technology se dedica ao desenvolvimento de um novo agente de IA de movimento comportamental e uma nova geração de robôs humanoides.

Alibaba Cloud lança o primeiro grande modelo de linguagem multimodal especializado em ciência lunar do mundo

O Instituto de Geoquímica da Academia Chinesa de Ciências e a Alibaba Cloud colaboraram para lançar o primeiro grande modelo de linguagem multimodal especializado em ciência lunar do mundo na Conferência Digital da China de 2024. Baseado na série Tongyi da Alibaba Cloud e empregando a tecnologia de recuperação aumentada RAG, o modelo foi ajustado e treinado na versão exclusiva do Alibaba Cloud Bailian. Ele é projetado para melhorar a precisão da discriminação da idade e morfologia das crateras de impacto lunar, atualmente atingindo mais de 80%. Este modelo inovador combina visão computacional, multimodalidade e processamento de linguagem natural, sendo sua melhor aplicação a identificação de crateras de impacto na Lua, o que é crucial para o estudo da evolução geológica lunar.