Apple e Universidade de Columbia se unem para desenvolver o modelo de linguagem multimodal Ferret

站长之家

Publicado emNotícias e Informações de IA · 2 minutos de leitura · Oct 30, 2023

Modelo de Linguagem Multimodal Ferret

Pesquisadores da Apple e da Universidade de Columbia colaboraram no desenvolvimento do Ferret, um modelo de linguagem multimodal projetado para alcançar um entendimento e descrição avançados de imagens. O modelo possui uma forte capacidade de compreensão global, processando simultaneamente texto livre e regiões referenciadas, superando o desempenho de modelos tradicionais.

Os pesquisadores criaram o conjunto de dados GRIT para orientar o treinamento do modelo e avaliar o desempenho do Ferret em várias tarefas. O Ferret demonstrou capacidades de referência e localização, mostrando potencial para grandes avanços em áreas como interação humano-computador e busca inteligente.

A Step-1V, da Jieyue Xingchen, e a Chá Baodao firmam parceria estratégica; lojas já utilizam o modelo de linguagem multimodal

A Jieyue Xingchen Intelligent Technology Co., Ltd., de Xangai, e a Chá Baodao, renomada marca chinesa de bebidas de chá, anunciaram em 14 de janeiro de 2025 uma parceria estratégica. Essa colaboração visa utilizar a tecnologia de modelo de linguagem de grande escala da Jieyue Xingchen para explorar novos modelos de inspeção inteligente e marketing AIGC, com o objetivo de criar um novo tipo de operação de produção de lojas digitais, oferecendo aos consumidores uma experiência de consumo de chá com leite mais segura, inteligente e divertida.

Amazon desenvolve novo modelo de linguagem multimodal "Olympus", que pode ser lançado na AWS re:Invent

Relatos recentes indicam que a Amazon está desenvolvendo um modelo de linguagem multimodal de grande escala chamado "Olympus", com lançamento previsto para a conferência AWS re:Invent na próxima semana. De acordo com o The Information, este é o nome de código interno do algoritmo. Em novembro do ano passado, a Reuters reportou que a Amazon investiu milhões de dólares no treinamento de um modelo de linguagem de grande escala chamado "Olympus", com 2 trilhões de parâmetros. Quanto a esta...

A empresa de robôs humanoides, Dongyi Technology, completa rodada de financiamento de milhões, liderada pela Peak Capital e pelo Z Fund

A Dongyi Technology, uma empresa de robôs humanoides fundada em junho de 2024, recebeu milhões de yuans em financiamento da rodada anjo, liderada pela Peak Capital e pelo Z Fund, com a participação de várias instituições de investimento conhecidas. O fundador da empresa, Ren Xiaoyu, possui vasta experiência no desenvolvimento de robôs humanoides bípedes e aprendizado por reforço. Atualmente, os robôs humanoides se destacam na execução de tarefas individuais, mas enfrentam desafios na realização de ações ricas e generalizadas, limitando seu potencial de combinação com modelos de linguagem multimodais. A Dongyi Technology se dedica ao desenvolvimento de um novo agente de IA de movimento comportamental e uma nova geração de robôs humanoides.

Alibaba Cloud lança o primeiro grande modelo de linguagem multimodal especializado em ciência lunar do mundo

O Instituto de Geoquímica da Academia Chinesa de Ciências e a Alibaba Cloud colaboraram para lançar o primeiro grande modelo de linguagem multimodal especializado em ciência lunar do mundo na Conferência Digital da China de 2024. Baseado na série Tongyi da Alibaba Cloud e empregando a tecnologia de recuperação aumentada RAG, o modelo foi ajustado e treinado na versão exclusiva do Alibaba Cloud Bailian. Ele é projetado para melhorar a precisão da discriminação da idade e morfologia das crateras de impacto lunar, atualmente atingindo mais de 80%. Este modelo inovador combina visão computacional, multimodalidade e processamento de linguagem natural, sendo sua melhor aplicação a identificação de crateras de impacto na Lua, o que é crucial para o estudo da evolução geológica lunar.