Avanço inovador em modelos de linguagem grandes 3D: Robin3D treinado com milhões de dados robustos!

AIbase基地

Publicado emNotícias e Informações de IA · 4 minutos de leitura · Oct 15, 2024

196

Uma equipe de pesquisa do Instituto de Tecnologia de Illinois, Universidade de Zhejiang, Universidade da Flórida Central e Universidade de Illinois em Chicago lançou recentemente o novo modelo de linguagem grande de cena 3D, Robin3D.

O modelo foi treinado em um conjunto de dados em larga escala contendo um milhão de dados de instruções de acompanhamento, e alcançou o melhor desempenho atual em cinco benchmarks comuns de aprendizado multi-modal 3D, marcando um grande avanço na construção de agentes 3D genéricos.

O sucesso do Robin3D é atribuído ao seu inovador mecanismo de dados RIG (Robust Instruction Generation). O mecanismo RIG visa gerar dois tipos de dados de instruções cruciais: dados de instruções de acompanhamento adversários e dados de instruções de acompanhamento diversificados.

Os dados de instruções de acompanhamento adversários, por meio da mistura de amostras positivas e negativas, melhoram a capacidade de discernimento e compreensão do modelo, enquanto os dados de instruções de acompanhamento diversificados incluem vários estilos de instruções para melhorar a capacidade de generalização do modelo.

Os pesquisadores apontaram que os modelos de linguagem grandes 3D existentes dependem principalmente de pares de linguagem visual 3D positivos e instruções baseadas em modelos para treinamento, o que leva à capacidade de generalização insuficiente e ao risco de superajuste. O Robin3D, por meio da introdução de dados de instruções adversários e diversificados, supera eficazmente essas limitações.

O modelo Robin3D também integra o projetor de aprimoramento de relações (RAP), ligação de recursos de ID (IFB) para capacidade de nomeação e localização. O módulo RAP aprimora recursos centrados em objetos por meio de contexto e informações de localização abrangentes em nível de cena, enquanto o módulo IFB fortalece a conexão entre eles vinculando cada ID ao seu recurso correspondente.

Os resultados experimentais mostram que o Robin3D, sem ajuste fino para tarefas específicas, superou os métodos anteriores em cinco benchmarks, incluindo ScanRefer, Multi3DRefer, Scan2Cap, ScanQA e SQA3D.

Em particular, na avaliação Multi3DRefer, que inclui casos de objetivo zero, o Robin3D obteve um aumento significativo de 7,8% e 7,3% nos indicadores F1@0,25 e F1@0,5, respectivamente.

O lançamento do Robin3D marca um grande avanço nos modelos de linguagem grandes 3D em termos de inteligência espacial, estabelecendo uma base sólida para a construção futura de agentes 3D mais genéricos e poderosos.

Endereço do artigo: https://arxiv.org/pdf/2410.00255

Lei Jun responde a 7 dias de IA no feriado nacional, com 8 dias de reclamações; sugere legislação mais rigorosa sobre deepfakes de rosto e voz

Após sete dias de feriado nacional na China, surgiram relatos de oito dias de críticas direcionadas a Lei Jun e sua empresa por causa da Inteligência Artificial. Em resposta, Lei Jun sugeriu a necessidade de uma legislação mais robusta para regulamentar o uso de deepfakes de rosto e voz, devido aos potenciais problemas éticos e legais.

Protegendo a originalidade! O site de literatura Jinjiang lança regulamentos para escrita auxiliada por IA, obras que ultrapassarem o limite podem ter reembolso negado e serem banidas das listas

Recentemente, o administrador do site Jinjiang Literatura City, iceheart, publicou no fórum Bi Shui Jiang Ting um 'Aviso experimental sobre o uso e julgamento de escrita auxiliada por IA', fornecendo pela primeira vez regulamentos oficiais para criação de literatura online auxiliada por IA. O aviso abrange principalmente três aspectos: definição de originalidade, definição de uso de IA e regras de penalidades. O Jinjiang afirma que, para permitir que a IA melhore a eficiência sem afetar a originalidade dos autores como sujeitos da escrita, atualmente permite que os autores usem IA em três níveis: auxílio de texto - revisão, auxílio criativo - elementos e auxílio criativo - esboço. Ultrapassar esses limites...

Visão geral do Google AI mostra aumento de 25% em referências a vídeos do YouTube, com destaque para o setor de saúde

Um estudo recente da BrightEdge, plataforma de SEO empresarial, revelou que o número de referências ao YouTube na visão geral do Google AI aumentou 25,21% desde 1º de janeiro de 2023. Esse crescimento é particularmente notável no setor de saúde, chamando a atenção da indústria. A pesquisa indica que o YouTube é favorecido na visão geral do Google AI principalmente devido ao seu rico conteúdo educacional, demonstrações visuais, exemplos de validação e notícias atuais. Apesar de um advogado do Google...

Brightpick lança o robô de armazém Giraffe: alcança prateleiras de 20 pés de altura

A Brightpick, fabricante de robôs móveis autônomos (AMRs), anunciou na terça-feira a adição de um produto de ponta à sua linha de produtos: o sistema Giraffe. Este robô se destaca por sua plataforma telescópica única, capaz de alcançar até 20 pés (6 metros) de altura, acessando facilmente o topo das prateleiras de armazéns que são inacessíveis aos AMRs tradicionais e aos humanos. Este design inovador traz uma nova solução para a gestão de armazéns. O cerne do Giraffe é seu braço telescópico, composto por três seções sobrepostas, com um comprimento de 8 pés quando totalmente retraído.