A equipe de modelos de grande linguagem da ByteDance fez mais um feito: seu modelo Depth Anything V2 foi incluído na biblioteca Core ML da Apple. Este sucesso não apenas representa um avanço tecnológico, mas também destaca o fato de que o líder do projeto era um estagiário.

O Depth Anything V2 é um modelo de estimativa de profundidade monocular, capaz de calcular informações de profundidade de uma cena a partir de uma única imagem. Desde sua versão V1, lançada no início de 2024, até a atual V2, a quantidade de parâmetros aumentou de 25M para 1,3B, expandindo sua aplicação para áreas como efeitos visuais, direção autônoma, modelagem 3D e realidade aumentada.

QQ截图20240711163254.jpg

O modelo já recebeu 8,7 mil estrelas no GitHub, com a versão V2 alcançando 2,3 mil estrelas pouco após seu lançamento, enquanto a V1 acumulou 6,4 mil estrelas. Este é um resultado notável para qualquer equipe de tecnologia, especialmente considerando que o principal responsável é um estagiário.

A inclusão do Depth Anything V2 na biblioteca Core ML da Apple demonstra o alto reconhecimento do desempenho e do potencial do modelo. O Core ML, framework de aprendizado de máquina da Apple, permite que modelos de aprendizado de máquina sejam executados de forma eficiente em dispositivos iOS e macOS, permitindo a execução de tarefas de IA complexas mesmo sem conexão com a internet.

image.png

A versão Core ML do Depth Anything V2 utiliza pelo menos um modelo de 25M, otimizado pela equipe oficial do HuggingFace, alcançando uma velocidade de inferência de 31,1 milissegundos no iPhone 12 Pro Max. Este modelo, juntamente com outros selecionados como FastViT, ResNet50 e YOLOv3, abrange diversas áreas, do processamento de linguagem natural ao reconhecimento de imagens.

Na onda dos modelos de grande linguagem, o valor das Leis de Escalonamento (Scaling Laws) é cada vez mais reconhecido. A equipe do Depth Anything optou por construir um modelo básico simples, porém poderoso, para obter melhores resultados em uma única tarefa. Eles acreditam que usar as Leis de Escalonamento para resolver problemas fundamentais tem maior valor prático. A estimativa de profundidade, uma tarefa importante na visão computacional, que infere a distância dos objetos em uma cena a partir de uma imagem, é crucial para aplicações como direção autônoma, modelagem 3D e realidade aumentada. O Depth Anything V2 não apenas tem amplas perspectivas de aplicação nessas áreas, mas também pode ser integrado como middleware em plataformas de vídeo ou softwares de edição, suportando a criação de efeitos especiais e edição de vídeo. O principal autor do projeto Depth Anything é um estagiário da equipe, que, sob a orientação de seu mentor, concluiu a maior parte do trabalho, desde a concepção do projeto até a redação do artigo, em menos de um ano. A empresa e a equipe proporcionaram um ambiente de pesquisa livre e apoio total, incentivando o estagiário a explorar problemas mais desafiadores e fundamentais.

O crescimento deste estagiário e o sucesso do Depth Anything V2 demonstram não apenas o esforço e o talento individual, mas também a exploração aprofundada da ByteDance em geração visual e modelos de grande linguagem, além de seu investimento em desenvolvimento de talentos.

Endereço do projeto: https://top.aibase.com/tool/depth-anything-v2