RF-DETR é um modelo de detecção de objetos em tempo real, de código aberto e de ponta, criado pela equipe Roboflow. Se você está se frustrando com a velocidade ou precisão dos modelos YOLO, parabéns, a solução chegou!
O RF-DETR visa o topo da detecção em tempo real e, generosamente, é de código aberto, permitindo uso gratuito e até mesmo modificações para criar seu próprio "olho de águia".
Imagine seu sistema de monitoramento inteligente agindo como um detetive experiente, capturando instantaneamente cada objeto crucial em um fluxo de vídeo, com uma velocidade surpreendente. O RF-DETR é esse detetive eficiente. Ele não apenas compete, mas até supera modelos em tempo real anteriores em velocidade, e alcança um salto qualitativo na precisão.
De acordo com dados oficiais, o RF-DETR é o primeiro modelo em tempo real a atingir mais de 60% de mAP (média de precisão média) no conjunto de dados COCO. Considerando que o COCO é a "Olimpíada" da visão computacional, esse resultado demonstra a força do RF-DETR!
Mais importante ainda, o RF-DETR mantém alta precisão sem sacrificar a velocidade. Ele alcança uma latência surpreendentemente baixa na GPU, tornando a detecção em tempo real viável. Isso é crucial para aplicações que exigem resposta rápida, como direção autônoma, inspeção industrial e segurança inteligente. Imagine seu robô identificando e pegando objetos com incrível rapidez – o aumento de eficiência é significativo!
Os modelos YOLO baseados em CNN têm sido importantes na detecção de objetos em tempo real. Mas a tecnologia evolui. O RF-DETR, membro da família DETR (Detection Transformer), usa arquitetura baseada em Transformer. Essa arquitetura modela melhor as informações globais, resultando em maior precisão em cenários complexos.
Ao contrário dos modelos YOLO, que precisam de supressão de máximo não-máximo (NMS) para filtrar caixas delimitadoras, o DETR não precisa dessa etapa, aumentando a eficiência. A equipe Roboflow considerou a latência do NMS em seus testes, usando o conceito de "latência total" para comparar modelos imparcialmente. O RF-DETR mostrou-se competitivo em velocidade e precisão, sendo estritamente Pareto ótimo em relação aos modelos YOLO no conjunto de dados COCO.
O RF-DETR não abandona completamente as vantagens das CNNs. Muitos métodos excelentes de visão computacional, incluindo variantes avançadas de DETR, combinam as vantagens de CNNs e Transformers. O RF-DETR combina LW-DETR com uma rede principal DINOv2 pré-treinada, alcançando desempenho excepcional e grande adaptabilidade a diferentes domínios. Isso significa que o RF-DETR se destaca em reconhecimento de objetos comuns e em áreas mais especializadas, como imagens aeroespaciais, ambientes industriais e paisagens naturais.
O mais empolgante é que o RF-DETR é de código aberto! Ele segue a licença Apache2.0, permitindo que desenvolvedores usem, modifiquem e até mesmo o apliquem em projetos comerciais sem problemas de direitos autorais. A equipe Roboflow disponibilizou o código do modelo e um Colab Notebook que ensina como fazer ajuste fino (fine-tuning) em conjuntos de dados personalizados. A plataforma Roboflow oferecerá suporte mais fácil para treinamento e implantação do RF-DETR no futuro.
A equipe Roboflow lançou os modelos RF-DETR-base (29 milhões de parâmetros) e RF-DETR-large (128 milhões de parâmetros), para atender a diferentes necessidades computacionais. O RF-DETR também suporta treinamento em múltiplas resoluções, permitindo ajustar a resolução em tempo de execução para equilibrar precisão e latência.
Projeto:https://top.aibase.com/tool/rf-detr