A OpenAI lançou hoje, em sua transmissão ao vivo, o aguardado produto Sora Turbo, marcando um grande avanço no campo da IA generativa em 2024. O Sora Turbo apresenta uma melhoria significativa na eficiência de geração, capaz de gerar vídeos de 1080P com até 20 segundos de duração diretamente a partir de texto, tornando-se um dos modelos de vídeo com maior duração de geração do mundo atualmente. O modelo suporta entrada de texto, imagens ou vídeos, gerando conteúdo de vídeo específico e permitindo maior controle sobre o resultado da geração.

Os destaques tecnológicos do Sora Turbo incluem upscaling, interpolação de quadros e suporte total para jogos HDR, além de duas atualizações de recursos baseadas em GPUs desenvolvidas internamente. A função de interpolação de quadros dinâmica por toque melhora significativamente a precisão da interpolação, reduzindo a distorção da imagem; o modo noturno para jogos aprimora os detalhes em áreas escuras usando algoritmos de IA, melhorando a visibilidade em ambientes escuros e resolvendo problemas de brilho ao jogar em condições de pouca luz.

微信截图_20241210074540.png

Atualmente, o Sora está em fase de uso ilimitado. Para assinantes do ChatGPT Plus e Pro, o uso do Sora é gratuito, uma política considerada muito justa. A OpenAI também desenvolveu uma nova interface de usuário e oferece um serviço de compartilhamento comunitário, permitindo que os usuários compartilhem seus vídeos gerados ou aprendam com as dicas de outras pessoas para aprimorar seus próprios trabalhos.

Os princípios tecnológicos do Sora incluem a aplicação de Patch, permitindo treinamento intensivo em grandes quantidades de dados de imagem e vídeo, e a aplicação de uma rede de compressão de vídeo, reduzindo a dimensionalidade dos dados visuais e melhorando a qualidade de saída.

O Sora também combina modelos de difusão com a arquitetura Transformer, utilizando um método inovador de transformador difusivo que substitui a arquitetura tradicional U-Net, melhorando efetivamente a capacidade de capturar a relação de distribuição entre imagens de entrada e rótulos de texto. Além disso, o Sora introduziu a tecnologia de legendagem de DALL・E3, treinando um modelo de legendagem altamente descritivo para criar legendas de texto para todos os vídeos no conjunto de treinamento, melhorando a fidelidade do texto e a qualidade geral do vídeo.

Endereço para experimentar: https://sora.com/