Das Etna-Modell nutzt eine Diffusionsarchitektur und kombiniert diese mit räumlich-zeitlichen Faltungen und Aufmerksamkeitsschichten. Dadurch kann es Videodaten verarbeiten, zeitliche Kontinuität verstehen und Videos mit zeitlicher Dimension generieren. Das Modell wurde auf einem großen Videodatenbestand trainiert und nutzt Strategien des Deep Learnings, darunter groß angelegtes Training, Hyperparameteroptimierung und Feintuning, um eine hohe Leistungsfähigkeit und generative Qualität zu gewährleisten.