Recientemente, Meta ha lanzado discretamente seis resultados de investigación que aportan nuevas aplicaciones y avances tecnológicos al campo de la IA. Estos incluyen modelos multimodales, modelos de generación de música a partir de texto, tecnología de marcas de agua de audio, conjuntos de datos y otros proyectos. A continuación, veamos en detalle estos resultados de investigación.

Meta Chameleon (modelo "camaleón")

En primer lugar, el modelo multimodal "Chameleon" puede procesar simultáneamente texto e imágenes, admite la entrada y salida mixtas de texto, ofreciendo una solución completamente nueva para el procesamiento de datos multimodales.

Si bien la mayoría de los modelos de fusión posterior actuales utilizan el aprendizaje basado en difusión, Meta Chameleon utiliza la tokenización para texto e imágenes. Esto permite un método más unificado y hace que el modelo sea más fácil de diseñar, mantener y ampliar.

Ejemplo de video: generación de títulos creativos de imágenes o creación de una escena completamente nueva utilizando una mezcla de indicaciones de texto e imágenes.

Actualmente, Meta publicará los componentes clave de los modelos Chameleon 7B y 34B bajo licencia de investigación. Los modelos publicados actualmente han sido ajustados por seguridad, admiten entrada de modo mixto y salida de texto puro, y se pueden utilizar con fines de investigación. La empresa enfatiza que no se publicará el modelo de generación de imágenes de Chameleon.

Acceso al producto: https://top.aibase.com/tool/meta-chameleon

Predicción de múltiples tokens (Multi-Token Prediction)

El nuevo método de entrenamiento de modelos de lenguaje "Predicción de múltiples tokens" tiene como objetivo mejorar la capacidad y la eficiencia del entrenamiento del modelo, haciendo que el modelo prediga varias palabras a la vez, lo que mejora la precisión de la predicción del modelo.

image.png

Utilizando este método, se puede entrenar un modelo de lenguaje para predecir simultáneamente varias palabras futuras, en lugar del método anterior de predecir una palabra cada vez. Esto mejora la capacidad y la eficiencia del entrenamiento del modelo, al mismo tiempo que aumenta la velocidad. Con un espíritu de ciencia abierta responsable, el modelo preentrenado se publicará bajo una licencia de uso no comercial/investigación para la finalización de código.

Acceso al producto: https://top.aibase.com/tool/multi-token-prediction

Modelo de generación de música a partir de texto "JASCO"

image.png

Si bien los modelos existentes de texto a música (como MusicGen) se basan principalmente en la entrada de texto para generar música, el nuevo modelo de Meta, "JASCO" (acrónimo en inglés para "Meta Joint Audio and Symbolic Conditioning for Time-Controlled Text-to-Music Generation"), puede aceptar varias entradas condicionales, como acordes o ritmos específicos, para mejorar el control de la salida musical generada. Específicamente, se puede utilizar una capa de cuello de botella de información junto con un desenfoque temporal para extraer información relacionada con un control específico. Esto permite combinar simultáneamente condiciones simbólicas y basadas en audio en el mismo modelo de generación de música a partir de texto.

JASCO es comparable a la línea de base de evaluación en términos de calidad de generación, al tiempo que permite un control mejor y más flexible de la música generada. Se publicará un artículo de investigación y páginas de ejemplo, y el código de inferencia se lanzará a finales de este mes bajo la licencia MIT como parte del repositorio AudioCraft, y los modelos preentrenados bajo la licencia CC-BY-NC.

Acceso al código: https://top.aibase.com/tool/audiocraft

Tecnología de marca de agua de audio "AudioSeal"

image.png

Esta es la primera tecnología de marca de agua de audio diseñada específicamente para la detección localizada de voz generada por IA, pudiendo localizar con precisión los fragmentos generados por IA en fragmentos de audio más largos. AudioSeal mejora las marcas de agua de audio tradicionales al centrarse en la detección de contenido generado por IA en lugar de la esteganografía.

A diferencia de los métodos tradicionales que dependen de algoritmos de decodificación complejos, el método de detección localizada de AudioSeal permite una detección más rápida y eficiente. Este diseño aumenta la velocidad de detección en 485 veces en comparación con los métodos anteriores, lo que lo hace ideal para aplicaciones a gran escala y en tiempo real. Nuestro método logra un rendimiento de vanguardia en la solidez y la imperceptibilidad de las marcas de agua de audio.

AudioSeal se publica bajo licencia comercial.

Acceso al producto: https://top.aibase.com/tool/audioseal

Conjunto de datos PRISM

Simultáneamente, Meta también ha publicado el conjunto de datos PRISM, en colaboración con socios externos, que contiene datos de conversación y preferencias de 1500 participantes de todo el mundo, para mejorar los modelos de lenguaje grandes, mejorando así la diversidad de conversaciones, la diversidad de preferencias y los beneficios sociales del modelo.

image.png

Este conjunto de datos mapea las preferencias y la retroalimentación granular de cada persona en 8011 conversaciones en tiempo real con 21 LLM diferentes.

Acceso al conjunto de datos: https://huggingface.co/datasets/HannahRoseKirk/prism-alignment

Indicador "DIG In"

image.png

Se utiliza para evaluar las diferencias geográficas existentes en los modelos de generación de imágenes a partir de texto, proporcionando más datos de referencia para la mejora del modelo. Para comprender cómo difieren las perspectivas de las personas de diferentes regiones sobre la representación geográfica, Meta realizó un estudio de anotación a gran escala. Recopilamos más de 65,000 anotaciones y más de 20 respuestas a encuestas por ejemplo, que abarcan el atractivo, la similitud, la coherencia y las sugerencias compartidas, para mejorar la evaluación automática y manual de los modelos de texto a imagen.

Acceso al código: https://top.aibase.com/tool/dig-in

El lanzamiento de estos proyectos aporta nuevos avances tecnológicos y perspectivas de aplicación al campo de la IA, lo que es de gran importancia para impulsar el desarrollo y la aplicación de la tecnología de IA.