Meta lanza AudioCraft: generación de audio y música de alta calidad a partir de texto 

AudioCraft ,MusicGen , AudioGen , AudioCraft , Text-to-Sound ,This AudiGen , Text-to-Music, programapublicidad,

Meta ha anunciado el lanzamiento de AudioCraft, plataforma de código abierto que proporciona modelos generativos de audio de alta calidad para música, efectos de sonido tras  entrenar con señales de audio sin procesar.

La nueva herramienta representa un avance significativo en el desarrollo de sistemas de IA interactivos que permiten a las personas co-crear fácilmente con modelos de IA

Se trata de Meta AI Music Generator, llamada AudioCraft, un nuevo código de inteligencia artificial desarrollado y lanzado por Meta para captar el interés de los músicos profesionales, creadores y anunciantes. 

La herramienta señala que combina tres modelos de creación de sonido basados en IA, para generar contenido de audio desde mensajes de texto generativos.

AudioCraft consta de tres modelos principales: MusicGen, AudioGen y EnCodec.

MusicGen: Genera música a partir de entradas de texto.

AudioGen: Crea efectos de sonido como risas, ladridos de perros, pasos, etc., a partir de indicaciones escritas.

Decodificador EnCodec de Meta: Invita a los usuarios a crear generaciones de música de mayor calidad con menos manipulación.

MusicGen, entrenado con música propiedad de Meta y con licencia específica, genera música a partir de entradas de texto proporcionadas por el usuario.

Por otro lado, AudioGen, entrenado en efectos de sonido públicos, genera audio a partir de las mismas entradas de texto.

EnCodec, fundamental para la construcción de MusicGen y AudioGen, es un códec de audio de alta fidelidad en tiempo real que utiliza redes neuronales para comprimir cualquier tipo de audio y reconstruir la señal original con alta fidelidad. Se ha propuesto un enfoque basado en la difusión para EnCodec, lo que permite reconstruir el audio a partir de la representación comprimida con menos artefactos.

La simplicidad y eficacia parecen ser la clave de AudioCraft.

Los modelos MusicGen y AudioGen están diseñados con un enfoque autoregresivo y utilizan un único modelo de lenguaje que opera sobre secuencias de representaciones discretas de música comprimida. Esta metodología permite capturar de manera eficiente conclusiones en el audio, a largo plazo , lo que a su vez garantiza una generación de audio de alta calidad.

Además, AudioCraft ofrece un único código base para desarrollar modelos generativos de audio, brindando un marco unificado para la construcción de modelos auto-regresivos con condicionamiento y conjunto de datos arbitrarios. Se espera que esta herramienta fomente la investigación y la innovación en diversas aplicaciones.

En los demos proporcionados por AudioCraft, se pueden apreciar las capacidades de Text-to-Sound (Texto a Sonido) y Text-to-Music (Texto a Música). El modelo AudioGen es capaz de generar sonidos ambientales realistas a partir de descripciones textuales de escenas acústicas, mientras que MusicGen está específicamente diseñado para generar música, permitiendo un mayor control sobre la salida generada.

El objetivo de esta herramienta es proporcionar a los músicos profesionales la posibilidad de explorar nuevas composiciones sin necesidad de tocar un solo instrumento. También se dirige a desarrolladores independientes de juegos que buscan añadir efectos de sonido realistas y ruido ambiental a mundos virtuales con un presupuesto reducido. Incluso para propietarios de pequeñas empresas que buscan agregar una banda sonora a sus publicaciones de Instagram de manera sencilla.

Dado que el código de AudioCraft es de código abierto, Meta espera que investigadores y profesionales lo utilicen para entrenar sus propios modelos con conjuntos de datos personalizados y ayudar a avanzar en el campo de la inteligencia artificial aplicada a la creación musical.

Pero Meta reconoce que sus modelos están entrenados en conjuntos de datos que carecen de diversidad. La compañía destaca la importancia de abordar el sesgo potencial y el mal uso de los modelos generativos y espera que al compartir el código de AudioCraft, otros investigadores puedan probar nuevos enfoques para limitar o eliminar este sesgo.

Algunos sellos discográficos y artistas musicales han expresado preocupación por el uso de modelos generativos de IA debido a problemas de infracción de derechos de autor. Sin embargo, Meta cree que AudioCraft podría convertirse en un nuevo tipo de instrumento y tener un impacto similar al que los sintetizadores tuvieron en la música electrónica.

El desarrollo de AudioCraft por parte de Meta fue impulsado en parte por la falta de entusiasmo previo por el uso de IA generativa para la producción de audio, mientras Google y OpenAI también han entrado al terreno con herramientas como MusicLM y Jukebox, sin olvidar  Riffusion. Jukebox de OpenAI,  ha causado polémica por versionar las voces de artistas famosos.

SUSCRÍBETE AL BOLETÍN

Regístrate para recibir las últimas novedades del Programa de La Publicidad en tu email