Tecnología
Meta lanza la IA generativa AudioCraft, diseñada para generar audio y música a partir de texto
Meta ha reconocido que "generar audio a partir de señales sin procesar es un desafío"
Meta ha creado una herramienta de Inteligencia Artificial (IA) generativa llamada AudioCraft, que está diseñada para generar audio y música a partir de entradas de texto y que se entrena con señales de audio sin procesar.
AudioCraft engloba tres modelos de lenguaje: EnCodec, AudioGen y MusicGen, siendo esta última la que presentó el pasado mes de junio como un modelo simple de lenguaje desarrollado bajo un enfoque de una sola etapa de patrones de tokens eficientes entrelazados.
En este caso, Meta ha recordado que MusicGen es un modelo entrenado con música propiedad de la compañía y con licencia específica, que genera música a partir de entradas de usuario basadas en texto.
AudioGen, por su parte, se entrenó con efectos de sonido de uso público y genera audio a partir de entradas de usuario basadas en texto. Finalmente, el decodificador EnCodec, permite "generar música de mayor calidad con menos artificios". Todos estos modelos están disponibles para fines de investigación.
Meta ha reconocido que, si vien los modelos de lenguaje de IA generativa han generado expectación y demostrado "habilidades excepcionales", no se ha mostrado el mismo interés por la IA generativa de audio.
Esto podría deberse a "que la música es el tipo de audio más difícil de generar porque se compone de patrones locales y de largo alcance, desde un conjunto de notas hasta una estructura musical global con múltiples instrumentos", según ha comentado en el anuncio de AudioCraft.
Además de porque "la música es el tipo de audio más difícil de generar porque se compone de patrones locales y de largo alcance", los enfoques con los que se ha abordado su creación a través de IA generativa han sido "incapaces de captar completamente los matices expresivos y los elementos estilísticos".
En este sentido, la familia de modelos AudioCrafy es capaz de producir audio de alta calidad con consistencia a largo plazo y ofrece una interfaz "natural" con un diseño simplificado para mejorar la experiencia de usuario.
Esta herramienta de IA generativa de música y sonido de código abierto, que también ofrece la capacidad de compresión, permite que los usuarios trabajen sobre la misma base de código bien construir sobre lo que otros han hecho.
De ese modo, estos creadores pueden ampliar estos modelos y adaptarlos a sus casos de uso para la investigación, para lo que Meta ofrece "posibilidades casi ilimitadas", según este documento.
CÓMO FUNCIONA
Meta ha reconocido que "generar audio a partir de señales sin procesar es un desafío", debido a que requiere modelar secuencias "extremadamente largas". Como respuesta a este desafío, la compañía emplea tokens de audio sin procesar utilizando EnCodec, que le brina un nuevo vocabulario para las muestras de música.
"Luego, podemos entrenar modelos de lenguaje autorregresivos sobre estos tokens de audio discretos para generar nuevos tokens y nuevos sonidos y música al convertirlos nuevamente al espacio de audio con el decodificador", ha aclarado la compañía.
La compañía utiliza un solo modelo de lenguaje autorregresivo para modelar los tokens de audio y los entrelaza, modelando así "eficientemente las secuencias de audio, capturando simultáneamente las dependencias a largo plazo en el audio", lo que le permite generar sonido de alta calidad.
AudioGen, por su parte, genera el sonido ambiental correspondiente a la descripción del texto, con aspecto realista, mientras que MusicGen se encarga de generar las pistas de música, que son más complejas que los sonidos ambientales que ofrece AudioGen.
Meta ha matizado finalmente que AudioCraft es una herramienta de código abierto que responde a su concepto de innovación responsable, que "no puede ocurrir de forma aislada" y debe garantizar que todos los investigadores tengan acceso a ella.