Avatar

Sergio Ramos

3 de agosto de 2023

Qué es y cómo funciona AudioCraft, la nueva IA de código libre de Meta

Generar sonidos, pistas de audio, efectos, entre otras opciones, a partir de simples indicaciones de texto, son algunas de las posibilidades de esta IA de Meta.

Meta ha anunciado la liberación de su herramienta de inteligencia artificial generativa a partir de texto de código libre. En este caso la compañía le apuesta al audio generado por IA como una solución que podría ser útil para diversos profesionales e industrias, aunque también se cuestiona sobre cómo esta podría terminar afectando la música y a los productores.

Ya hemos visto impresionantes avances del poder de la inteligencia artificial generativa para crear imágenes y videos a partir de texto, crear escritos, ensayos, poemas, y hasta canciones, pero la próxima industria en ser impactada es la musical, un mercado que ya ha manifestado su preocupación por el alcance que la IA puede tener incluso para copiar la voz de artistas globales, mientras que cada vez es más sencillo crear pistas en base a una breve explicación del resultado que se desea obtener.

Relacionado: Cómo la inteligencia artificial está impactando la industria de la música

AudioCraft ahora estará al alcance de más personas bajo la modalidad de código libre “para fines de investigación y para mejorar la comprensión de la tecnología por parte de las personas”, según aseguró la empresa.

“Imagina a un músico profesional capaz de explorar nuevas composiciones sin tener que tocar una sola nota en un instrumento. O un desarrollador de juegos independientes que puebla mundos virtuales con efectos de sonido realistas y ruido ambiental con un presupuesto reducido. Esa es la promesa de AudioCraft, nuestro marco simple que genera audio y música realistas y de alta calidad a partir de entradas de usuario basadas en texto”, explicó Meta.

El anuncio indica que esta tecnología consta de tres modelos: MusicGen, AudioGen y EnCodec, todos ellos con una función específica.

En el caso de MusicGen, se trata de un modelo entrenado con música propiedad de Meta y específicamente licenciada, el cual es capaz de generar música a partir de entradas de usuario basadas en texto. Por su parte, AudioGen, que fue entrenado en efectos de sonido públicos, puede generar audio a partir de entradas de usuario basadas en texto, incluyendo sonidos ambientales y efectos de sonido como el ladrido de un perro, la bocina de un auto o pasos sobre un piso de madera. Finalmente, Meta dice que ahora está disponible una versión mejorada del decodificador EnCodec, que permite la generación de música de mayor calidad con menos artefactos.

Con AudioCraft, Meta espera revolucionar la interpretación de texto a audio con facilidad y hacer más sencillas las cosas a la hora de crear audio, aunque por obvias razones la industria en general no ve con buenos ojos este tipo de herramientas.

Avatar

Sergio Ramos

Editor en Social Geek, y contribuidor en Entrepreneur y Forbes en Español. Experto en temas de tecnología que disfruta aprendiendo sobre startups, emprendimiento e innovación.

Relacionados