Meta lanza herramienta de IA que genera canciones instantáneas a partir de texto
Meta ha lanzado AudioCraft, una nueva suite de modelos de inteligencia artificial que generan música y audio basados en indicaciones de texto, según anunció la compañía el pasado miércoles 2 de agosto.
La tecnología consta de tres modelos: MusicGen (música), AudioGen (efectos de sonido) y EnCodec (música de mayor calidad). Esto representa una nueva competencia para MusicLM de Google, un generador de texto a música que fue lanzado en mayo.
Utilizando indicaciones como «música con alma para una cena» o «escena de película en un desierto con percusión», los usuarios pueden generar música con solo hacer clic en un botón. Según el anuncio de la compañía, ven esta tecnología como un «nuevo tipo de instrumento, al igual que los sintetizadores cuando aparecieron por primera vez».
MusicGen, el modelo de la suite AudioCraft que produce música, fue entrenado con 20,000 horas de música propiedad de Meta y con licencia específica. El anuncio no es claro en cuanto a si EnCodec fue entrenado con material con derechos de autor o si sigue las mismas pautas que MusicGen.
El entrenamiento es uno de los aspectos más controversiales de la industria de la IA incipiente. Para producir resultados de calidad humana, los modelos de IA se entrenan con millones o miles de millones de puntos de datos para aprender las características de lo que están replicando, y muchas de las principales compañías de IA del mundo entrenan sus modelos con material con derechos de autor sin autorización, compensación o incluso conocimiento de los propietarios de los derechos de autor.
MusicGen, AudioGen y EnCodec estarán disponibles como modelos de código abierto. Esto permitirá a los investigadores y profesionales acceder para que puedan entrenar sus propios modelos con sus propios conjuntos de datos, llevando las herramientas de AudioCraft aún más allá del lanzamiento inicial de Meta y abordando las preocupaciones de la compañía sobre sesgos, incluida su inclinación por la música de estilo occidental, que constituye la mayor parte de su conjunto de entrenamiento.
«La música es quizás el tipo de audio más desafiante de generar, ya que está compuesta por patrones locales y de largo alcance, desde una serie de notas hasta una estructura musical global con múltiples instrumentos», dijo Meta en una publicación de blog, destacando que su familia de modelos es «capaz de producir audio de alta calidad» con consistencia y facilidad de uso.