Já pensou em compor uma música ou efeitos sonoros sem precisar tocar algum instrumento? Você poderia criar músicas para seus vídeos, efeitos sonoros para jogos e muito mais, rapidamente e com baixo custo. É exatamente essa a proposta do AudioCraft, uma IA compositora de músicas e todo tipo de áudio criada pela Meta.
Como funciona esta IA compositora de músicas?
O AudioCraft foi lançado oficialmente no dia 2 de agosto, um grande diferencial que apresenta é seu código aberto. Escrito em Python, o programa tem a licença MIT, sendo assim, pode ser estudado e modificado por qualquer um, para atender a propósitos específicos e aprimorar suas capacidades.
Ele é composto por três partes principais:
- MusicGen, treinado com cerca de 20 mil horas de músicas licenciadas pela Meta, além de prompts e metadados, consegue gerar músicas a partir de comandos em texto;
- AudioGen, treinado com efeitos sonoros públicos, consegue criar sons, a partir de comandos em texto;
- EnCoded, a última peça a ser criada para constituir o AudioCraft, consegue aprimorar a qualidade das músicas geradas, corrigindo inconsistências entre amostras e inclusive, removendo artefatos. Segundo a empresa, ele alcança uma taxa de compressão 10x maior do que o MP3 a 64 kbps, sem perda de qualidade e poderá revolucionar o streaming de áudio.
Já estamos nos acostumando com as inteligências artificiais generativas de imagens e textos. Mas a criação de sons pode ser ordens de grandeza mais complicado, principalmente quando falamos de música, que envolve uma série de padrões longos e curtos, entre diferentes instrumentos. Em comparação, enquanto um modelo de geração de textos perpassa alguns milhares de passos para cada amostra, para a geração de áudio são alguns milhões.
Esta não é a primeira inteligência artificial do tipo, em 2020, a OpenAI lançou sua Jukebox. Em dezembro de 2022, uma equipe de pesquisadores independentes mostrou ao mundo o Riffusion, baseado no Stable Diffusion e em janeiro de 2023, o Google mostrou ao mundo o MusicLM.
A política da Meta em utilizar apenas músicas licenciadas, além de sons em domínio público para o treinamento da sua inteligência artificial ameniza a apreensão de criadores terem seus produtos copiados.
O que poderemos fazer com o AudioCraft?
Uma funcionalidade fundamental do AudioCraft é a geração de músicas e sons a partir de comandos em textos, dessa forma, você pode pedir um “samba-rock com tambores de aço”, ou “passos sobre uma superfície arenosa” e obterá algo pelo menos aproximado. Além disso, você ainda pode utilizar para comprimir suas músicas.
Até o momento, não há nenhum site que ofereça o AudioCraft completo para utilizar diretamente da nuvem de forma gratuita, mas pelo HuggingFace, você pode testar o MusicGen para criar amostras de 12 segundos, inclusive com prompts em português e a possibilidade de adicionar algum arquivo de áudio para a inteligência se basear.
Entretanto, você pode baixar o AudioCraft e rodar diretamente no seu computador, caso tenha uma placa de vídeo com ao menos 16 GB de VRAM, o Python 3.9 e o PyTorch 2.0.0. Há três opções para baixar o AudioCraft:
- Small, com 300 milhões de parâmetros, capaz de apenas gerar músicas a partir de textos. Apresenta resultados rapidamente, mas com menor qualidade;
- Medium, com 1,5 bilhão de parâmetros, também apenas gera música partir de textos, com mais precisão e menos velocidade;
- Melody, também possui 1,5 bilhão de parâmetros, mas é mais lento e pesado do que o anterior, por aceitar a entrada de áudio, além do texto;
- Large, a opção mais pesada faz tudo o que a anterior, mas com 3,3 bilhões de parâmetros, oferecendo melhores resultados.
A intenção é que, assim como ocorreu com os sintetizadores nos anos 80, essa inteligência artificial se torne mais um instrumento para você conseguir por para fora suas ideias, se expressar e se inspirar.
Você utiliza alguma inteligência artificial generativa no dia a dia? Conte para a gente nos comentários e interaja com a comunidade do fórum Diolinux Plus!