Nvidia apresenta Fugatto: um modelo de IA para modificação e geração de áudio

A Nvidia revelou Fugatto, um modelo de inteligência artificial (IA) desenvolvido para modificar vozes e criar novos sons, com foco em produtores de música, cinema e videogames, segundo informações da Reuters.

O modelo, cujo nome completo é Foundational Generative Audio Transformer Opus 1, tem a capacidade de gerar efeitos sonoros e composições musicais a partir de descrições em texto.

Com sede na Califórnia, nos Estados Unidos, a Nvidia declarou que, por enquanto, não há planos imediatos de disponibilizar publicamente o Fugatto.

A tecnologia se junta a avanços similares de startups como Runway e de grandes empresas como a Meta Platforms, que também desenvolvem soluções capazes de gerar áudio ou vídeo a partir de comandos em texto.

Diferenciais do Fugatto

Uma das características que distingue o Fugatto é sua habilidade de modificar áudios já existentes. De acordo com a publicação, o modelo pode, por exemplo, transformar uma melodia de piano em uma voz humana ou alterar o sotaque e a entonação de palavras faladas.

Essas funcionalidades colocam o Fugatto em destaque em relação a outras tecnologias de IA disponíveis no mercado.

O modelo da Nvidia foi treinado utilizando dados de código aberto, e a empresa ainda está avaliando a melhor maneira de torná-lo acessível ao público.

Impactos na indústria criativa

O vice-presidente de pesquisa em aprendizado profundo da Nvidia, Bryan Catanzaro, destacou o impacto da tecnologia no setor criativo: “Se pensarmos no áudio sintético dos últimos 50 anos, a música soa diferente hoje por causa dos computadores e sintetizadores. Acredito que a IA generativa trará novas capacidades para a música, os videogames e para pessoas comuns que desejam criar algo novo.”

Apesar de suas promessas, a IA generativa enfrenta desafios significativos, como o risco de uso indevido, seja na geração de desinformação ou na violação de direitos autorais.

Tanto a OpenAI quanto a Meta também não definiram datas para lançar ao público seus modelos de geração de áudio ou vídeo.

Cuidados e precauções

Catanzaro enfatizou a necessidade de cautela: “Qualquer tecnologia generativa carrega alguns riscos, pois pode ser usada para criar coisas que preferiríamos que não fossem criadas. Precisamos ser cuidadosos com isso, e por isso não temos planos imediatos de lançar essa tecnologia.”

Na semana passada, a Nvidia firmou uma parceria com a Quantum-Si, uma empresa de tecnologia de sequenciamento de proteínas, para desenvolver a plataforma de proteômica Proteus, utilizando IA e computação acelerada.

Essa notícia foi originalmente publicada pela Verdict, uma marca do grupo GlobalData.