Milhões de faixas estão disponíveis gratuitamente em conjuntos de dados, mesmo que não devessem estar.
Milhões de faixas estão disponíveis gratuitamente em conjuntos de dados, mesmo que não devessem estar.
O repórter da Atlantic, Alex Reisner, descobriu recentemente quatro conjuntos de dados de música usados para treinar modelos de IA e os tornou totalmente pesquisáveis para o público. Dois dos conjuntos são absolutamente enormes, com 12 milhões e 9 milhões de faixas. Os outros dois são muito menores, mas ainda representam uma quantidade significativa de dados de treinamento com mais de 100.000 músicas cada.
De acordo com Reisner, os conjuntos foram baixados milhares de vezes e, embora seja impossível saber exatamente quem os usou, o Google e o Stability confirmaram isso em artigos de pesquisa. Algumas das fontes, como o conjunto de dados Free Music Archive, são gratuitas para transmissão para uso pessoal, mas exigem licenciamento para aplicações comerciais.
Embora, em teoria, os conjuntos de dados estejam disponíveis gratuitamente na Internet, usá-los como dados de treinamento não é tão simples quanto baixar um arquivo ZIP e alimentá-lo em um modelo de IA. Como explica Reisner:
“Três dos conjuntos de dados que encontrei são distribuídos como uma lista de links para músicas no YouTube ou Spotify. Os desenvolvedores de IA baixam o áudio real usando ferramentas que automatizam o trabalho, algumas das quais permitem aos desenvolvedores contornar logins, anúncios e mecanismos que podem ganhar dinheiro ou assinantes para os criadores.
Os nomes que aparecem no conjunto de dados variam de estrelas pop como Lady Gaga
e Fred Again.., para Radiohead, Aphex Twin, Wu-Tang Clan, Bruce Springsteen e o compositor experimental Hainbach. Você pode acessar o site AI Watchdog da Atlantic e pesquisar músicas, livros e outras mídias usadas para treinar você mesmo os modelos de IA do mundo.
Mais em: Todas as novidades em ‘música’ de IA
Este é o título do anúncio nativo


