2022/10/01

Empresas ignoram direitos de autor para treinar AI

As impressionantes capacidades dos modelos de AI mais recentes, capazes de gerar textos, imagens e até vídeos, usam centenas de milhões de conteúdos - muitas vezes sem qualquer consideração pelos direitos de autor.

Utilize-se alguns segundos de uma música, um vídeo comercial, ou até uma única foto, e está-se sujeito a ficar imediatamente marcado como um "criminoso" nas plataformas digitais e ser alvo de ameças do encerramento da conta; mas quando se trata dos gigantes tecnológicos tirarem partido de centenas de milhões de fotos e de outros conteúdos do público em geral, as coisas são bem diferentes.

Para criar modelos como o Dall-E 2, o Google Imagem, o Stable Diffusion, ou o GPT-3, foi necessário treiná-los com muitos milhões de exemplos. E, invariavelmente, esses exemplos são retirados, sem dó nem piedade, dos conteúdos que estão disponíveis na internet. A questão desta origem dos dados começa a dar que falar, levando à criação de ferramentas que até permitem pesquisar se temos imagens nossas nessas imensas bases de dados usadas para treinar AIs. E, sem grandes surpresas, gigantes como a Google, Meta e outros, já se estão a precaver contra isso. Em vez de tratarem da criação desses modelos, sub-contratam o serviço para grupos de investigação ou universidades, que com mais facilidade poderão argumentar um uso legítimo dos dados para efeitos não comerciais - mesmo se posteriormente os seus modelos acabam por servir de base a produtos que serão comerciais.

Faz-nos pensar um pouco mais no real custo dos serviços "gratuitos" que agradecem que enviemos fotos, vídeos, e tudo o mais, para a cloud.

Sem comentários:

Enviar um comentário (problemas a comentar?)