A inteligência artificial (IA) tem sido um tópico de debate intenso e contínuo, especialmente no que diz respeito à violação de direitos de autor e licenças de código aberto. Empresas de tecnologia têm sido acusadas de usar uma quantidade significativa de material de várias fontes para treinar os seus modelos de IA, levantando questões sobre a legalidade dessas práticas. A Meta (anteriormente conhecida como Facebook) admitiu recentemente que usou o conjunto de dados Books3, supostamente pirata, para treinar os seus modelos de IA.
Aprofundando na questão, a Meta confirmou que usou o Books3 para treinar os seus modelos de linguagem de grande escala (LLM), Llama 1 e Llama 2. O Books3 consiste numa colecção de mais de 195.000 livros em texto simples, ocupando aproximadamente 37 gigabytes. Foi criado por um investigador chamado Shawn Presser com o objetivo de fornecer material para melhorar os algoritmos de aprendizagem automática.
Em termos simples, a Meta está a treinar os seus LLMs com material protegido por direitos de autor sem ter pago ou pedido permissão para o fazer. Esta situação é semelhante à recente acção judicial do The New York Times contra a Microsoft e a OpenAI. O jornal acusou as empresas de usar o seu conteúdo jornalístico para construir produtos substitutos sem permissão ou pagamento.
A admissão da Meta de que está a usar material supostamente pirata para treinar os seus LLMs não foi um ato de honestidade, mas sim o resultado de uma acção judicial interposta por um grupo de autores contra a gigante tecnológica. A empresa contactou alguns desses autores, incluindo Sarah Silverman e Richard Kadrey, para admitir os factos.
A disponibilidade de conteúdo para o público não significa que seja de domínio público ou que possa ser usado por qualquer pessoa sob qualquer condição. No entanto, com a IA, não estamos a falar de entretenimento pessoal, mas sim de empresas que ganham dinheiro, directa ou indiretamente, usando material protegido por direitos de autor sem permissão ou violando licenças de código aberto.
A Microsoft, GitHub e OpenAI foram também processadas no Outono de 2022 por violar licenças e direitos de autor com o GitHub Copilot. De acordo com o queixoso, Matthew Butterick, as três empresas violaram um total de onze licenças de código aberto, incluindo MIT, GPL e Apache 2, que exigem a atribuição de nome e direitos de autor.
A questão da utilização de material protegido por direitos de autor para treinar modelos de IA está a gerar um debate significativo. Para além das regulamentações que estão a ser promovidas pela União Europeia, é possível que muitos países se baseiem numa decisão da Suprema Corte dos Estados Unidos para orientar as suas acções em relação à IA.
Na minha opinião, as empresas de tecnologia devem ser responsabilizadas pelo uso de material protegido por direitos de autor e devem ser exigidas a obter a devida permissão antes de usar tal material para fins comerciais. Além disso, acredito que é crucial que haja um debate global sobre estas questões para garantir que a IA seja desenvolvida e utilizada de uma forma que respeite os direitos de autor e as licenças de código aberto.
Por Techspot