No mundo digital em que vivemos, a inteligência artificial (IA) tem assumido um papel cada vez mais central, transformando-se numa ferramenta indispensável em diversas áreas, desde o atendimento ao cliente até à criação de conteúdo. Os chatbots, em particular, têm maravilhado muitos com as suas capacidades de interação quase humanas. No entanto, por trás dessa fachada de eficiência, esconde-se uma realidade menos conhecida: a sua insaciável fome por dados.
Recentemente, uma investigação do The New York Times trouxe à luz uma prática surpreendente da OpenAI, a empresa por trás do modelo de linguagem GPT-4.
Aparentemente, a empresa esgotou todas as fontes confiáveis de textos em inglês disponíveis na internet até o final de 2021. Diante da necessidade de mais dados para aprimorar o seu sistema, a OpenAI adotou uma estratégia inusitada: a transcrição de um milhão de horas de vídeos do YouTube através do modelo de IA Whisper. Este método permitiu-lhes obter uma quantidade significativa de texto para alimentar o voraz GPT-4.
Contudo, essa estratégia levanta questões importantes sobre direitos autorais. A OpenAI estava ciente de que a legalidade do método era questionável, mas isso não impediu a sua implementação. Uma porta-voz da empresa mencionou ao The Verge que eles filtram conjuntos de dados “únicos” para manter a competitividade global em pesquisa, sem, contudo, referir-se especificamente à transcrição de vídeos do YouTube.
Não é apenas a OpenAI que se encontra nesta encruzilhada. O Google também recorreu a práticas semelhantes com o seu modelo de IA Gemini, transcrevendo vídeos do YouTube e, potencialmente, violando os direitos autorais dos criadores de conteúdo. Por outro lado, a Meta, de Mark Zuckerberg, que desenvolve o Llama 2, considerou comprar a editora Simon & Schuster para obter acesso a textos de alta qualidade e debateram a possibilidade de coletar dados protegidos por direitos autorais na internet, mesmo que isso implicasse enfrentar ações judiciais.
Diante das possíveis implicações legais, algumas empresas começaram a perceber que negociar licenças para usar essas fontes de dados pode ser uma abordagem mais segura. Google e OpenAI, por exemplo, têm feito acordos com plataformas como Reddit e com alguns meios de comunicação para utilizar legalmente os seus conteúdos.
Olhando para o futuro, uma opção que está a ser considerada é o treino com dados sintéticos, ou seja, dados gerados pelos próprios modelos de IA. Esta abordagem ainda está em fase de teste e espera-se que possa oferecer uma alternativa viável para o treino de sistemas de IA sem esbarrar em questões legais.
Na minha opinião, a adoção de dados sintéticos pode ser uma solução promissora, desde que a qualidade e a eficácia desses dados sejam comprovadas. Além disso, a negociação de licenças parece ser um caminho mais ético e sustentável a longo prazo. A tecnologia deve servir à sociedade de forma responsável, e isso inclui respeitar o trabalho criativo de indivíduos e empresas. Afinal, a inovação não deve ser um atropelo aos direitos, mas sim uma harmonia entre o progresso e a justiça.
Por Tiago Carvalho