Meta teria baixado ilegalmente mais de 21 milhões de livros para treinar IA

A Meta enfrenta um processo na justiça dos Estados Unidos movido por autores de livros que teriam sido usados ilegalmente pela companhia para treinar sua inteligência artificial. E um documento com emails trocados pela equipe da empresa pode redefinir os rumos da ação, pois seria a maior evidência até agora de que a dona do Facebook treinou sua IA com livros pirateados.

Foto de um post com a pichação "big data is watching" ChatGPT, Copilot, Deepseek e Gemini: veja quais dados os apps de IA coletam 05/04/2025 | - Entenda quais dados os aplicativos de inteligência artificial coletam do usuário tanto no iOS quanto no Android
Ilustração de uma conversa entre usuário humano e um chatbot de IA Gemini é o chatbot de IA que mais coleta dados, incluindo local físico 14/03/2025 | - Dados analisados pelo Surfshark aponta que principais chatbots coletam, em média, 11 tipos de informações no app para dispositivos móveis; Gemini junta 35 tipos de informações

Em janeiro, a própria Meta chegou a admitir ter baixado um pacote gigantesco de livros da LibGen que inclui dezenas de milhões de cópias piratas. E agora, novas provas deixam o caso ainda pior para a empresa, já que emails trocados pela equipe se tornaram públicos.

“Pelo menos 81,7 terabytes de dados [foram baixados via torrent] por múltiplas bibliotecas pelo site Anna’s Archive, incluindo ao menos 35,7 terabytes de dados da Z-Library e LibGen”, escreveram os autores da ação. Segundo eles, a Meta também havia baixado 80,6 TB de dados da LibGen previamente.

Levando em consideração afirmações da Amazon sobre o armazenamento de um Kindle, são “milhares de livros, revistas e histórias em quadrinho” em um dispositivo de 16 GB. Uma pesquisa um pouco mais aprofundada me levou a uma página de perguntas e respostas dentro da própria Amazon com a seguinte conta:

“Minha pasta com 344 livros ocupa 486 MB. Se a gente pensar em um Kindle 8 GB, isso significa que ele suporta em média 5.660 livros”, ou seja, são mais de cinco mil e seiscentos livros em 8 GB. Se um terabyte tem mil gigabytes, são mais de 700 mil livros em cada TB, e o total do pacote baixado pela Meta pode ter 21,7 milhões de livros. Mas isso é uma conta grosseira que considera cada PDF com menos de 2 MB, sendo que existem arquivos maiores — já vi PDF de livro com mais de 20 MB, por exemplo.

É muito provável que os pacotes incluam livros em vários idiomas e até mesmo outros tipos de arquivos, incluindo artigos científicos.

Os autores do processo alegaram que “a magnitude do esquema ilegal de torrents da Meta é espantosa”. Segundo eles, casos muito inferiores, “apenas 0,008% da quantidade de obras protegidas por direitos autorais pirateadas pela Meta” já levaram a investigações criminais realizadas por procuradores nos EUA.

Mark Zuckerberg teria autorizado downloads ilegais

Os downloads ilegais que teriam sido efetuados pela Meta ainda foram realizados a partir de computadores corporativos da companhia. Além disso, como é normal em um torrent, a companhia também ajudou a oferecer os pacotes piratas via seed, que é a prática de compartilhar seus arquivos baixados via torrent com outras pessoas em busca dos mesmos arquivos.

“Fazer torrent de um laptop corporativo não parece certo”, escreveu o engenheiro de pesquisa da Meta, Nikolay Bashlykov, em abril de 2023, segundo o documento apresentado na ação. Ele até incluiu um emoji sorridente ao final da frase, o que não diminui o impacto da ilegalidade dos atos cometidos pela empresa.

O engenheiro, porém, seguiu questionando a moralidade do que a empresa fazia, e chegou a descartar o uso de emojis em setembro do mesmo ano, ao consultar a equipe jurídica da Meta. “usar torrents resultaria em ‘fazer seed’ dos arquivos – p.ex., compartilhar o conteúdo para fora, isso poderia não ser ok legalmente”, observou.

Livro e pirataria
Facebook teria cometido pirataria para treinar Meta AI (Andres Gomez/Unsplash)

Os questionamentos de Bashlykov foram ignorados até certo ponto. A empresa tentou mascarar a ilegalidade ao não usar servidores da Meta para evitar que pudessem ser rastreados até a companhia. Além disso, as configurações de torrent foram ajustadas para que fosse realizado o mínimo de seed permitido enquanto o download continuava a ser efetuado.

O nome de Mark Zuckerberg não é citado diretamente nos emails, mas há uma mensagem que dá a entender que ele teria autorizado a ação. De acordo com ela, a “decisão de usar a LibGen aconteceu” depois que o caso “escalou até MZ”.

A Meta se defende dizendo que o uso da biblioteca da LibGen foi “uso aceitável”. O “fair use” (termo em inglês), é um conceito da legislação dos EUA que permite o uso de material protegido por direitos autorais em alguns casos. Alguns deles são o uso editorial (jornalístico), educacional (principalmente em salas de aula), crítica, comentário e pesquisa.

Resta saber se o tribunal vai entender assim, visto que a Meta AI (lê-se “méta êi-ái”) possui uso comercial. Sem falar que o volume de dados é gigantesco, a empresa ainda usou para treinar uma tecnologia com a qual pretende lucrar.

Fonte: Ars Technica