Meta teria baixado ilegalmente mais de 21 milhões de livros para treinar IA

A Meta enfrenta um processo na justiça dos Estados Unidos movido por autores de livros que teriam sido usados ilegalmente pela companhia para treinar sua inteligência artificial. E um documento com emails trocados pela equipe da empresa pode redefinir os rumos da ação, pois seria a maior evidência até agora de que a dona do Facebook treinou sua IA com livros pirateados.

TikTok Odeia IA? TikTok terá controle para esconder esse tipo de conteúdo do feed 19/11/2025 | - Plataforma anuncia teste para usuários escolherem se querem ver mais ou menos conteúdo gerado por IA na rede social
diVine app diVine traz vídeos de seis segundos do Vine de volta e quer manter IA de fora 19/11/2025 | - Projeto é apoiado financeiramente por co-fundador do Twitter e resgatou cerca de 100.000 publicações da plataforma encerrada em 2017

Em janeiro, a própria Meta chegou a admitir ter baixado um pacote gigantesco de livros da LibGen que inclui dezenas de milhões de cópias piratas. E agora, novas provas deixam o caso ainda pior para a empresa, já que emails trocados pela equipe se tornaram públicos.

“Pelo menos 81,7 terabytes de dados [foram baixados via torrent] por múltiplas bibliotecas pelo site Anna’s Archive, incluindo ao menos 35,7 terabytes de dados da Z-Library e LibGen”, escreveram os autores da ação. Segundo eles, a Meta também havia baixado 80,6 TB de dados da LibGen previamente.

Levando em consideração afirmações da Amazon sobre o armazenamento de um Kindle, são “milhares de livros, revistas e histórias em quadrinho” em um dispositivo de 16 GB. Uma pesquisa um pouco mais aprofundada me levou a uma página de perguntas e respostas dentro da própria Amazon com a seguinte conta:

“Minha pasta com 344 livros ocupa 486 MB. Se a gente pensar em um Kindle 8 GB, isso significa que ele suporta em média 5.660 livros”, ou seja, são mais de cinco mil e seiscentos livros em 8 GB. Se um terabyte tem mil gigabytes, são mais de 700 mil livros em cada TB, e o total do pacote baixado pela Meta pode ter 21,7 milhões de livros. Mas isso é uma conta grosseira que considera cada PDF com menos de 2 MB, sendo que existem arquivos maiores — já vi PDF de livro com mais de 20 MB, por exemplo.

É muito provável que os pacotes incluam livros em vários idiomas e até mesmo outros tipos de arquivos, incluindo artigos científicos.

Os autores do processo alegaram que “a magnitude do esquema ilegal de torrents da Meta é espantosa”. Segundo eles, casos muito inferiores, “apenas 0,008% da quantidade de obras protegidas por direitos autorais pirateadas pela Meta” já levaram a investigações criminais realizadas por procuradores nos EUA.

Mark Zuckerberg teria autorizado downloads ilegais

Os downloads ilegais que teriam sido efetuados pela Meta ainda foram realizados a partir de computadores corporativos da companhia. Além disso, como é normal em um torrent, a companhia também ajudou a oferecer os pacotes piratas via seed, que é a prática de compartilhar seus arquivos baixados via torrent com outras pessoas em busca dos mesmos arquivos.

“Fazer torrent de um laptop corporativo não parece certo”, escreveu o engenheiro de pesquisa da Meta, Nikolay Bashlykov, em abril de 2023, segundo o documento apresentado na ação. Ele até incluiu um emoji sorridente ao final da frase, o que não diminui o impacto da ilegalidade dos atos cometidos pela empresa.

O engenheiro, porém, seguiu questionando a moralidade do que a empresa fazia, e chegou a descartar o uso de emojis em setembro do mesmo ano, ao consultar a equipe jurídica da Meta. “usar torrents resultaria em ‘fazer seed’ dos arquivos – p.ex., compartilhar o conteúdo para fora, isso poderia não ser ok legalmente”, observou.

Livro e pirataria
Facebook teria cometido pirataria para treinar Meta AI (Andres Gomez/Unsplash)

Os questionamentos de Bashlykov foram ignorados até certo ponto. A empresa tentou mascarar a ilegalidade ao não usar servidores da Meta para evitar que pudessem ser rastreados até a companhia. Além disso, as configurações de torrent foram ajustadas para que fosse realizado o mínimo de seed permitido enquanto o download continuava a ser efetuado.

O nome de Mark Zuckerberg não é citado diretamente nos emails, mas há uma mensagem que dá a entender que ele teria autorizado a ação. De acordo com ela, a “decisão de usar a LibGen aconteceu” depois que o caso “escalou até MZ”.

A Meta se defende dizendo que o uso da biblioteca da LibGen foi “uso aceitável”. O “fair use” (termo em inglês), é um conceito da legislação dos EUA que permite o uso de material protegido por direitos autorais em alguns casos. Alguns deles são o uso editorial (jornalístico), educacional (principalmente em salas de aula), crítica, comentário e pesquisa.

Resta saber se o tribunal vai entender assim, visto que a Meta AI (lê-se “méta êi-ái”) possui uso comercial. Sem falar que o volume de dados é gigantesco, a empresa ainda usou para treinar uma tecnologia com a qual pretende lucrar.

Fonte: Ars Technica