A Meta enfrenta um processo na justiça dos Estados Unidos movido por autores de livros que teriam sido usados ilegalmente pela companhia para treinar sua inteligência artificial. E um documento com emails trocados pela equipe da empresa pode redefinir os rumos da ação, pois seria a maior evidência até agora de que a dona do Facebook treinou sua IA com livros pirateados.


Em janeiro, a própria Meta chegou a admitir ter baixado um pacote gigantesco de livros da LibGen que inclui dezenas de milhões de cópias piratas. E agora, novas provas deixam o caso ainda pior para a empresa, já que emails trocados pela equipe se tornaram públicos.
“Pelo menos 81,7 terabytes de dados [foram baixados via torrent] por múltiplas bibliotecas pelo site Anna’s Archive, incluindo ao menos 35,7 terabytes de dados da Z-Library e LibGen”, escreveram os autores da ação. Segundo eles, a Meta também havia baixado 80,6 TB de dados da LibGen previamente.
Levando em consideração afirmações da Amazon sobre o armazenamento de um Kindle, são “milhares de livros, revistas e histórias em quadrinho” em um dispositivo de 16 GB. Uma pesquisa um pouco mais aprofundada me levou a uma página de perguntas e respostas dentro da própria Amazon com a seguinte conta:
“Minha pasta com 344 livros ocupa 486 MB. Se a gente pensar em um Kindle 8 GB, isso significa que ele suporta em média 5.660 livros”, ou seja, são mais de cinco mil e seiscentos livros em 8 GB. Se um terabyte tem mil gigabytes, são mais de 700 mil livros em cada TB, e o total do pacote baixado pela Meta pode ter 21,7 milhões de livros. Mas isso é uma conta grosseira que considera cada PDF com menos de 2 MB, sendo que existem arquivos maiores — já vi PDF de livro com mais de 20 MB, por exemplo.
É muito provável que os pacotes incluam livros em vários idiomas e até mesmo outros tipos de arquivos, incluindo artigos científicos.
Os autores do processo alegaram que “a magnitude do esquema ilegal de torrents da Meta é espantosa”. Segundo eles, casos muito inferiores, “apenas 0,008% da quantidade de obras protegidas por direitos autorais pirateadas pela Meta” já levaram a investigações criminais realizadas por procuradores nos EUA.
Mark Zuckerberg teria autorizado downloads ilegais
Os downloads ilegais que teriam sido efetuados pela Meta ainda foram realizados a partir de computadores corporativos da companhia. Além disso, como é normal em um torrent, a companhia também ajudou a oferecer os pacotes piratas via seed, que é a prática de compartilhar seus arquivos baixados via torrent com outras pessoas em busca dos mesmos arquivos.
“Fazer torrent de um laptop corporativo não parece certo”, escreveu o engenheiro de pesquisa da Meta, Nikolay Bashlykov, em abril de 2023, segundo o documento apresentado na ação. Ele até incluiu um emoji sorridente ao final da frase, o que não diminui o impacto da ilegalidade dos atos cometidos pela empresa.
O engenheiro, porém, seguiu questionando a moralidade do que a empresa fazia, e chegou a descartar o uso de emojis em setembro do mesmo ano, ao consultar a equipe jurídica da Meta. “usar torrents resultaria em ‘fazer seed’ dos arquivos – p.ex., compartilhar o conteúdo para fora, isso poderia não ser ok legalmente”, observou.

Os questionamentos de Bashlykov foram ignorados até certo ponto. A empresa tentou mascarar a ilegalidade ao não usar servidores da Meta para evitar que pudessem ser rastreados até a companhia. Além disso, as configurações de torrent foram ajustadas para que fosse realizado o mínimo de seed permitido enquanto o download continuava a ser efetuado.
O nome de Mark Zuckerberg não é citado diretamente nos emails, mas há uma mensagem que dá a entender que ele teria autorizado a ação. De acordo com ela, a “decisão de usar a LibGen aconteceu” depois que o caso “escalou até MZ”.
A Meta se defende dizendo que o uso da biblioteca da LibGen foi “uso aceitável”. O “fair use” (termo em inglês), é um conceito da legislação dos EUA que permite o uso de material protegido por direitos autorais em alguns casos. Alguns deles são o uso editorial (jornalístico), educacional (principalmente em salas de aula), crítica, comentário e pesquisa.
Resta saber se o tribunal vai entender assim, visto que a Meta AI (lê-se “méta êi-ái”) possui uso comercial. Sem falar que o volume de dados é gigantesco, a empresa ainda usou para treinar uma tecnologia com a qual pretende lucrar.
Fonte: Ars Technica