Palavra de Sá

terça-feira, 23 de junho de 2026

Bibliocídio: como as big techs queimam livros

Para quem escreve livros que não se tornam best-sellers (com vendas excepcionalmente altas), nem long-sellers (com vendas consistentes e contínuas por longos períodos), nem mesmo sellers propriamente ditos (que vendam um mínimo aceitável), é comum receber, de vez em quando, um e-mail da editora avisando que os exemplares dos nossos livros em estoque serão enviados para a trituradora. Uma vez tomada essa decisão, pouco ou nada pode ser feito. A trituração de livros é, infelizmente, um reflexo muito comum da triste condição do mercado editorial (especialmente dos grandes consórcios que engoliram dezenas de pequenas editoras), das pressões econômicas e fiscais, do espaço limitado nos armazéns e da impaciência corporativa.

No entanto, as grandes editoras não são as únicas empresas que recorrem à destruição em massa de livros. O jornal The Washington Post publicou em janeiro de 2026 que, no início de 2024, a empresa de alta tecnologia Anthropic lançou uma iniciativa de forma praticamente secreta chamada Projeto Panamá. Os detalhes vieram a público com a divulgação de mais de quatro mil páginas de documentos apresentados como provas no processo de direitos autorais movido por um grupo de escritores contra a Anthropic. Esse processo fazia parte de uma série de ações judiciais movidas por artistas, autores, músicos, fotógrafos, designers, ilustradores e outros criadores que sentem que seu trabalho foi usado sem seu conhecimento ou autorização para treinar modelos de IA. Um documento interno de planejamento divulgado na segunda semana de janeiro de 2026 descrevia assim suas intenções: “O Projeto Panamá é nosso esforço para digitalizar de forma destrutiva todos os livros do mundo… Não queremos que se saiba que estamos trabalhando nisso”.

Este e outros documentos jurídicos utilizados em ações judiciais contra várias empresas que desenvolvem modelos de Inteligência Artificial generativa revelaram que a Anthropic e outras empresas de IA estão comprando em livrarias de segunda mão milhões de livros impressos para treinar seus sistemas. Os Grandes Modelos de Linguagem (LLM, na sigla em inglês) requerem textos de “alta qualidade” para treinar suas redes neurais. Isso consiste em fazer com que os modelos processem textos para construir relações estatísticas entre palavras e conceitos. Os programadores consideram que devem ser utilizadas bases de dados de boa “qualidade” (livros e artigos coerentes, bem escritos e editados) para que as capacidades dos modelos aumentem. Utilizar boa literatura proporciona respostas mais bem articuladas, bem como resultados mais eloquentes, precisos e convincentes. Os coordenadores deste projeto concluíram que era muito melhor usar livros do que comentários, opiniões e conversas extraídos de fóruns online, redes sociais ou do YouTube. Os livros, em grande quantidade, e não individualmente, tornaram-se o alvo da ambição dessas empresas que desejam “ensinar os modelos a escrever corretamente e não replicar a linguagem comum da internet”.

Há algo de fábula sórdida e ficção científica sombria nesse processo mecânico de ingestão e digestão literária que nos faz pensar nos clássicos Fahrenheit 451, de Ray Bradbury, e 1984, de George Orwell, mas que também evoca os vilões dos quadrinhos da Marvel que dominaram as telas de cinema nos últimos 20 anos e que alimentaram a imaginação perversa dos bilionários da indústria da tecnologia digital. A IA Claude é uma espécie de Thanos, o monstro destruidor de mundos, capaz de eliminar metade da cultura literária do universo para dar lugar a uma IA infalível.

Um documento legal divulgado descreve que a empresa Anthropic (que em 28 de maio de 2026 foi avaliada em 900 bilhões de dólares) usaria uma cortadora hidráulica de precisão para desarmar livros e recortar as páginas em um tamanho adequado para serem digitalizadas em equipamentos de alta velocidade. Posteriormente, uma empresa de reciclagem recolheria o papel processado. Quase parece comovente que, apesar da imoralidade de suas ações (eles próprios admitem que se trata de uma estratégia perturbadora ou questionável que tentaram manter em segredo), considerem importante reciclar o papel descartado e não simplesmente jogá-lo no lixo; é de se supor que isso sim seria considerado por eles uma imprudência imperdoável. Ao mesmo tempo, os centros de dados de que essas empresas necessitam são consumidores brutais de água e recursos, com um imenso impacto ambiental.

Em um ano, essa empresa gastou dezenas de milhões de dólares para adquirir livros, destruí-los e alimentar com suas palavras, frases e conhecimento os modelos de IA, como o chatbot Claude. De repente, podemos imaginar esses programas bajuladores e obsequiosos à exaustão como vorazes Molochs, trituradores das obras da inteligência e do espírito, como aquele que mantém a cidade em movimento no filme Metropolis, de Fritz Lang. O pensamento e o trabalho de milhares de pessoas ao longo dos séculos, reduzidos pela tecnologia digital e pelo reconhecimento óptico de caracteres a matéria-prima, a estruturas gramaticais e a preditores de palavras.

Continua após o anúncio

Meta, Google, OpenAI, Anthropic e outras empresas estão competindo em uma corrida desenfreada para se apropriar da maior quantidade possível de “conteúdo”, conhecimento, ideias e textos, que consideravam “essenciais para serem competitivas com seus rivais”. Insatisfeitas com seu extrativismo desenfreado, optaram por um recurso ainda mais barato. O cofundador da Anthropic, Ben Mann, encarregou-se de baixar livros de sites piratas online por meio de torrents (um método descentralizado para compartilhar arquivos entre usuários). Assim, obtiveram cerca de cinco milhões de livros do site LibGen e mais cerca de dois milhões da Pirate Library Mirror. Ao mesmo tempo, a empresa Meta, com a aprovação de Mark Zuckerberg (suas iniciais aparecem em um documento interno), também começou a saquear sites de livros clandestinos. Um engenheiro da Meta escreveu em 2023: “Usar torrents em um laptop corporativo não parece certo”, e acrescentou um emoji sorridente.

Para levar adiante esse projeto, a Anthropic contratou Tom Turvey, que foi fundamental na criação do projeto Google Books, iniciado por volta de 2002 com a intenção de digitalizar uma grande quantidade de livros. O projeto do Google foi muito controverso na época, mas sobreviveu a uma série de processos judiciais e ataques. O Google Books (na época em que o lema da empresa ainda era “Don’t be evil” ou “Não seja mau”) empregou um sistema fotográfico não destrutivo com livros emprestados de bibliotecas que depois eram devolvidos. Esse método já havia sido usado anteriormente pelo Internet Archive. A Anthropic, por outro lado, optou por um processo mais barato e rápido, sem se importar com o material original nem com a preservação dos livros.

A digitalização destrutiva é uma prática comum em operações de digitalização; o incomum aqui foi o volume em que isso foi feito e a noção de que muitos livros usados poderiam ser exemplares únicos, raros ou de difícil acesso, que se encontravam em lotes imensos e caóticos, e não em coleções organizadas. Talvez nunca saibamos o que foi destruído. Um grupo de autores escreveu uma carta aberta de protesto contra o uso de seu trabalho: “Em vez de pagar aos escritores uma pequena porcentagem do dinheiro que nosso trabalho lhes gera, outra pessoa será paga por uma tecnologia construída sobre nosso trabalho não remunerado”.

Alguns juízes e especialistas jurídicos consideraram que o uso dessas obras se enquadra em um âmbito legal ainda não definido, enquanto outros acreditam que as empresas de IA não violaram a lei. No que diz respeito aos livros comprados legitimamente, as empresas de IA estão protegidas pelo recurso de “uso legítimo” (fair use). As empresas de IA se basearam na “Doutrina da primeira venda” (first sale doctrine), que autoriza o comprador de um livro a fazer o que quiser com ele. Isso permite a existência de um mercado de livros usados. O juiz William Alsup, do Distrito Norte da Califórnia (que abrange o Vale do Silício), deu razão à Anthropic no que diz respeito ao uso de livros para treinar modelos porque “eles processam o material de forma transformativa” (ao destruir os exemplares comprados legalmente e conservar a versão digital, sem distribuí-la, estavam apenas “economizando espaço por meio de uma conversão de formato, e isso equivalia a uma transformação”). O juiz Vince Chhabria, do mesmo distrito, concluiu que os autores que processavam a Meta não haviam provado que os modelos de IA daquela empresa poderiam prejudicar as vendas de seus livros.

No entanto, a Anthropic foi considerada culpada de violar a lei pelos livros piratas que “acumulou para uso futuro” e, para evitar ir a julgamento, aceitou pagar 1,5 bilhão de. dólares (3 mil d por cada um dos 500.000 livros) em agosto passado, sem admitir ter cometido qualquer crime. Dario Amodei, diretor executivo da Anthropic, tentou evitar o que ele mesmo chamou de “o tédio jurídico, prático e empresarial”, ou seja, as complexas negociações de licenças com as editoras. Ao comprar livros físicos, ele contornava completamente as licenças e negociações. A posição da Anthropic é que seus modelos não tentam replicar nem suplantar as obras nas quais são treinados, mas sim criar algo diferente. Eventualmente, eles serão penalizados (se é que isso realmente acontecerá) pela forma como obtiveram algumas das obras e não pelo uso que deram a elas.

Em junho de 2025, a OpenAI e a Microsoft anunciaram que trabalhariam com as bibliotecas de Harvard para digitalizar, de forma não destrutiva, milhões de livros de domínio público que datam do século XV. Isso, possivelmente, visa fazer com que sua tentativa de se apropriar de livros caia no esquecimento e apagando os rastros de sua existência. A única maneira de conhecer certas obras (boas, ruins, medíocres ou como quer que sejam) será consultando esses modelos generativos de IA que as engoliram.

Não há dúvida de que os livros são um problema: pesam muito, ocupam espaço demais, são frágeis e, no entanto, representam talvez melhor do que qualquer outro meio nossa forma mais acessível de adquirir conhecimento, prazer e nos aproximarmos da beleza. Quando os transformamos em uma espécie de forragem ou combustível para as máquinas, evaporamos universos inteiros. Estamos em um momento em que os bros multimilionários da tecnologia nos prometem construir ideias e argumentos a partir dos escombros da cultura. Não é por acaso que isso ocorra em uma era de renovadas censuras e proibições de livros e em um tempo de genocídio, domicídio e urbicídio. O impulso da indústria tecnológica nos empurra para a normalização do bibliocídio.

Fonte: CTXT

Nenhum comentário:

Postar um comentário