Bibliocídio:
como as big techs queimam livros
Para
quem escreve livros que não se tornam best-sellers (com vendas excepcionalmente
altas), nem long-sellers (com vendas consistentes e contínuas por longos
períodos), nem mesmo sellers propriamente ditos (que vendam um mínimo
aceitável), é comum receber, de vez em quando, um e-mail da editora avisando
que os exemplares dos nossos livros em estoque serão enviados para a
trituradora. Uma vez tomada essa decisão, pouco ou nada pode ser feito. A
trituração de livros é, infelizmente, um reflexo muito comum da triste condição
do mercado editorial (especialmente dos grandes consórcios que engoliram
dezenas de pequenas editoras), das pressões econômicas e fiscais, do espaço
limitado nos armazéns e da impaciência corporativa.
No
entanto, as grandes editoras não são as únicas empresas que recorrem à
destruição em massa de livros. O jornal The Washington Post publicou em janeiro
de 2026 que, no início de 2024, a empresa de alta tecnologia Anthropic lançou
uma iniciativa de forma praticamente secreta chamada Projeto Panamá. Os
detalhes vieram a público com a divulgação de mais de quatro mil páginas de
documentos apresentados como provas no processo de direitos autorais movido por
um grupo de escritores contra a Anthropic. Esse processo fazia parte de uma
série de ações judiciais movidas por artistas, autores, músicos, fotógrafos,
designers, ilustradores e outros criadores que sentem que seu trabalho foi
usado sem seu conhecimento ou autorização para treinar modelos de IA. Um documento
interno de planejamento divulgado na segunda semana de janeiro de 2026
descrevia assim suas intenções: “O Projeto Panamá é nosso esforço para
digitalizar de forma destrutiva todos os livros do mundo… Não queremos que se
saiba que estamos trabalhando nisso”.
Este e
outros documentos jurídicos utilizados em ações judiciais contra várias
empresas que desenvolvem modelos de Inteligência Artificial generativa
revelaram que a Anthropic e outras empresas de IA estão comprando em livrarias
de segunda mão milhões de livros impressos para treinar seus sistemas. Os
Grandes Modelos de Linguagem (LLM, na sigla em inglês) requerem textos de “alta
qualidade” para treinar suas redes neurais. Isso consiste em fazer com que os
modelos processem textos para construir relações estatísticas entre palavras e
conceitos. Os programadores consideram que devem ser utilizadas bases de dados
de boa “qualidade” (livros e artigos coerentes, bem escritos e editados) para
que as capacidades dos modelos aumentem. Utilizar boa literatura proporciona
respostas mais bem articuladas, bem como resultados mais eloquentes, precisos e
convincentes. Os coordenadores deste projeto concluíram que era muito melhor
usar livros do que comentários, opiniões e conversas extraídos de fóruns
online, redes sociais ou do YouTube. Os livros, em grande quantidade, e não
individualmente, tornaram-se o alvo da ambição dessas empresas que desejam
“ensinar os modelos a escrever corretamente e não replicar a linguagem comum da
internet”.
Há algo
de fábula sórdida e ficção científica sombria nesse processo mecânico de
ingestão e digestão literária que nos faz pensar nos clássicos Fahrenheit 451,
de Ray Bradbury, e 1984, de George Orwell, mas que também evoca os vilões dos
quadrinhos da Marvel que dominaram as telas de cinema nos últimos 20 anos e que
alimentaram a imaginação perversa dos bilionários da indústria da tecnologia
digital. A IA Claude é uma espécie de Thanos, o monstro destruidor de mundos,
capaz de eliminar metade da cultura literária do universo para dar lugar a uma
IA infalível.
Um
documento legal divulgado descreve que a empresa Anthropic (que em 28 de maio
de 2026 foi avaliada em 900 bilhões de dólares) usaria uma cortadora hidráulica
de precisão para desarmar livros e recortar as páginas em um tamanho adequado
para serem digitalizadas em equipamentos de alta velocidade. Posteriormente,
uma empresa de reciclagem recolheria o papel processado. Quase parece comovente
que, apesar da imoralidade de suas ações (eles próprios admitem que se trata de
uma estratégia perturbadora ou questionável que tentaram manter em segredo),
considerem importante reciclar o papel descartado e não simplesmente jogá-lo no
lixo; é de se supor que isso sim seria considerado por eles uma imprudência
imperdoável. Ao mesmo tempo, os centros de dados de que essas empresas
necessitam são consumidores brutais de água e recursos, com um imenso impacto
ambiental.
Em um
ano, essa empresa gastou dezenas de milhões de dólares para adquirir livros,
destruí-los e alimentar com suas palavras, frases e conhecimento os modelos de
IA, como o chatbot Claude. De repente, podemos imaginar esses programas
bajuladores e obsequiosos à exaustão como vorazes Molochs, trituradores das
obras da inteligência e do espírito, como aquele que mantém a cidade em
movimento no filme Metropolis, de Fritz Lang. O pensamento e o trabalho de
milhares de pessoas ao longo dos séculos, reduzidos pela tecnologia digital e
pelo reconhecimento óptico de caracteres a matéria-prima, a estruturas
gramaticais e a preditores de palavras.
Continua
após o anúncio
Meta,
Google, OpenAI, Anthropic e outras empresas estão competindo em uma corrida
desenfreada para se apropriar da maior quantidade possível de “conteúdo”,
conhecimento, ideias e textos, que consideravam “essenciais para serem
competitivas com seus rivais”. Insatisfeitas com seu extrativismo desenfreado,
optaram por um recurso ainda mais barato. O cofundador da Anthropic, Ben Mann,
encarregou-se de baixar livros de sites piratas online por meio de torrents (um
método descentralizado para compartilhar arquivos entre usuários). Assim,
obtiveram cerca de cinco milhões de livros do site LibGen e mais cerca de dois
milhões da Pirate Library Mirror. Ao mesmo tempo, a empresa Meta, com a
aprovação de Mark Zuckerberg (suas iniciais aparecem em um documento interno),
também começou a saquear sites de livros clandestinos. Um engenheiro da Meta
escreveu em 2023: “Usar torrents em um laptop corporativo não parece certo”, e
acrescentou um emoji sorridente.
Para
levar adiante esse projeto, a Anthropic contratou Tom Turvey, que foi
fundamental na criação do projeto Google Books, iniciado por volta de 2002 com
a intenção de digitalizar uma grande quantidade de livros. O projeto do Google
foi muito controverso na época, mas sobreviveu a uma série de processos
judiciais e ataques. O Google Books (na época em que o lema da empresa ainda
era “Don’t be evil” ou “Não seja mau”) empregou um sistema fotográfico não
destrutivo com livros emprestados de bibliotecas que depois eram devolvidos.
Esse método já havia sido usado anteriormente pelo Internet Archive. A
Anthropic, por outro lado, optou por um processo mais barato e rápido, sem se
importar com o material original nem com a preservação dos livros.
A
digitalização destrutiva é uma prática comum em operações de digitalização; o
incomum aqui foi o volume em que isso foi feito e a noção de que muitos livros
usados poderiam ser exemplares únicos, raros ou de difícil acesso, que se
encontravam em lotes imensos e caóticos, e não em coleções organizadas. Talvez
nunca saibamos o que foi destruído. Um grupo de autores escreveu uma carta
aberta de protesto contra o uso de seu trabalho: “Em vez de pagar aos
escritores uma pequena porcentagem do dinheiro que nosso trabalho lhes gera,
outra pessoa será paga por uma tecnologia construída sobre nosso trabalho não
remunerado”.
Alguns
juízes e especialistas jurídicos consideraram que o uso dessas obras se
enquadra em um âmbito legal ainda não definido, enquanto outros acreditam que
as empresas de IA não violaram a lei. No que diz respeito aos livros comprados
legitimamente, as empresas de IA estão protegidas pelo recurso de “uso
legítimo” (fair use). As empresas de IA se basearam na “Doutrina da primeira
venda” (first sale doctrine), que autoriza o comprador de um livro a fazer o
que quiser com ele. Isso permite a existência de um mercado de livros usados. O
juiz William Alsup, do Distrito Norte da Califórnia (que abrange o Vale do
Silício), deu razão à Anthropic no que diz respeito ao uso de livros para
treinar modelos porque “eles processam o material de forma transformativa” (ao
destruir os exemplares comprados legalmente e conservar a versão digital, sem
distribuí-la, estavam apenas “economizando espaço por meio de uma conversão de
formato, e isso equivalia a uma transformação”). O juiz Vince Chhabria, do
mesmo distrito, concluiu que os autores que processavam a Meta não haviam
provado que os modelos de IA daquela empresa poderiam prejudicar as vendas de
seus livros.
No
entanto, a Anthropic foi considerada culpada de violar a lei pelos livros
piratas que “acumulou para uso futuro” e, para evitar ir a julgamento, aceitou
pagar 1,5 bilhão de. dólares (3 mil d por cada um dos 500.000 livros) em agosto
passado, sem admitir ter cometido qualquer crime. Dario Amodei, diretor
executivo da Anthropic, tentou evitar o que ele mesmo chamou de “o tédio
jurídico, prático e empresarial”, ou seja, as complexas negociações de licenças
com as editoras. Ao comprar livros físicos, ele contornava completamente as
licenças e negociações. A posição da Anthropic é que seus modelos não tentam
replicar nem suplantar as obras nas quais são treinados, mas sim criar algo
diferente. Eventualmente, eles serão penalizados (se é que isso realmente acontecerá)
pela forma como obtiveram algumas das obras e não pelo uso que deram a elas.
Em
junho de 2025, a OpenAI e a Microsoft anunciaram que trabalhariam com as
bibliotecas de Harvard para digitalizar, de forma não destrutiva, milhões de
livros de domínio público que datam do século XV. Isso, possivelmente, visa
fazer com que sua tentativa de se apropriar de livros caia no esquecimento e
apagando os rastros de sua existência. A única maneira de conhecer certas obras
(boas, ruins, medíocres ou como quer que sejam) será consultando esses modelos
generativos de IA que as engoliram.
Não há
dúvida de que os livros são um problema: pesam muito, ocupam espaço demais, são
frágeis e, no entanto, representam talvez melhor do que qualquer outro meio
nossa forma mais acessível de adquirir conhecimento, prazer e nos aproximarmos
da beleza. Quando os transformamos em uma espécie de forragem ou combustível
para as máquinas, evaporamos universos inteiros. Estamos em um momento em que
os bros multimilionários da tecnologia nos prometem construir ideias e
argumentos a partir dos escombros da cultura. Não é por acaso que isso ocorra
em uma era de renovadas censuras e proibições de livros e em um tempo de
genocídio, domicídio e urbicídio. O impulso da indústria tecnológica nos
empurra para a normalização do bibliocídio.
Fonte:
CTXT

Nenhum comentário:
Postar um comentário