Por que
parte do arquivo da internet está desaparecendo para sempre (e o que está sendo
feito para evitar isso)
Os
fragmentos remanescentes de papiros, mosaicos e tábuas de cera da Antiguidade
nos ensinam o que os moradores de Pompeia comiam no café da manhã, 2 mil anos
atrás.
Aprendendo
um pouco de latim medieval, é possível saber quantos animais eram criados no
século 11, nas fazendas de Northumberland, no norte da Inglaterra, graças ao
Domesday Book – o documento mais antigo dos Arquivos Nacionais do Reino Unido.
Cartas
e romances remanescentes mostram como era a vida social na era vitoriana – e
quais eram as pessoas mais adoradas ou odiadas da época, no Reino Unido.
Mas
os historiadores do futuro podem enfrentar dificuldades para entender
totalmente como vivemos hoje, no início do século 21.
O
motivo: a combinação da nossa forma de vida digital com a falta de esforços
oficiais para arquivar as informações que o mundo produz hoje em dia pode
apagar a nossa história.
Mas
um grupo informal de organizações vem combatendo as forças da entropia digital.
Muitas delas são operadas por voluntários, com pouco apoio institucional.
O
maior símbolo da luta para salvar a web é o Internet Archive, uma organização
sem fins lucrativos sediada em São Francisco, na Califórnia (EUA).
Criada
em 1996 como um projeto apaixonado do pioneiro da internet Brewster Kahle, a
organização criou o que pode ser o mais ambicioso projeto de arquivo digital já
realizado.
São
866 bilhões de páginas web, 44 milhões de livros, 10,6 milhões de vídeos com
filmes e programas de televisão – e muito mais.
Abrigadas
em diversos centros de dados espalhados pelo mundo, as coleções do Internet
Archive e outros grupos similares são tudo o que temos para evitar a amnésia
digital.
"Os
riscos são muitos. Não é só a tecnologia que pode falhar, embora isso
certamente aconteça", afirma Mark Graham, diretor da Wayback Machine – uma
ferramenta do Internet Archive que coleta e armazena cópias de websites para a
posteridade.
"O
mais importante é que as instituições falham, as empresas fecham. As
organizações jornalísticas são devoradas por outras organizações jornalísticas
ou saem do ar, como é cada vez mais frequente", exemplifica ele.
Graham
destaca que existem inúmeros incentivos para colocar conteúdo online, mas são
poucas as razões que fazem as companhias manterem este conteúdo por longo
prazo.
Mesmo
com todos os feitos já realizados, o Internet Archive e organizações similares
enfrentam ameaças financeiras, dificuldades técnicas, ciberataques e batalhas
jurídicas geradas por empresas que não gostam da ideia de ver cópias da sua
propriedade intelectual disponíveis gratuitamente.
E,
como mostram as recentes derrotas na Justiça, o projeto de salvar a internet
pode ser tão volátil quanto o próprio conteúdo que ele tenta proteger.
"Cada
vez mais, nossos esforços intelectuais, nosso entretenimento, nossas notícias e
nossas conversas existem apenas no ambiente digital", explica Graham.
"Este ambiente é inerentemente frágil."
• Salvar nossa
história
Um
quarto de todas as páginas web que já existiram em algum momento entre 2013 e
2023... não existem mais.
Esta
é a conclusão de um estudo recente do think tank (centro de pesquisa e debates)
Pew Research Center, com sede na capital americana, Washington DC. Suas
conclusões fizeram soar o alarme: nossa história digital está desaparecendo.
Os
pesquisadores concluíram que o problema se agrava, quanto mais antiga for uma
página web. A organização tentou acessar páginas existentes em 2013 – e 38%
delas não funcionam mais.
Mas
este também é um problema das publicações mais recentes. Cerca de 8% das
páginas web publicadas em algum momento de 2023 desapareceram em outubro do
mesmo ano.
Esta
não é apenas uma preocupação dos admiradores da história e dos obcecados pela
internet. O estudo indicou, por exemplo, que um em cada cinco websites
governamentais contém pelo menos um link quebrado.
O
Pew Research Center também descobriu que mais da metade dos artigos da
Wikipédia tem um link quebrado na sua seção de referências. Ou seja, as
evidências que sustentam as informações da enciclopédia online estão lentamente
se desintegrando.
Mas,
graças ao trabalho do Internet Archive, nem todos esses links quebrados ficaram
inacessíveis. O projeto Wayback Machine vem destacando exércitos de robôs para
rastrear os tortuosos labirintos da internet há décadas.
O
sistema baixa cópias funcionais de websites à medida que eles mudam ao longo do
tempo. Muitas vezes, eles capturam as mesmas páginas diversas vezes em um único
dia e as oferecem ao público sem custo.
"Quando
observamos quantos daquelas URLs foram oferecidas pelo Wayback Machine,
verificamos que dois terços eram disponíveis de alguma forma", ele conta.
Isso indica que o Internet Archive está cumprindo sua função, guardando
registros da sociedade online para a posteridade.
Outras
organizações, grandes e pequenas, trabalham com projetos similares.
A
Biblioteca do Congresso dos Estados Unidos, por exemplo, preserva websites
governamentais, os sites dos congressistas e uma coleção de sites jornalísticos
norte-americanos. A Biblioteca do Congresso também preservou uma cópia de cada
tweet enviado desde a fundação do Twitter (hoje, conhecido como X), até o
encerramento do projeto, em 2017.
Outros
governos conduzem suas próprias iniciativas. O UK Web Archive, da Biblioteca
Britânica, rastreia anualmente os websites com nomes de domínio .uk,
preservando uma cópia da internet britânica pelo menos uma vez por ano.
Em
2022, um grupo de voluntários se propôs a salvar a internet ucraniana, quando
ela foi atingida por ciberataques russos.
Mas
o escopo destes projetos é pequeno e o Internet Archive procura ter uma
cobertura mais abrangente.
Com
os recursos disponíveis, seria impossível chegar perto de preservar toda a
internet, mas seus sistemas definiram uma ampla rede.
E,
dependendo do que você esteja procurando, a coleção do Internet Archive é tão
vasta que, às vezes, parece um registro funcional e completo da World Wide Web.
• O sucesso
traz complacência
Os
documentos do Archive disponíveis ao público ajudam a manter o registro das
nossas vidas na era atual.
A
Wikipédia adotou, como prática padrão, mencionar as cópias de websites do
Wayback Machine e não os próprios websites originais. E a organização também
preserva uma vasta coleção de gravações anteriores à era digital.
A
adorada série de TV americana Fernwood 2 Night (1977), por exemplo, não está
disponível em nenhum serviço de streaming, mas você pode assistir de graça no
Internet Archive.
Livros,
revistas e websites mencionam as cópias digitais de livros do Internet Archive,
indisponíveis nas bibliotecas físicas.
O
projeto age até como ferramenta de preservação para o público. Qualquer pessoa
pode carregar vídeos, websites e praticamente qualquer coisa para os servidores
da organização.
Entre
as principais coleções preservadas pela Wayback Machine, encontram-se vastos
registros de websites criados no GeoCities – um antigo serviço de hospedagem de
sites, agora extinto.
Muito
antes das redes sociais, o GeoCities foi uma das primeiras plataformas que
possibilitavam a qualquer pessoa criar o seu próprio website.
Os
historiadores da internet consideram o GeoCities um dos capítulos mais
importantes dos primórdios da World Wide Web – e, sem o trabalho do Internet
Archive, a maior parte dos seus sites teria sido perdida.
Mais
recentemente, uma comissão do Congresso dos Estados Unidos adotou o Internet
Archive para preservar artigos e documentos relativos ao ataque ao Capitólio,
em 6 de janeiro de 2021.
"De
tempos em tempos, surge uma nova plataforma e as forças econômicas rapidamente
meio que a destroem", afirma Andrew Jackson, arquiteto técnico de
registros de preservação da Coalizão para a Preservação Digital, um grupo
ativista e organização filantrópica britânica que orienta como preservar os
arquivos digitais online. "É uma grande fonte de rotatividade."
O
website jornalístico especializado em tecnologia CNET sofreu pressões em 2023,
após informações de que a empresa excluiu dezenas de milhares de artigos,
causando a perda de décadas de história.
Entre
as respostas do site, veio a indicação de que todos os seus artigos excluídos
foram preservados na Wayback Machine.
Muitos
críticos acusaram a empresa de ter transferido para o Internet Archive sua
responsabilidade de manutenção dos arquivos.
"O
Google e outros mecanismos de busca incentivam ativamente a manutenção de URLs
estáveis, mas, tecnicamente, é algo bastante difícil", explica Jackson.
"Sempre que uma nova empresa reforma seu website, ela precisa calcular
quantos das suas novas URLs ela irá tentar manter ao longo do tempo."
Mas
vale a pena lembrar que o Internet Archive é uma organização sem fins
lucrativos, financiada por doações de fundações beneficentes. É um projeto sem
fim, com custos que crescem exponencialmente.
O
Internet Archive assumiu voluntariamente a missão de ser a principal biblioteca
da nossa vida digital em todo o mundo. E, com a web se aproximando da sua
quarta década, este projeto totalmente não oficial se tornou um pilar
fundamental da internet.
Mas,
da mesma forma que aumenta a nossa confiança no Internet Archive, também
crescem as ameaças que pairam sobre o seu trabalho.
• 'Ponto
crítico de falha'
Em
setembro, o Internet Archive anunciou uma importante parceria com o Google. O
mecanismo de busca da gigante da tecnologia irá agora incluir links para o
Wayback Machine nos seus resultados de busca. Nenhuma das partes publicou os
detalhes financeiros do acordo.
Mas
outras notícias recentes demonstram que o projeto ainda enfrenta fragilidades.
Sua
vulnerabilidade foi exposta abertamente em uma ação judicial contra o Internet
Archive, promovida por quatro grandes editoras de livros.
Elas
alegam que a prática de digitalizar livros físicos e emprestar cópias digitais
infringe a legislação americana de direitos autorais.
Antes
da pandemia de covid-19, o Internet Archive emprestava apenas uma cópia digital
por vez, para cada livro físico na sua coleção.
Mas,
durante os lockdowns, a organização eliminou a restrição, emprestando aos seus
apoiadores quantidades ilimitadas de cópias digitais de livros, para tentar
compensar o fechamento das bibliotecas físicas.
Em
2023, um tribunal americano julgou a prática ilegal e, no início de setembro, o
recurso do Internet Archive contra a decisão foi rejeitado.
A
organização havia informado que concordava em pagar ao grupo de editoras um
valor não revelado em relação ao caso.
Passada
aquela ação, o Internet Archive já enfrenta outro processo movido pelas
gravadoras, referente à digitalização de discos.
Em
caso de derrota, este novo processo poderá custar US$ 400 milhões (R$ 2,3
bilhões). O valor pode pôr em risco a sobrevivência da organização.
O
diretor dos serviços de biblioteca do Internet Archive, Chris Freeland,
afirmou, em declaração sobre a decisão judicial, que a organização está
analisando o parecer dos tribunais.
As
batalhas jurídicas existenciais não são os únicos riscos que pairam sobre o
mundo da preservação digital.
O
UK Web Archive teve uma amostra das ameaças técnicas mal intencionadas em
outubro de 2023, quando um ciberataque derrubou seus sistemas digitais. Um ano
depois, o portal ainda enfrenta problemas causados pela queda – e o acesso
online a grande parte da sua coleção ainda está indisponível.
Em
maio de 2024, o Internet Archive divulgou que estava enfrentando um grande
ataque distribuído de negação de serviço (DDoS, na sigla em inglês). Nele,
vândalos ou outros delinquentes criam sistemas automatizados para bombardear
websites com visitas, tentando derrubá-los sobrecarregando seus servidores.
No
pico do ataque, dezenas de milhares de visitas simultâneas surgiam a cada
segundo. Os serviços foram derrubados, incluindo a Wayback Machine.
Com
isso, o rastreamento regular da web para arquivo foi interrompido por algum
tempo, o que pode ter causado lacunas permanentes no seu registro histórico.
O
Internet Archive "foi criado por um indivíduo e se tornou uma espécie de
pivô", segundo Jackson.
"Ele
também parece ser um ponto crítico de falha em potencial. Embora seja muito
mais sofisticado do que simplesmente os voluntários, ele é uma instituição, em
uma região, sujeito a um arcabouço legal."
A
organização reconhece estas preocupações. Se o trabalho do Internet Archive
fosse suspenso e "esta lacuna não fosse preenchida imediatamente, grande
parte do que é disponibilizado atualmente na web pública ficaria em
risco", explica Graham.
Ele
deixa claro que o Internet Archive não irá abandonar suas responsabilidades no
futuro próximo, mas seria útil obter ajuda externa para o projeto.
"Existem
oportunidades para muitas pessoas contribuírem, de diversas formas",
destaca ele.
• Responsabilidades
partilhadas, prioridades diferentes
Sem
um trabalho formal de organização do trabalho de preservação da internet, o
projeto fica a cargo de amadores e voluntários, ao lado de alguns grupos de
organismos não oficiais que, geralmente, operam de forma independente.
"Faz
sentido que o trabalho de arquivo seja descentralizado", segundo a
historiadora de tecnologia Mar Hicks, da Universidade da Virgínia, nos Estados
Unidos. "Mas um dos problemas é a variação das prioridades."
Hicks
destaca que um dos primeiros pontos que qualquer arquivista irá considerar ao
construir um arquivo é o que ele deve priorizar.
"E,
com muita descentralização, as prioridades serão muito diferentes",
explica ela. "Haverá pessoas nos grupos cuja prioridade será tentar reunir
de tudo – o máximo que puderem, eles podem querer completar tudo."
E
haverá outros que irão se concentrar em determinadas áreas, como o arquivo
britânico, por exemplo.
A
preocupação com essa abordagem pontual e descentralizada é a possibilidade de
repetição, que faz com que preciosos recursos de arquivo sejam desperdiçados
com cópias duplicadas ou triplicadas dos websites mais populares.
Enquanto
isso, algumas áreas que podem ter importância histórica são desprezadas por se
enquadrarem entre as responsabilidades de grupos diferentes.
"Os
arquivistas irão dizer que estas questões existem há muito tempo", afirma
Hicks. Mas elas são exacerbadas pela quantidade de material produzida no nosso mundo
digital.
Todos
os dias, são enviados cerca de um bilhão de e-mails. O YouTube afirma que mais
de 500 horas de vídeo são postadas na plataforma a cada minuto.
Para
Hicks, a internet é "essencialmente uma mangueira de incêndio, lançando
material e informações. Não faz sentido tentar registrar tudo o que sai da
mangueira. Não faria sentido do ponto de vista de recursos."
De
certa forma, esta é uma preocupação antiga.
"Como
historiadores, temos o mesmo problema", explica Hicks. "Temos uma
enorme quantidade de documentos do passado. Mas temos apenas certos documentos
e as vozes de certas pessoas – e muitas das vozes que estão faltando foram
incrivelmente importantes, mas foram apagadas."
Para
Hicks, é preciso ter certas prioridades sobre o que está sendo preservado das
pegadas digitais da nossa geração. Caso contrário, corremos o risco de
extrapolar rapidamente os custos com esforços secundários de registro da
história da web. Isso sem falar nos oceanos de arquivos digitais que vivem
offline.
"Se
precisarmos preservar tudo, fica muito caro", segundo Andrew Jackson.
"Existe muito conteúdo mais antigo ou menos atraente que fica perdido pelo
caminho."
"Não
estamos capturando bem o mundo não ocidental", reconhece Jackson.
"Existem lacunas que não foram preenchidas em diferentes domínios
culturais."
Muitas
dessas organizações que procuram combater suas próprias tendências e
preconceitos acabam assumindo o peso da tarefa, enquanto os governos e as
empresas responsáveis pelas plataformas simplesmente assistem.
"Grupos
independentes de pessoas, simplesmente preocupadas e dispostas a dedicar seu
tempo livre a esta questão, têm mais recursos e conhecimento do que as
instituições formalmente responsáveis", afirma Jackson.
Hicks
alerta que existe um vácuo que poucas pessoas estão atendendo, exceto por um
punhado de arquivistas obsessivos.
"Não
está claro de quem é a responsabilidade de arquivar [a internet], nem a serviço
de quem", afirma a historiadora. Mas um ponto é claro: segundo ela, todos
nós deveríamos pagar para apoiar a luta pela preservação.
"De
um ponto de vista muito pragmático, se você não pagar essas pessoas e garantir
que estes arquivos recebam financiamento, eles não irão existir no
futuro", explica ela. "Eles irão desaparecer e todo o trabalho de
coleta irá voar pela janela."
"Porque
o grande propósito do arquivo não é simplesmente coletá-lo, mas fazer com que
ele seja mantido indefinidamente no futuro."
O
Iluminismo do século 18 viu o nascimento de um movimento internacional de
bibliotecas, com os governos e filantropos percebendo a necessidade de
preservar e distribuir livros para o público. Mas este senso de
responsabilidade cívica do passado não se estendeu para a internet.
Isso
pode se dever aos complexos interesses comerciais do mundo digital ou
simplesmente às imensas dificuldades técnicas. Ou, talvez, porque os
observadores casuais podem não achar necessário preservar a web.
Um
livro é um recurso claramente finito – ele pode ser perdido ou danificado. Mas
a web parece muito acessível. Qualquer pessoa com conexão à internet pode abrir
um navegador e digitar uma URL.
Está
tudo ali, disponível. Até que não esteja mais.
Fonte:
BBC Future
Nenhum comentário:
Postar um comentário