Fernando
Horta: Brasil – a joia da coroa digital
Há uma
regra simples, quase banal, escondida sob a retórica heroica do que hoje
chamamos de “inteligência artificial generativa”. Ela diz, em linhas gerais,
que a qualidade de um modelo de linguagem – sua acuidade, sua aparente
sofisticação, o efeito estético da fluência que convence o usuário de estar
diante de uma mente – é uma função monotônica crescente de três grandezas: a
quantidade de parâmetros do modelo, a capacidade de cômputo disponível para
treiná-lo e, crucialmente, o volume de dados utilizado em seu treinamento. As
chamadas “scaling laws”, formalizadas por Kaplan e colaboradores em 2020 e
refinadas por Hoffmann e a equipe do DeepMind em 2022 (o trabalho conhecido
como Chinchilla), expressam esse fato com precisão empírica: duplicar dados de
qualidade, mantida a arquitetura, produz ganhos previsíveis de desempenho, que
se traduzem, na ponta do mercado, em lucros operacionais significativamente
maiores.
Eis a
física econômica do setor: dado é insumo, token é combustível, escala é lucro.
O capital financeiro mundial compreendeu isso antes mesmo de a opinião pública
decifrar do que se tratava. Foi por isso que, em menos de três anos, trilhões
de dólares em valor de mercado se deslocaram na direção das empresas capazes de
capturar, processar e monetizar texto em escala planetária. Não se trata de um
acidente histórico nem de um capricho da moda tecnológica. Trata-se da
descoberta, por parte do capital, de uma fronteira inteiramente nova de
acumulação — e, como em toda fronteira capitalista, a pergunta imediata é onde
estão os recursos, quanto custam, e quem os protege. Existe, porém, uma omissão
persistente nessa narrativa técnica, e é ela que interessa a quem pensa a
transformação digital a partir do Sul Global. Quando as corporações do setor
falam em “dados”, operam uma indistinção conveniente. No discurso, tudo é dado
– a linha de código, o log de servidor, a base SQL corporativa, o comentário no
TikTok, a foto de aniversário. No cálculo real, não. Nem todo artefato digital
tem o mesmo valor de uso para o treinamento de modelos generativos, e é nessa
diferença que se esconde a geopolítica do capitalismo digital.
Uma
página institucional, tecnicamente densa, marcada por HTML sujo, anúncios,
redundâncias e baixa densidade semântica, é cara de transformar em tokens
aproveitáveis. Exige limpeza, deduplicação, filtragem por heurísticas de
qualidade, curadoria. O retorno marginal sobre aquela página específica é
baixo. Já um corpus natural, produzido por humanos em interação espontânea,
diversificado, mas coerente, volumoso e contínuo, escrito em uma língua com
estruturação gramatical suficientemente complexa e com semântica partilhada –
esse corpus é o recurso mais valioso da economia digital contemporânea.
É o
petróleo bruto, mas com uma diferença importante: o petróleo queima-se uma vez;
o dado textual treina múltiplos modelos, alimenta “fine-tunings” sucessivos, é
reencenado em arquiteturas futuras que ainda sequer foram projetadas. Os
modelos aprendem “da diversidade dentro da coerência”. Precisam de variação
para generalizar, e precisam de mutualidade semântica para não fragmentar. Um
corpus pequeno e homogêneo produz modelos frágeis; um corpus grande, mas
inconsistente, produz modelos que não convergem. A joia está no meio: volume
massivo, diversidade lexical, sintática e pragmática ampla, e ao mesmo tempo um
tecido semântico partilhado o suficiente para que o modelo aprenda padrões
generalizáveis. É uma combinação rara – rara o bastante para que, quando
existe, o território que a produz deva ser estrategicamente categorizado como
fornecedor primário da indústria mais lucrativa da década.
<><>
O Brasil como joia da coroa
Se este
é o critério, o Brasil é, hoje, um dos territórios digitais mais valiosos do
planeta – talvez o mais valioso, se combinarmos dados linguísticos e
ecossistema físico.
Em
primeiro lugar, pelo volume humano. Aproximadamente 150 milhões de brasileiros
acessam redes sociais diariamente; somos o terceiro ou quarto maior mercado de
usuários ativos em praticamente todas as grandes plataformas norte-americanas.
Essa população escreve, comenta, transcreve áudios, legenda vídeos, descreve
imagens, polemiza, concorda, ironiza – vinte e quatro horas por dia, sete dias
por semana, trezentos e sessenta e cinco dias por ano. O português brasileiro é
fabricado, em tempo real, por uma das populações conectadas mais produtivas do
mundo.
Em
segundo lugar, pela natureza da nossa língua. O português brasileiro possui uma
combinação incomum: alta variabilidade regional, sociolinguística, geracional e
de registro, com um núcleo semântico compartilhado que garante inteligibilidade
quase universal entre falantes. Um pescador do Pará, uma advogada de Porto
Alegre, um entregador de aplicativo em Salvador e uma adolescente de Campinas
usam léxicos diferentes, constroem frases com modulações diferentes, referem
universos simbólicos distintos – e ainda assim se entendem. Essa propriedade –
diversidade expressiva sobre base semântica convergente – é exatamente o que
maximiza o ganho de informação em modelos de linguagem. Poucas línguas vivas do
mundo oferecem essa razão sinal-ruído em escala populacional tão ampla.
Em
terceiro lugar, pelo ecossistema físico. Os grandes modelos não são feitos de
ideias; são feitos de silício aquecido até os limites termodinâmicos da
arquitetura de chips. Cada token gerado tem um custo energético e um custo
hídrico – a água, utilizada nos sistemas de arrefecimento, é hoje um dos
gargalos mais agudos da expansão dos “data centers”. E o Brasil oferece: matriz
elétrica ainda majoritariamente renovável, abundância hídrica superior à de
qualquer concorrente digital significativo, terras baratas, clima tropical
relativamente estável, legislação ambiental frouxa em áreas estratégicas,
sistema de proteção das águas historicamente capturado por interesses setoriais
e institucionalmente fragmentado entre União, estados, comitês de bacia e
agências reguladoras sem efetivo poder de “enforcement”. Somos, portanto, a
joia da coroa digital: um território onde o insumo textual mais valioso do
mundo é produzido gratuitamente pela população, enquanto o insumo físico mais
valioso — água em volume industrial — está disponível a preços absurdamente
baixos para quem tiver capital político suficiente para extraí-lo.
<><>
Um exercício de demonstração – a Suíça imaginária e o Brasil real
O
argumento ficaria incompleto sem uma demonstração concreta. Imagine-se o
seguinte contrafactual: um grande laboratório de inteligência artificial decide
treinar seu próximo modelo de linguagem exclusivamente com dados produzidos
pela população suíça. À primeira vista, parece uma escolha defensável – a Suíça
tem PIB per capita elevado, penetração quase universal de internet,
infraestrutura estável, baixo risco político, população multilíngue. Um paraíso
regulatório e operacional, no imaginário corrente. Rodemos a calculadora.
A Suíça
tem cerca de 8,8 milhões de habitantes, dos quais aproximadamente sete milhões
podem ser considerados usuários digitais ativos diários. Mantendo a premissa
conservadora de 200 tokens úteis por usuário por dia (somando posts,
comentários, áudios transcritos, legendas e mensagens públicas), o país
produziria cerca de 1,4 bilhão de tokens por dia. Parece muito – até que se
compare. O Brasil, com seus 150 milhões de usuários diários ativos, produz, sob
a mesma premissa, aproximadamente 30 bilhões de tokens por dia: vinte e uma
vezes o que toda a Suíça produz somada, e trinta e quatro vezes o que o maior
grupo linguístico suíço (os falantes de alemão) produz sozinho. Esta primeira
assimetria, porém, é apenas o começo. O problema estrutural do caso suíço é a
fragmentação linguística. A produção textual da Suíça não é uma produção, são
quatro: alemão (~63% da população), francês (~23%), italiano (~8%) e romanche
(~0,5%). São quatro comunidades com mútua inteligibilidade escrita limitada.
Para treinar um modelo de linguagem, esses quatro fluxos não se somam de modo
útil – ou se aceita um modelo multilíngue com cobertura fraca em cada idioma,
ou se concentra o treino no maior grupo e se joga fora 37% da já escassa
produção nacional. Suponha-se que o objetivo seja acumular 1 trilhão de tokens
– aproximadamente o volume Chinchilla-ótimo para modelos de médio porte,
segundo os resultados empíricos de Hoffmann e colaboradores (2022). Quanto
tempo leva?
No caso
brasileiro, aproximadamente 33 dias. Cerca de cinco semanas de produção
espontânea da população já entregam um corpus de classe mundial. No caso suíço
com todos os idiomas misturados, quase dois anos. No caso suíço concentrado
apenas no alemão helvético (a escolha tecnicamente mais sensata para um modelo
monolíngue), mais de três anos. Durante esses três anos, a arquitetura de
referência do setor já terá mudado duas vezes, o corpus estará defasado antes
mesmo de fechar, e o custo de oportunidade – servidores ligados, engenheiros
pagos, competidores avançando – será catastrófico. Há ainda uma terceira camada
do problema, talvez a mais decisiva. Não basta haver muitos tokens; é preciso
que esses tokens contribuam algo “novo” ao corpus global do idioma em questão.
A Suíça falha também aqui, e falha estruturalmente.
Os
suíços de língua alemã, quando escrevem online, escrevem majoritariamente em
alemão-padrão (Hochdeutsch), não em seus dialetos falados (Schwyzerdütsch). O
alemão-padrão é, entretanto, a língua compartilhada com mais de 90 milhões de
falantes na Alemanha e na Áustria. A contribuição marginal da Suíça ao corpus
global do alemão é, assim, da ordem de 5%. A contribuição suíça ao francês
global é menor ainda (cerca de 3%, submersa nos 67 milhões da França). Ao
italiano, sequer 1%. Em nenhum dos idiomas a Suíça “é” o corpus – ela apenas
contribui com uma fatia pequena, em grande parte redundante, aos corpora já
dominados por outros Estados nacionais. O Brasil, ao contrário, responde por
aproximadamente 83% de todos os falantes de português no mundo, e por parcela
ainda maior da produção online em português. O português brasileiro não é uma
contribuição ao corpus lusófono: “é” o corpus lusófono. Some-se a isso a parte
que não aparece nos gráficos: a Suíça possui legislação de proteção de dados
robusta (a Lei Federal de Proteção de Dados revisada em 2023, alinhada ao GDPR
europeu), agências reguladoras com “enforcement” real, energia elétrica cara
(cerca de 0,22 CHF/kWh, algo em torno de duas a três vezes a tarifa industrial
brasileira), recursos hídricos abundantes, mas juridicamente protegidos por
tratados alpinos internacionais, custos de mão de obra elevados. O Brasil
oferece o inverso simétrico: regulação jovem e subfiscalizada, energia barata,
água sem defensor institucional à altura, mão de obra técnica competente
pagando um terço do equivalente suíço.
O
capitalista que faz a planilha não precisa ser nem malicioso nem
particularmente arguto para chegar à conclusão. Mais dados, mais rapidamente,
em corpus coerente, com contribuição não-redundante, sob regulação frouxa, com
insumos físicos baratos. O resultado da comparação não é uma escolha; é uma
inevitabilidade. É exatamente por isso que o Brasil está sendo silenciosamente
incorporado, em ritmo acelerado, ao mapa global da infraestrutura digital do
Norte — e é exatamente por isso que o debate público brasileiro sobre o tema
segue confinado a discussões marginais sobre privacidade individual, quando o
problema verdadeiro é de ordem civilizacional.
<><>
O cálculo do capital
A mente
que pensa a transformação digital globalmente é, antes de tudo, capitalista –
e, por isso, pensa em planilhas de custo e ganho. Vale a pena reproduzir, em
linhas secas, o cálculo que está sendo feito nas salas de diretoria de Mountain
View, Redmond e Seattle quando o Brasil entra na pauta.
Do lado
dos custos, eles são conhecidos e relativamente estáveis. Energia elétrica para
alimentação dos data centers. Água para arrefecimento, com custos tecnicamente
descritíveis em litros por megawatt-hora processado. Custos de infraestrutura
física (terra, construção, fibra ótica, redundância elétrica). Custos
regulatórios marginais – multas eventuais, “compliance”, licenciamento
ambiental.
E uma
classe residual de riscos associados a efeitos ainda desconhecidos da própria
tecnologia: externalidades cognitivas, sociais, políticas e sanitárias que
ninguém precifica porque ainda não se sabe como fazê-lo. Todas essas contas
são, em última instância, manejáveis – cabem em uma planilha de três páginas
elaborada por um analista sênior. Do lado dos ganhos: aqui, o cálculo deixa de
ser contábil e torna-se geopolítico. Enumerá-los, para o caso brasileiro, é
praticamente desenhar o mapa da nova colonialidade digital.
Primeiro:
ganhos por desconhecimento nacional do valor dos dados. O Brasil entrega, hoje,
o seu recurso estratégico mais importante sem cobrar por ele, porque nem o
Estado nem a sociedade civil constituíram um léxico técnico-político para
descrever o que está sendo extraído. Onde o recurso é percebido como resíduo
(rastros de usuários na internet), o preço é nulo. Onde deveria ser percebido
como “commodity” estratégica – estrutura linguística múltipla, inclusiva em
sentido, diversa o suficiente para produzir ganho de aprendizagem em modelos –
o preço poderia ser astronômico. A assimetria informacional é, por si só, um
regime de exploração.
Segundo:
ganhos por pressão política sobre instituições e tomadores de decisão
ignorantes ou venais. A captura regulatória opera em dois tempos: ignorância e
venalidade. Parlamentares que não entendem o que votam, reguladores que
desconhecem o que regulam, magistrados que julgam contratos de adesão cujas
implicações computacionais escapam à formação jurídica tradicional. A isso
somam-se os canais usuais de financiamento de campanha, “think tanks”
patrocinados, consultorias cruzadas, cátedras e cursos de atualização
patrocinados por grandes plataformas. O dispositivo é o mesmo das fases
anteriores do capitalismo extrativo; o que mudou foi o objeto.
Terceiro:
ganhos pelo controle comercial sobre as formas de pensar, agir e mobilizar
social e politicamente. Quem controla a camada de intermediação — a plataforma,
o algoritmo de recomendação, a interface conversacional — controla o próprio
espaço da deliberação pública. Não é preciso censurar; basta modular a
visibilidade. Não é preciso proibir; basta encarecer cognitivamente a
divergência. Em escala populacional, e ao longo de anos, essa modulação é
indistinguível de uma reengenharia silenciosa do senso comum.
Quarto:
ganhos sobre o controle político e geopolítico das opiniões e dos sentidos de
julgamento social e econômico. A modulação da visibilidade tem efeito
cumulativo. Ao longo de anos, uma população submetida a uma arquitetura
específica de exposição desenvolve padrões de julgamento – sobre política,
sobre economia, sobre quem é amigo e quem é inimigo – que não são fruto de
deliberação, mas de exposição diferencial. O efeito é análogo ao das antigas
máquinas de propaganda, com uma diferença crucial: personaliza-se em tempo
real, em bilhões de iterações simultâneas, sem deixar vestígio organizacional
claro.
Quinto:
ganhos pela constituição de uma supercamada de exploração capitalista, para
além daquela descrita por Karl Marx.
Sexto:
ganhos pela baixa qualidade regulatória na proteção da soberania brasileira.
Nossa legislação de proteção de dados, ainda que formalmente sofisticada, foi
concebida para um paradigma pré-generativo. A LGPD regula consentimento,
tratamento, finalidade – categorias desenhadas para bancos de dados
relacionais, não para corpora de treinamento. O debate regulatório sobre
Inteligência Artificial no Brasil permanece preso a importações do “AI Act”
europeu, quando o problema estrutural do país é anterior e de outra ordem:
definir se os dados de uma população inteira podem ou não ser apropriados
gratuitamente por corporações estrangeiras, sem qualquer contrapartida
soberana, econômica ou civilizacional.
Sétimo:
ganhos pela baixa capacidade de “enforcement” da legislação existente. Mesmo
onde há regra, há escassez crônica de fiscalização. A ANPD dispõe de orçamento
e quadro técnico incompatíveis com a dimensão do objeto regulado. O Ministério
Público, o Judiciário e os órgãos de defesa do consumidor operam em escala
nacional enquanto o objeto regulado opera em escala planetária, com tempo de
resposta em milissegundos e jurisdição deslocada para Delaware ou Dublin.
Regular em escritório físico um objeto que existe em “cloud” é, na prática,
regular o vento com uma rede de pesca.
Somados,
esses sete vetores de ganho não apenas compensam os custos conhecidos – eles os
tornam “irrisórios”, dentro de qualquer cálculo racional do capital. Daí a
velocidade com que o Brasil vem sendo incorporado, silenciosamente, aos planos
de expansão da infraestrutura digital do Norte.
<><>
Para além de Marx – o controle digital sobre a burguesia analógica
O
quinto ganho merece parágrafo próprio porque modifica categorias fundamentais
da teoria social. Marx descreveu o capitalismo industrial como a dominação do
capital sobre o trabalho, via controle dos meios de produção. A classe
capitalista, localizada nacionalmente, detinha fábricas, terras, máquinas. A
luta política moderna, no eixo esquerda-direita, tematizou justamente a disputa
sobre essa propriedade. O capitalismo digital introduz uma nova camada. Os
meios de produção analógicos – fábricas, terras, bancos, emissoras, editoras,
universidades privadas, redes de supermercados, cadeias logísticas nacionais –
continuam nas mãos das burguesias nacionais. Mas a “operação” dessas estruturas
passa, cada vez mais, a depender de infraestrutura digital controlada fora do
país: sistemas de pagamento, plataformas logísticas, motores de busca,
infraestrutura de “cloud”, modelos de linguagem, algoritmos de recomendação,
ferramentas de produtividade corporativa.
Forma-se,
assim, um “controle digital sobre a burguesia analógica de cada Estado
nacional”. O dono da fábrica continua dono da fábrica, mas só opera a fábrica
se contratar “software” estrangeiro; o dono do jornal continua dono do jornal,
mas a curva de alcance do seu conteúdo é decidida por parâmetros algorítmicos
que ele não escreve nem audita; o dono do banco continua dono do banco, mas seu
modelo de crédito incorpora previsões produzidas por sistemas que ele não
treinou. A burguesia nacional, em todos os Estados periféricos e mesmo em
muitos centrais, torna-se estruturalmente subordinada a uma burguesia digital
transnacional cuja única morada relevante é a capacidade computacional de
operar em escala planetária. É por isso que a palavra “soberania”, aplicada ao
digital, não é retórica nem metáfora. É a descrição exata do tipo de
dependência nova que se está formando – uma dependência que atravessa a
distinção entre Estado e capital nacional, porque é o próprio capital nacional,
em todas as suas frações, que se torna operacionalmente dependente de
infraestruturas cuja governança ele não partilha. Os velhos conflitos
distributivos internos aos Estados-nação coexistem, agora, com um conflito novo
e transversal: o que separa as burguesias locais – patrões e trabalhadores,
direitas e esquerdas nacionais – da camada digital planetária que hoje define
as condições operacionais de todas elas.
<><>
Do celeiro de grãos ao celeiro de textos
Houve
um momento, no Brasil do fim do século XIX e começo do XX, em que uma parcela
da intelectualidade nacional – colonizada no sentido preciso do termo, que
tomava o olhar da metrópole como olhar do mundo – celebrou a vocação do país
como “celeiro do mundo”. A frase soava grandiosa. Convertia em destino
manifesto aquilo que era, na verdade, uma divisão internacional do trabalho
bastante específica: o Brasil produziria matéria-prima barata para as economias
industriais do Norte; em troca, receberia bens manufaturados, financiamento e
tutela política. O modelo agroexportador, edificado sobre essa autoimagem,
legou-nos um século e meio de desigualdade estrutural, concentração fundiária,
devastação ambiental cíclica e subdesenvolvimento político. Por linhas diferentes,
algo muito semelhante está em curso. O Brasil está se tornando, de novo, “o
celeiro do mundo” – só que agora de textos. O insumo exportado não é mais soja,
café ou minério, mas a matéria-prima cognitiva de uma população inteira: a
produção linguística de 150 milhões de brasileiros que, a cada comentário, a
cada áudio transcrito, a cada briga em comentários sobre o BBB, o futebol e o
“absurdo” dos banheiros unissex, alimentam gratuitamente os corpora de
treinamento de modelos que serão vendidos de volta ao próprio Brasil – e ao
mundo – como inteligência.
É um
arranjo de elegância sinistra. Os grandes custos – energéticos, hídricos,
sociais, políticos, sanitários – da expansão digital do Norte serão pagos aqui.
A pressão sobre aquíferos, a carga adicional sobre o sistema elétrico, as
externalidades cognitivas do uso massivo, as consequências sociais da automação
de empregos intermediários, a corrosão do espaço público por algoritmos de
recomendação – tudo isso fica conosco.
Em
troca, alguns poucos atores locais serão enriquecidos pela tarefa modesta de
convencer a maioria de que o destino luminoso do país é ser a maior fazenda de
textos do planeta, um imenso pasto digital onde vacas falantes produzem, em
tempo real, tokens aproveitáveis sobre paixões domésticas, entretenimento
televisivo e pânicos morais convenientemente reciclados. Tudo isso,
absolutamente tudo isso, gera dado aproveitável. Realizável em modelos de
Inteligência artificial com LLM’s. Valem, literalmente, bilhões de dólares. É
importante nomear com precisão o que está em jogo. O dado verdadeiramente
perigoso – o dado sobre a nova relação entre colônia e metrópole, sobre os
novos espaços de exploração, sobre quem ganha e quem perde nessa arquitetura –
esse dado provavelmente nunca será consumido em escala no Brasil. Porque
existe, para o controle desse perigo, uma combinação notavelmente eficiente de
dois dispositivos: o currículo educacional e o algoritmo.
O
primeiro, deformado por reformas sucessivas que reduzem filosofia, sociologia,
história e pensamento crítico, garante que a próxima geração não tenha
repertório conceitual para formular o problema. O segundo, modulado por
objetivos de engajamento que premiam a indignação superficial e desestimulam a
complexidade, garante que, mesmo quando o problema é formulado, ele não
circula. Os dois dispositivos operam em conjunto: o currículo produz a
incapacidade de dizer; o algoritmo produz a surdez de quem, apesar de tudo,
tenha conseguido dizer. A esperança vil do capitalismo digital é esta: que
acreditemos, mais uma vez, que exportar matéria-prima barata para o Norte é
sinal de progresso. Que confundamos a intensidade do nosso ruído com a
densidade da nossa soberania. Que celebremos, como um dia se celebrou o navio
carregado de café no porto de Santos, os “data centers” que consomem nossa água
para destilar, em outras jurisdições, a inteligência artificial feita com nossa
própria voz.
Há uma
saída, mas ela é desconfortável. Exige reconhecer que os dados brasileiros não
são resíduo – são recurso estratégico nacional. Que a infraestrutura hídrica e
energética de que se beneficia a computação em larga escala não é bem privado
disponível ao maior lance – é bem público sob soberania contestada. Que o
currículo educacional e o algoritmo não podem continuar sendo tratados como
temas marginais da agenda política, porque são, hoje, os dois principais
instrumentos de reprodução – ou de superação – da dependência. Exige, em suma,
que o historiador, o jurista, o cientista social, o engenheiro e o pedagogo se
sentem à mesma mesa, porque nenhum deles, sozinho, detém o problema inteiro. O
século XX nos ensinou, a duras penas, o que significou aceitar a tese
colonizada de que o país seria o celeiro do mundo. O século XXI está cobrando
agora – e o prazo é curto – que se decida se aceitaremos ser também a sua
fazenda de textos.
Fonte:
A Terra é Redonda

Nenhum comentário:
Postar um comentário