Palavra de Sá

quinta-feira, 23 de abril de 2026

Fernando Horta: Brasil – a joia da coroa digital

Há uma regra simples, quase banal, escondida sob a retórica heroica do que hoje chamamos de “inteligência artificial generativa”. Ela diz, em linhas gerais, que a qualidade de um modelo de linguagem – sua acuidade, sua aparente sofisticação, o efeito estético da fluência que convence o usuário de estar diante de uma mente – é uma função monotônica crescente de três grandezas: a quantidade de parâmetros do modelo, a capacidade de cômputo disponível para treiná-lo e, crucialmente, o volume de dados utilizado em seu treinamento. As chamadas “scaling laws”, formalizadas por Kaplan e colaboradores em 2020 e refinadas por Hoffmann e a equipe do DeepMind em 2022 (o trabalho conhecido como Chinchilla), expressam esse fato com precisão empírica: duplicar dados de qualidade, mantida a arquitetura, produz ganhos previsíveis de desempenho, que se traduzem, na ponta do mercado, em lucros operacionais significativamente maiores.

Eis a física econômica do setor: dado é insumo, token é combustível, escala é lucro. O capital financeiro mundial compreendeu isso antes mesmo de a opinião pública decifrar do que se tratava. Foi por isso que, em menos de três anos, trilhões de dólares em valor de mercado se deslocaram na direção das empresas capazes de capturar, processar e monetizar texto em escala planetária. Não se trata de um acidente histórico nem de um capricho da moda tecnológica. Trata-se da descoberta, por parte do capital, de uma fronteira inteiramente nova de acumulação — e, como em toda fronteira capitalista, a pergunta imediata é onde estão os recursos, quanto custam, e quem os protege. Existe, porém, uma omissão persistente nessa narrativa técnica, e é ela que interessa a quem pensa a transformação digital a partir do Sul Global. Quando as corporações do setor falam em “dados”, operam uma indistinção conveniente. No discurso, tudo é dado – a linha de código, o log de servidor, a base SQL corporativa, o comentário no TikTok, a foto de aniversário. No cálculo real, não. Nem todo artefato digital tem o mesmo valor de uso para o treinamento de modelos generativos, e é nessa diferença que se esconde a geopolítica do capitalismo digital.

Uma página institucional, tecnicamente densa, marcada por HTML sujo, anúncios, redundâncias e baixa densidade semântica, é cara de transformar em tokens aproveitáveis. Exige limpeza, deduplicação, filtragem por heurísticas de qualidade, curadoria. O retorno marginal sobre aquela página específica é baixo. Já um corpus natural, produzido por humanos em interação espontânea, diversificado, mas coerente, volumoso e contínuo, escrito em uma língua com estruturação gramatical suficientemente complexa e com semântica partilhada – esse corpus é o recurso mais valioso da economia digital contemporânea.

É o petróleo bruto, mas com uma diferença importante: o petróleo queima-se uma vez; o dado textual treina múltiplos modelos, alimenta “fine-tunings” sucessivos, é reencenado em arquiteturas futuras que ainda sequer foram projetadas. Os modelos aprendem “da diversidade dentro da coerência”. Precisam de variação para generalizar, e precisam de mutualidade semântica para não fragmentar. Um corpus pequeno e homogêneo produz modelos frágeis; um corpus grande, mas inconsistente, produz modelos que não convergem. A joia está no meio: volume massivo, diversidade lexical, sintática e pragmática ampla, e ao mesmo tempo um tecido semântico partilhado o suficiente para que o modelo aprenda padrões generalizáveis. É uma combinação rara – rara o bastante para que, quando existe, o território que a produz deva ser estrategicamente categorizado como fornecedor primário da indústria mais lucrativa da década.

<><> O Brasil como joia da coroa

Se este é o critério, o Brasil é, hoje, um dos territórios digitais mais valiosos do planeta – talvez o mais valioso, se combinarmos dados linguísticos e ecossistema físico.

Em primeiro lugar, pelo volume humano. Aproximadamente 150 milhões de brasileiros acessam redes sociais diariamente; somos o terceiro ou quarto maior mercado de usuários ativos em praticamente todas as grandes plataformas norte-americanas. Essa população escreve, comenta, transcreve áudios, legenda vídeos, descreve imagens, polemiza, concorda, ironiza – vinte e quatro horas por dia, sete dias por semana, trezentos e sessenta e cinco dias por ano. O português brasileiro é fabricado, em tempo real, por uma das populações conectadas mais produtivas do mundo.

Em segundo lugar, pela natureza da nossa língua. O português brasileiro possui uma combinação incomum: alta variabilidade regional, sociolinguística, geracional e de registro, com um núcleo semântico compartilhado que garante inteligibilidade quase universal entre falantes. Um pescador do Pará, uma advogada de Porto Alegre, um entregador de aplicativo em Salvador e uma adolescente de Campinas usam léxicos diferentes, constroem frases com modulações diferentes, referem universos simbólicos distintos – e ainda assim se entendem. Essa propriedade – diversidade expressiva sobre base semântica convergente – é exatamente o que maximiza o ganho de informação em modelos de linguagem. Poucas línguas vivas do mundo oferecem essa razão sinal-ruído em escala populacional tão ampla.

Em terceiro lugar, pelo ecossistema físico. Os grandes modelos não são feitos de ideias; são feitos de silício aquecido até os limites termodinâmicos da arquitetura de chips. Cada token gerado tem um custo energético e um custo hídrico – a água, utilizada nos sistemas de arrefecimento, é hoje um dos gargalos mais agudos da expansão dos “data centers”. E o Brasil oferece: matriz elétrica ainda majoritariamente renovável, abundância hídrica superior à de qualquer concorrente digital significativo, terras baratas, clima tropical relativamente estável, legislação ambiental frouxa em áreas estratégicas, sistema de proteção das águas historicamente capturado por interesses setoriais e institucionalmente fragmentado entre União, estados, comitês de bacia e agências reguladoras sem efetivo poder de “enforcement”. Somos, portanto, a joia da coroa digital: um território onde o insumo textual mais valioso do mundo é produzido gratuitamente pela população, enquanto o insumo físico mais valioso — água em volume industrial — está disponível a preços absurdamente baixos para quem tiver capital político suficiente para extraí-lo.

<><> Um exercício de demonstração – a Suíça imaginária e o Brasil real

O argumento ficaria incompleto sem uma demonstração concreta. Imagine-se o seguinte contrafactual: um grande laboratório de inteligência artificial decide treinar seu próximo modelo de linguagem exclusivamente com dados produzidos pela população suíça. À primeira vista, parece uma escolha defensável – a Suíça tem PIB per capita elevado, penetração quase universal de internet, infraestrutura estável, baixo risco político, população multilíngue. Um paraíso regulatório e operacional, no imaginário corrente. Rodemos a calculadora.

A Suíça tem cerca de 8,8 milhões de habitantes, dos quais aproximadamente sete milhões podem ser considerados usuários digitais ativos diários. Mantendo a premissa conservadora de 200 tokens úteis por usuário por dia (somando posts, comentários, áudios transcritos, legendas e mensagens públicas), o país produziria cerca de 1,4 bilhão de tokens por dia. Parece muito – até que se compare. O Brasil, com seus 150 milhões de usuários diários ativos, produz, sob a mesma premissa, aproximadamente 30 bilhões de tokens por dia: vinte e uma vezes o que toda a Suíça produz somada, e trinta e quatro vezes o que o maior grupo linguístico suíço (os falantes de alemão) produz sozinho. Esta primeira assimetria, porém, é apenas o começo. O problema estrutural do caso suíço é a fragmentação linguística. A produção textual da Suíça não é uma produção, são quatro: alemão (~63% da população), francês (~23%), italiano (~8%) e romanche (~0,5%). São quatro comunidades com mútua inteligibilidade escrita limitada. Para treinar um modelo de linguagem, esses quatro fluxos não se somam de modo útil – ou se aceita um modelo multilíngue com cobertura fraca em cada idioma, ou se concentra o treino no maior grupo e se joga fora 37% da já escassa produção nacional. Suponha-se que o objetivo seja acumular 1 trilhão de tokens – aproximadamente o volume Chinchilla-ótimo para modelos de médio porte, segundo os resultados empíricos de Hoffmann e colaboradores (2022). Quanto tempo leva?

No caso brasileiro, aproximadamente 33 dias. Cerca de cinco semanas de produção espontânea da população já entregam um corpus de classe mundial. No caso suíço com todos os idiomas misturados, quase dois anos. No caso suíço concentrado apenas no alemão helvético (a escolha tecnicamente mais sensata para um modelo monolíngue), mais de três anos. Durante esses três anos, a arquitetura de referência do setor já terá mudado duas vezes, o corpus estará defasado antes mesmo de fechar, e o custo de oportunidade – servidores ligados, engenheiros pagos, competidores avançando – será catastrófico. Há ainda uma terceira camada do problema, talvez a mais decisiva. Não basta haver muitos tokens; é preciso que esses tokens contribuam algo “novo” ao corpus global do idioma em questão. A Suíça falha também aqui, e falha estruturalmente.

Os suíços de língua alemã, quando escrevem online, escrevem majoritariamente em alemão-padrão (Hochdeutsch), não em seus dialetos falados (Schwyzerdütsch). O alemão-padrão é, entretanto, a língua compartilhada com mais de 90 milhões de falantes na Alemanha e na Áustria. A contribuição marginal da Suíça ao corpus global do alemão é, assim, da ordem de 5%. A contribuição suíça ao francês global é menor ainda (cerca de 3%, submersa nos 67 milhões da França). Ao italiano, sequer 1%. Em nenhum dos idiomas a Suíça “é” o corpus – ela apenas contribui com uma fatia pequena, em grande parte redundante, aos corpora já dominados por outros Estados nacionais. O Brasil, ao contrário, responde por aproximadamente 83% de todos os falantes de português no mundo, e por parcela ainda maior da produção online em português. O português brasileiro não é uma contribuição ao corpus lusófono: “é” o corpus lusófono. Some-se a isso a parte que não aparece nos gráficos: a Suíça possui legislação de proteção de dados robusta (a Lei Federal de Proteção de Dados revisada em 2023, alinhada ao GDPR europeu), agências reguladoras com “enforcement” real, energia elétrica cara (cerca de 0,22 CHF/kWh, algo em torno de duas a três vezes a tarifa industrial brasileira), recursos hídricos abundantes, mas juridicamente protegidos por tratados alpinos internacionais, custos de mão de obra elevados. O Brasil oferece o inverso simétrico: regulação jovem e subfiscalizada, energia barata, água sem defensor institucional à altura, mão de obra técnica competente pagando um terço do equivalente suíço.

O capitalista que faz a planilha não precisa ser nem malicioso nem particularmente arguto para chegar à conclusão. Mais dados, mais rapidamente, em corpus coerente, com contribuição não-redundante, sob regulação frouxa, com insumos físicos baratos. O resultado da comparação não é uma escolha; é uma inevitabilidade. É exatamente por isso que o Brasil está sendo silenciosamente incorporado, em ritmo acelerado, ao mapa global da infraestrutura digital do Norte — e é exatamente por isso que o debate público brasileiro sobre o tema segue confinado a discussões marginais sobre privacidade individual, quando o problema verdadeiro é de ordem civilizacional.

<><> O cálculo do capital

A mente que pensa a transformação digital globalmente é, antes de tudo, capitalista – e, por isso, pensa em planilhas de custo e ganho. Vale a pena reproduzir, em linhas secas, o cálculo que está sendo feito nas salas de diretoria de Mountain View, Redmond e Seattle quando o Brasil entra na pauta.

Do lado dos custos, eles são conhecidos e relativamente estáveis. Energia elétrica para alimentação dos data centers. Água para arrefecimento, com custos tecnicamente descritíveis em litros por megawatt-hora processado. Custos de infraestrutura física (terra, construção, fibra ótica, redundância elétrica). Custos regulatórios marginais – multas eventuais, “compliance”, licenciamento ambiental.

E uma classe residual de riscos associados a efeitos ainda desconhecidos da própria tecnologia: externalidades cognitivas, sociais, políticas e sanitárias que ninguém precifica porque ainda não se sabe como fazê-lo. Todas essas contas são, em última instância, manejáveis – cabem em uma planilha de três páginas elaborada por um analista sênior. Do lado dos ganhos: aqui, o cálculo deixa de ser contábil e torna-se geopolítico. Enumerá-los, para o caso brasileiro, é praticamente desenhar o mapa da nova colonialidade digital.

Primeiro: ganhos por desconhecimento nacional do valor dos dados. O Brasil entrega, hoje, o seu recurso estratégico mais importante sem cobrar por ele, porque nem o Estado nem a sociedade civil constituíram um léxico técnico-político para descrever o que está sendo extraído. Onde o recurso é percebido como resíduo (rastros de usuários na internet), o preço é nulo. Onde deveria ser percebido como “commodity” estratégica – estrutura linguística múltipla, inclusiva em sentido, diversa o suficiente para produzir ganho de aprendizagem em modelos – o preço poderia ser astronômico. A assimetria informacional é, por si só, um regime de exploração.

Segundo: ganhos por pressão política sobre instituições e tomadores de decisão ignorantes ou venais. A captura regulatória opera em dois tempos: ignorância e venalidade. Parlamentares que não entendem o que votam, reguladores que desconhecem o que regulam, magistrados que julgam contratos de adesão cujas implicações computacionais escapam à formação jurídica tradicional. A isso somam-se os canais usuais de financiamento de campanha, “think tanks” patrocinados, consultorias cruzadas, cátedras e cursos de atualização patrocinados por grandes plataformas. O dispositivo é o mesmo das fases anteriores do capitalismo extrativo; o que mudou foi o objeto.

Terceiro: ganhos pelo controle comercial sobre as formas de pensar, agir e mobilizar social e politicamente. Quem controla a camada de intermediação — a plataforma, o algoritmo de recomendação, a interface conversacional — controla o próprio espaço da deliberação pública. Não é preciso censurar; basta modular a visibilidade. Não é preciso proibir; basta encarecer cognitivamente a divergência. Em escala populacional, e ao longo de anos, essa modulação é indistinguível de uma reengenharia silenciosa do senso comum.

Quarto: ganhos sobre o controle político e geopolítico das opiniões e dos sentidos de julgamento social e econômico. A modulação da visibilidade tem efeito cumulativo. Ao longo de anos, uma população submetida a uma arquitetura específica de exposição desenvolve padrões de julgamento – sobre política, sobre economia, sobre quem é amigo e quem é inimigo – que não são fruto de deliberação, mas de exposição diferencial. O efeito é análogo ao das antigas máquinas de propaganda, com uma diferença crucial: personaliza-se em tempo real, em bilhões de iterações simultâneas, sem deixar vestígio organizacional claro.

Quinto: ganhos pela constituição de uma supercamada de exploração capitalista, para além daquela descrita por Karl Marx.

Sexto: ganhos pela baixa qualidade regulatória na proteção da soberania brasileira. Nossa legislação de proteção de dados, ainda que formalmente sofisticada, foi concebida para um paradigma pré-generativo. A LGPD regula consentimento, tratamento, finalidade – categorias desenhadas para bancos de dados relacionais, não para corpora de treinamento. O debate regulatório sobre Inteligência Artificial no Brasil permanece preso a importações do “AI Act” europeu, quando o problema estrutural do país é anterior e de outra ordem: definir se os dados de uma população inteira podem ou não ser apropriados gratuitamente por corporações estrangeiras, sem qualquer contrapartida soberana, econômica ou civilizacional.

Sétimo: ganhos pela baixa capacidade de “enforcement” da legislação existente. Mesmo onde há regra, há escassez crônica de fiscalização. A ANPD dispõe de orçamento e quadro técnico incompatíveis com a dimensão do objeto regulado. O Ministério Público, o Judiciário e os órgãos de defesa do consumidor operam em escala nacional enquanto o objeto regulado opera em escala planetária, com tempo de resposta em milissegundos e jurisdição deslocada para Delaware ou Dublin. Regular em escritório físico um objeto que existe em “cloud” é, na prática, regular o vento com uma rede de pesca.

Somados, esses sete vetores de ganho não apenas compensam os custos conhecidos – eles os tornam “irrisórios”, dentro de qualquer cálculo racional do capital. Daí a velocidade com que o Brasil vem sendo incorporado, silenciosamente, aos planos de expansão da infraestrutura digital do Norte.

<><> Para além de Marx – o controle digital sobre a burguesia analógica

O quinto ganho merece parágrafo próprio porque modifica categorias fundamentais da teoria social. Marx descreveu o capitalismo industrial como a dominação do capital sobre o trabalho, via controle dos meios de produção. A classe capitalista, localizada nacionalmente, detinha fábricas, terras, máquinas. A luta política moderna, no eixo esquerda-direita, tematizou justamente a disputa sobre essa propriedade. O capitalismo digital introduz uma nova camada. Os meios de produção analógicos – fábricas, terras, bancos, emissoras, editoras, universidades privadas, redes de supermercados, cadeias logísticas nacionais – continuam nas mãos das burguesias nacionais. Mas a “operação” dessas estruturas passa, cada vez mais, a depender de infraestrutura digital controlada fora do país: sistemas de pagamento, plataformas logísticas, motores de busca, infraestrutura de “cloud”, modelos de linguagem, algoritmos de recomendação, ferramentas de produtividade corporativa.

Forma-se, assim, um “controle digital sobre a burguesia analógica de cada Estado nacional”. O dono da fábrica continua dono da fábrica, mas só opera a fábrica se contratar “software” estrangeiro; o dono do jornal continua dono do jornal, mas a curva de alcance do seu conteúdo é decidida por parâmetros algorítmicos que ele não escreve nem audita; o dono do banco continua dono do banco, mas seu modelo de crédito incorpora previsões produzidas por sistemas que ele não treinou. A burguesia nacional, em todos os Estados periféricos e mesmo em muitos centrais, torna-se estruturalmente subordinada a uma burguesia digital transnacional cuja única morada relevante é a capacidade computacional de operar em escala planetária. É por isso que a palavra “soberania”, aplicada ao digital, não é retórica nem metáfora. É a descrição exata do tipo de dependência nova que se está formando – uma dependência que atravessa a distinção entre Estado e capital nacional, porque é o próprio capital nacional, em todas as suas frações, que se torna operacionalmente dependente de infraestruturas cuja governança ele não partilha. Os velhos conflitos distributivos internos aos Estados-nação coexistem, agora, com um conflito novo e transversal: o que separa as burguesias locais – patrões e trabalhadores, direitas e esquerdas nacionais – da camada digital planetária que hoje define as condições operacionais de todas elas.

<><> Do celeiro de grãos ao celeiro de textos

Houve um momento, no Brasil do fim do século XIX e começo do XX, em que uma parcela da intelectualidade nacional – colonizada no sentido preciso do termo, que tomava o olhar da metrópole como olhar do mundo – celebrou a vocação do país como “celeiro do mundo”. A frase soava grandiosa. Convertia em destino manifesto aquilo que era, na verdade, uma divisão internacional do trabalho bastante específica: o Brasil produziria matéria-prima barata para as economias industriais do Norte; em troca, receberia bens manufaturados, financiamento e tutela política. O modelo agroexportador, edificado sobre essa autoimagem, legou-nos um século e meio de desigualdade estrutural, concentração fundiária, devastação ambiental cíclica e subdesenvolvimento político. Por linhas diferentes, algo muito semelhante está em curso. O Brasil está se tornando, de novo, “o celeiro do mundo” – só que agora de textos. O insumo exportado não é mais soja, café ou minério, mas a matéria-prima cognitiva de uma população inteira: a produção linguística de 150 milhões de brasileiros que, a cada comentário, a cada áudio transcrito, a cada briga em comentários sobre o BBB, o futebol e o “absurdo” dos banheiros unissex, alimentam gratuitamente os corpora de treinamento de modelos que serão vendidos de volta ao próprio Brasil – e ao mundo – como inteligência.

É um arranjo de elegância sinistra. Os grandes custos – energéticos, hídricos, sociais, políticos, sanitários – da expansão digital do Norte serão pagos aqui. A pressão sobre aquíferos, a carga adicional sobre o sistema elétrico, as externalidades cognitivas do uso massivo, as consequências sociais da automação de empregos intermediários, a corrosão do espaço público por algoritmos de recomendação – tudo isso fica conosco.

Em troca, alguns poucos atores locais serão enriquecidos pela tarefa modesta de convencer a maioria de que o destino luminoso do país é ser a maior fazenda de textos do planeta, um imenso pasto digital onde vacas falantes produzem, em tempo real, tokens aproveitáveis sobre paixões domésticas, entretenimento televisivo e pânicos morais convenientemente reciclados. Tudo isso, absolutamente tudo isso, gera dado aproveitável. Realizável em modelos de Inteligência artificial com LLM’s. Valem, literalmente, bilhões de dólares. É importante nomear com precisão o que está em jogo. O dado verdadeiramente perigoso – o dado sobre a nova relação entre colônia e metrópole, sobre os novos espaços de exploração, sobre quem ganha e quem perde nessa arquitetura – esse dado provavelmente nunca será consumido em escala no Brasil. Porque existe, para o controle desse perigo, uma combinação notavelmente eficiente de dois dispositivos: o currículo educacional e o algoritmo.

O primeiro, deformado por reformas sucessivas que reduzem filosofia, sociologia, história e pensamento crítico, garante que a próxima geração não tenha repertório conceitual para formular o problema. O segundo, modulado por objetivos de engajamento que premiam a indignação superficial e desestimulam a complexidade, garante que, mesmo quando o problema é formulado, ele não circula. Os dois dispositivos operam em conjunto: o currículo produz a incapacidade de dizer; o algoritmo produz a surdez de quem, apesar de tudo, tenha conseguido dizer. A esperança vil do capitalismo digital é esta: que acreditemos, mais uma vez, que exportar matéria-prima barata para o Norte é sinal de progresso. Que confundamos a intensidade do nosso ruído com a densidade da nossa soberania. Que celebremos, como um dia se celebrou o navio carregado de café no porto de Santos, os “data centers” que consomem nossa água para destilar, em outras jurisdições, a inteligência artificial feita com nossa própria voz.

Há uma saída, mas ela é desconfortável. Exige reconhecer que os dados brasileiros não são resíduo – são recurso estratégico nacional. Que a infraestrutura hídrica e energética de que se beneficia a computação em larga escala não é bem privado disponível ao maior lance – é bem público sob soberania contestada. Que o currículo educacional e o algoritmo não podem continuar sendo tratados como temas marginais da agenda política, porque são, hoje, os dois principais instrumentos de reprodução – ou de superação – da dependência. Exige, em suma, que o historiador, o jurista, o cientista social, o engenheiro e o pedagogo se sentem à mesma mesa, porque nenhum deles, sozinho, detém o problema inteiro. O século XX nos ensinou, a duras penas, o que significou aceitar a tese colonizada de que o país seria o celeiro do mundo. O século XXI está cobrando agora – e o prazo é curto – que se decida se aceitaremos ser também a sua fazenda de textos.

Fonte: A Terra é Redonda

Nenhum comentário:

Postar um comentário