quinta-feira, 6 de fevereiro de 2025

Hugo Albuquerque: O sonho americano está morto

“O lançamento do DeepSeek, Inteligência Artificial (IA) de uma empresa chinesa, deve ser um alerta para nossas indústrias de que precisamos estar extremamente focados em competir para vencer” disse o presidente americano Donald Trump, há poucos dias, na Flórida, enquanto companhias americanas de tecnologia viam suas ações virarem cinzas no mercado de ações, com perdas na casa de 1 trilhão de dólares. Isso foi fruto do singelo anúncio que uma startup chinesa ultrapassou os titãs corporativos de IA dos Estados Unidos: O DeepSeek – em chinês Shēndù Qiúsuǒ 深度求索 –, que  significa Busca Profunda, foi a causa do choque. Com código-fonte aberto, os chineses roubaram o fogo dos deuses e entregaram à humanidade, permitindo desenvolvimentos autônomos da tecnologia de IA, o que pode alcançar o Sul Global.

Esse evento surpreendente, emblemático e disruptivo é apenas uma imagem de um mosaico de dificuldades para Trump. O leitor atento desta coluna se recorda, por certo, que há duas semanas falávamos sobre o fenômeno do Xiaohongshu, ou Rednote, que foi o aplicativo mais baixado nos Estados Unidos. Agora, a bola da vez nesse sentido é o DeepSeek. Tudo isso no contexto do retorno de Trump à Casa Branca rodeado pelos barões das Big Techs. Como se tudo isso já não fosse um grande problema, a completa incapacidade em lidar com os incêndios em Los Angeles, a epidemia de fentanil e, ainda, a demagogia fascista de Trump contra os imigrantes “ilegais” compõem um quadro tenebroso – a caça aos imigrantes, em particular, conduziu a crises diplomáticas com México, Brasil e, sobretudo, Colômbia, os três principais países da América Latina, a zona de influência imediata dos Estados Unidos.

·        A visão das trevas

O economista grego Yanis Varoufakis sentenciou em seu perfil no X/Twitter: “Costumava ser assim: os Estados Unidos inovavam, a China imitava e a Europa regulamentava; Hoje: a China origina, os Estados Unidos emulam e a Europa estagna”. Impossível não constatar as mudanças de vento. Nem Trump questiona isso: seu mote já era Make America Great Again (Fazer a América grande de novo), o MAGA, e agora ele mesmo admite o golpe. Embora Trump inicie sua narrativa aludindo a uma era de ouro americana que nunca existiu, ele rapidamente sempre passa para que o interessa: um futuro no qual os Estados Unidos precisam rasgar sua fantasia, negando e destruindo a modernidade para se impor em um novo  mundo no qual o país fica para trás, suplantado por civilizações não-brancas que avançam sem controle ou tutela.

Isso revela um padrão dos grandes movimentos de extrema direita. Os fascistas na Itália louvavam a antiguidade gloriosa dos romanos, embora na prática reproduzissem apenas a barbárie instalada após a sua queda. Os nazistas falavam de uma realidade mítico-esotérica dos arianos, mas igualmente repetiam a barbárie, só que sob a moderna tecnologia industrial. Trump fala em Abraham Lincoln, mas é apenas um barão ladrão entre barões ladrões.

Nos três casos, a praxe do passado idealizado serve para uma ruptura na forma de tecno-arcaísmo: um passado dourado que serve para ressuscitar o pior dos dias passados pelo topo das tecnologias, separadas de qualquer projeto de modernidade. Trump é apenas um retorno – como farsa – à era da grande traição posterior à Guerra Civil e o pacto espúrio de 1877, que gerou o segregacionismo. As teorias que servem de verniz ideológico ao trumpismo são produzidas pela mesma oligarquia das Big Techs, como o inefável Peter Thiel: é a turma do Iluminismo das Trevas e o aceleracionismo de direita. Eles atacam o “Estado grande” para, no fim das contas, viver dele. Ao promover a América durona, Trump mira em um caubói de John Wayne, mas acerta no paranoico coronel Kurtz, personagem de Marlon Brando em Apocalypse Now.

·        O sonho como a grande commodity dos Estados Unidos

O tripé do poder americano consiste na hegemonia monetária do dólar, o poderio das forças armadas e, por último, o encanto gerado pela indústria cinematográfica hollywoodiana – cuja sede arde, vítima de incêndios florestais mal controlados. Esses três elementos, no entanto, são feitos de uma matéria peculiar: o sonho americano, como modelo de subjetividade geral que os Estados Unidos exportam. Quem não gostaria de ser um americano, afinal de contas?

A superpotência americana criou uma hegemonia nova, cujo cerne não é a força bruta ou a pujança de sua indústria, o que não consistiria em novidade alguma – e os europeus estariam muito à frente. Ela vive da construção de um novo homem, o americano, em uma nova Terra Prometida, nascida da tomada do território dos povos originários e baseada na mão de obra escrava africana, uma utopia norte-europeia e protestante. Esse sujeito-projeto, que nasceu enquanto síntese messiânica de uma miríade de nações, funcionou como um gatilho do desejo: mesmo Ronald Reagan, no seu discurso derradeiro, pontificou que era possível não só viver nos Estados Unidos como, ainda, se tornar americano. Esse mecanismo despertou a imaginação, por mais de dois séculos, de incontáveis seres humanos dentro e fora dos Estados Unidos.

sonho americano moveu, até mesmo, gerações de lutadores por direitos civis dos negros, os quais desejavam se tornar parte do sistema que se construiu sobre sua escravização – e que lhe denegou a igualdade perante a lei por mais de um século após a abolição da escravatura. Ou dos tantos hispânicos, recebidos pelas portas dos fundos como imigrantes “ilegais”, e que foram racializados e discriminados a todo o tempo, o que se estende aos seus filhos e netos.  A supremacia desse dispositivo funcionou, séculos a fio, como motivador de suas tropas e elemento de atração de quintas-colunas do lado adversário – como se pode ser contra uma nação que é a materialização da liberdade, uma sociedade na qual todos podem ser o que são? Aparentemente, no seu auge, os Estados Unidos encontraram seu esgotamento e o sonho americano se tornou um entrave.

·        Trump e o fim do sonho

De toda forma, ainda que o MAGA seja uma apropriação da campanha de Reagan nos anos 1980, Trump nega inclusive ele – nem é preciso chegar tão longe, do quão nonsense é a apropriação de Lincoln por Trump ou mesmo tomá-lo como um antagonista dos movimentos de inclusão promovidos por Franklin Delano Roosevelt ou John Kennedy. Tampouco o gesto de Trump é um passo em falso: ele é um sintoma. A ascensão dos Estados Unidos como superpotência única após o colapso soviético despreocupou a oligarquia dominante. Ela avançou em um projeto de domínio global, mas também de concentração de riqueza. Os millennials, os nascidos do início dos anos 1980 até 1996, formam a primeira geração americana a conhecer a mobilidade social negativa, isto é, eles foram condenados a viver abaixo da condição de seus pais.

Com a elevação da indignação social, e até mesmo a surpreendente recuperação do termo “socialismo” nos Estados Unidos, a oligarquia dominante criou sua própria forma de populismo, cuja forma final foi dada sob a liderança do comunicativo Donald Trump. Mas as bases ideológicas disso repousam em doutrinas que, sob o nome da liberdade, miram sua destruição. A velha fórmula fascista foi repaginada nos Estados Unidos, mas ela mira um futuro que nega o passado mítico que ela exalta. A fala inspiradora de Reagan em 1989, na verdade, ignorou que a nova realidade econômica que ele criou durante os anos 1980 destruiu a possibilidade do sonho americano. Isso não marca, ainda, uma derrota dos Estados Unidos, mas marca um giro possivelmente irreversível do país. O débil governo de Joe Biden, um interregno entre as duas passagens de Trump pela Casa Branca, apenas mostrou a falência do sonho americano e sua substituição por algo mais mortal, embora mais óbvio. O que resta é uma negação deliberada do iluminismo armada com o que há de mais tecnológico no mundo, ou quase: os chineses estão chegando aí em uma longa marcha em passo apressado.

·        O fim do mundo como conhecemos

Os imigrantes latino-americanos nos Estados Unidos, sobretudo no último quarto de século XX, ilustram um cenário triste: a superpotência americana faliu seus vizinhos, ainda mais com a “crise da dívida” de 1982, e cooptou sua mão de obra na condição de trabalhadores precarizados, sem direitos e destinados a diminuir a média salarial dos trabalhadores recém-empoderados. Era o velho dividir para conquistar. A fúria contra imigrantes hoje ilustra uma economia americana sem dinamismo, mas também a necessidade de criar um pânico racial que tende a aumentar a exploração do trabalho. Seja diminuindo ainda mais o papel dos “ilegais” como, ainda, criando um pânico político contra os trabalhadores “nacionais” racializados, isto é, os não-brancos. O recado é que é a “América”, como espaço interno, para os “americanos” – no fundo, os brancos. Acaba, assim, a narrativa de que qualquer um pode se tornar americano e desfrutar das benesses desse sonho. Os frutos da “América”, agora limitados, cabem apenas aos que podem ser compreendidos como americanos. As portas do paraíso se fecharam. Tudo isso poderia ser uma forma de condensar as forças e permitir que o país avançasse, não fosse o cenário no qual chineses podem superar os Estados Unidos e os pobres optarem.

Quando mesmo americanos “legítimos” veem, via Xiaohongshu, que a vida na China não é o pesadelo que se dizia, e muitas mentiras do governo americano se revelam, a ideia de que a América deve ser tornada exclusiva é antes um sinal de fraqueza, não de privilégio, o que levaria a todos a se reunirem pelo espaço vital em direção a voos mais altos, talvez tomando a Groenlândia e o Canal do Panamá.

Os Estados Unidos, enquanto privilégio de uma classe e sua racialidade preferencial, se chocam contra a noção de futuro compartilhado dos chineses, seu racionalismo perseverante e seus ganhos tecnológicos que geram vários “momentos Sputnik”. Os Estados Unidos ainda podem vencer? Sim, mas não como fantasia edulcorada de potência includente, ainda que fatalmente de mentira.

 

¨      DeepSeek e a transformação da Inteligência Artificial. Por Lucia Santaella, Fabiana Raulino e Kalynka Cruz

Em 27 de janeiro de 2025, foi lançado o DeepSeek, uma startup chinesa que apresentou um modelo de IA de alto desempenho e baixo custo, desenvolvido com um investimento, segundo a empresa, de apenas US$ 5,6 milhões (Agência Brasil, 2025). O sucesso da DeepSeek desafiou a supremacia das gigantes americanas no setor de inteligência artificial (IA), o que provocou um impacto entre investidores sobre a possível perda de influência das empresas dos EUA nesse domínio tecnológico. Não por acaso, o mercado financeiro global sofreu uma significativa desvalorização nas ações de empresas de tecnologia dos Estados Unidos, resultando em uma perda acumulada de aproximadamente US$ 1 trilhão em valor de mercado. Foi fartamente noticiado que a Nvidia, renomada fabricante de chips de inteligência artificial (IA), arcou com uma queda de 17% em suas ações, correspondendo a uma redução de US$ 589 bilhões em sua capitalização, a maior já registrada por uma única empresa em um único dia no mercado acionário americano. Além da Nvidia, outras empresas de tecnologia, como Meta e Alphabet, também registraram quedas significativas em suas ações, refletindo a apreensão do mercado diante do avanço chinês na área de inteligência artificial.

Este texto busca explicar o porquê da ferramenta DeepSeek ter gerado tamanho impacto no mercado, além de aparecer como uma ótima alternativa gratuita para o Brasil e, especialmente, como é possível extrair o melhor daquilo que essa tecnologia tem a dar. Nosso objetivo é explicar o que são os MoEs (Mixture of Experts) utilizados pela DeepSeek, que estão na base de um funcionamento diferenciado de outros modelos produzidos no Vale do Silício, especialmente o mais popular dentre eles, o ChatGPT4, de resto, um modelo pago. Por fim, algumas reflexões serão apresentadas sobre a importância de obtermos letramento digital sobre o uso dessas tecnologias para elaborarmos comandos semanticamente precisos e estrategicamente otimizados, garantindo maior eficiência e relevância nas interações com sistemas cognitivos especializados. Este artigo foi escrito em janeiro de 2025. A localização temporal torna-se um elemento essencial quando se trata de discutir quaisquer aspectos da IA, isto porque é necessário situar o leitor e fundamentar as análises realizadas, permitindo compreender as discussões nesse campo em constante transformação.

<><> A ascensão dos experts: sistemas cognitivos especializados

Este LLM (Large Language Model) chinês, desenvolvido pela empresa de mesmo nome em Hangzhou, explícita ou implicitamente traz consigo a promessa de rivalizar — e até superar — o desempenho de outros Chats, inclusive o ChatGPT, mesmo em sua versão paga (GPT-4) (Steibel et al, 2025). Para aqueles que já o experimentaram, o que mais chama atenção é o fato de um modelo gratuito alcançar níveis de qualidade comparáveis a um sistema amplamente reconhecido e financeiramente robusto, levantando a pergunta: como isso seria possível, considerando que o DeepSeek foi treinado com um custo significativamente menor?

Para contextualizar, a empresa afirma que o treinamento do DeepSeek R1 custou cerca de US$ 5,6 milhões, uma fração ínfima quando comparada aos gastos declarados pela Meta ao treinar o Llama, que utilizou dezenas de milhares de chips Nvidia e investimentos expressivamente maiores (Dave; Knight, 2024). Elon Musk contestou a informação e disse que isso seria impossível. Em contraste, o DeepSeek aproveitou um conjunto de mais de 2.000 chips Nvidia, um número surpreendentemente baixo para modelos dessa magnitude.

A chave para essa eficiência impressionante deve estar na arquitetura que fundamenta o modelo, um marco na era dos modelos de IA: o Mixture of Experts (MoE). Com isso, o DeepSeek simboliza uma mudança de paradigma no desenvolvimento de LLMs, mostrando que excelência não está necessariamente atrelada a recursos financeiros exorbitantes, mas sim a inovações arquitetônicas. Sua adoção do MoE desafia a supremacia das arquiteturas transformer tradicionais, demonstrando que é possível equilibrar profundidade, especialização e eficiência computacional (Cai, 2024).

É possível prever que, mesmo que existam esforços para conter o avanço do DeepSeek, como ocorreu com plataformas como o TikTok ou com as restrições comerciais impostas por empresas norte-americanas de semicondutores ao mercado chinês, sua arquitetura open source já está disponível e sendo amplamente explorada pela comunidade global de desenvolvedores (Sanseviero, 2023). Essa abertura torna inviável restringir ou centralizar seu uso, permitindo que o modelo seja adaptado, aprimorado e integrado a diversas aplicações sem depender de uma única entidade ou jurisdição. Essa característica consolida o DeepSeek.

<><> Onde reside o segredo: uma nova abordagem para redes neurais escaláveis

De acordo com Krishnamurthy et al (2023), o diferencial técnico da abordagem Mixture of Experts (MoE) está na capacidade de dividir o trabalho entre diferentes "especialistas" — partes do modelo treinadas para lidar com tipos específicos de dados ou tarefas. Ao invés de utilizar um único modelo monolítico para processar todas as entradas, o MoE distribui a carga computacional, ativando apenas os especialistas mais relevantes para a tarefa em questão. Essa ativação seletiva não apenas melhora a eficiência, mas também possibilita a especialização sem aumentar o custo computacional de maneira linear.

Em 2024, os MoEs ganharam relevância significativa com o lançamento de modelos como Mixtral-8x7B, Grok-1, DBRX, Arctic, e o DeepSeek-V2, todos adotando essa abordagem para maximizar eficiência e precisão. Esses avanços destacaram a capacidade dos MoEs de reduzir os limites impostos por arquiteturas tradicionais, abrindo novas possibilidades em escala, especialização e acessibilidade (Cai, 2024).

A inovação dos MoEs está na substituição das camadas tradicionais de redes neurais feedforward (FFN) por camadas especializadas (MoE). Em modelos baseados em transformers, como os LLMs (Large Language Models), essas camadas MoE são compostas por várias subredes independentes, denominadas "especialistas". Cada especialista é uma rede neural dedicada, com seu próprio conjunto de pesos, treinada para executar um tipo específico de processamento (Grootendorst, 2024). O processo central dos MoEs envolve um mecanismo conhecido como gating function. Esse componente atua como um roteador dinâmico, decidindo quais especialistas devem ser ativados para cada entrada específica, com base em características dos dados ou tokens processados. Esse mecanismo é o que permite aos MoEs oferecer maior especialização em áreas específicas, ao mesmo tempo que minimizam custos computacionais desnecessários (Grootendorst, 2024). Em contraste com redes neurais tradicionais, onde cada camada utiliza todos os nós para processar uma entrada, um modelo MoE emprega apenas um subconjunto de especialistas para lidar com cada tarefa.

Por exemplo, em uma entrada relacionada a uma linguagem de programação como Python, o modelo pode ativar especialistas focados em sintaxe de código, lógica computacional e análise semântica, enquanto ignora especialistas voltados para processamento de linguagem natural ou dados numéricos. Essa ativação seletiva permite que o modelo escale sem que o custo computacional cresça proporcionalmente.

A eficiência dos MoEs também se reflete na otimização de recursos durante o treinamento. Em vez de treinar um modelo menor por mais etapas, os MoEs permitem que modelos maiores sejam treinados em menos iterações (iteration), otimizando o orçamento computacional. Essa abordagem tem demonstrado ser mais eficaz para melhorar a qualidade final do modelo, especialmente quando se trata de LLMs em larga escala (Sanseviero et al, 2023). Além disso, o DeepSeek e outros modelos MoE priorizam eficiência energética e acessibilidade, utilizando GPUs de forma inteligente e escalável. A arquitetura suporta até 338 linguagens de programação, com foco na inclusão de múltiplos contextos, ao mesmo tempo que mantém uma abordagem open source, permitindo que a comunidade técnica participe ativamente de sua evolução (Zhu et al., 2024).

Uma característica impressionante dos MoEs, exemplificada pelo DeepSeek-V3, é a transparência em suas operações. Ao solicitar, por exemplo, a geração de um código em Python, o modelo não apenas entrega o resultado, mas também fornece uma explicação detalhada de como está pensando (thinking) ao processar o comando. Esse comportamento reflete o avanço dos MoEs em transformar sistemas de IA em verdadeiros especialistas cognitivos, capazes de contextualizar e justificar suas respostas (Zhuu et al., 2024).

<><> Comparações oportunas

Para melhor compreensão dos MoEs, compartilhamos a tradução de uma analogia que encontramos em uma publicação do LinkedIn, muito interessante pela didática. Ela foi criada por Harsha Kudaravalli, que esclarece as diferenças fundamentais entre as arquiteturas do GPT-4 e do DeepSeek com a seguinte analogia: imagine que ambos os modelos têm 100 pessoas respondendo aos seus comandos. No caso do GPT, essa abordagem seria equivalente a 100 colaboradores generalistas, cada um tentando contribuir com uma resposta razoável, mas sem um foco profundo em um tema específico. Já no DeepSeek, esses 100 colaboradores seriam especialistas altamente qualificados, cada uma com um domínio aprofundado em uma área específica, sendo ativadas apenas quando sua expertise é relevante para a tarefa. Essa analogia nos ajuda a visualizar como as redes neurais diferem na maneira como processam e distribuem informações, ilustrando o salto qualitativo que o DeepSeek oferece ao adotar a arquitetura Mixture of Experts.

Para entender a magnitude dessa diferença, é útil considerar como um modelo como o GPT-4 opera. Em termos simplificados, seria como ter milhares de colaboradores generalistas respondendo a um prompt, mas sem ativar um conhecimento específico a menos que o usuário forneça instruções explícitas e contextualizadas. O MoE, por outro lado, propõe um paradigma fundamentalmente diferente. Inspirado pelo trabalho seminal de Jacobs e Nowlan (1991) e Jordan e Jacobs (1994), Cai et al. (2024) apresentaram o artigo “A Survey on Mixture of Experts” no qual o MoE é explicitado no tempo atual com seus componentes especializados, denominados "experts". Esses experts não trabalham simultaneamente, ou seja, apenas os componentes mais relevantes para uma tarefa específica são ativados em um dado momento. Isso resulta em uma redução significativa nos custos computacionais, permitindo uma utilização mais eficiente dos recursos disponíveis, ao mesmo tempo que entrega respostas altamente especializadas.

<><> No universo dos prompts

Para compreender melhor como o DeepSeek opera em sua arquitetura, é necessário explorar a maneira como modelos de linguagem processam prompts. No caso de LLMs como o GPT-4, a base está no transformer, uma estrutura de autoatenção introduzida no artigo revolucionário “Attention is All You Need” (Vaswani et al., 2017). Essa arquitetura utiliza mecanismos que avaliam a relevância de cada palavra dentro de uma frase, atribuindo pesos matemáticos a tokens e identificando relações semânticas em um espaço multidimensional. Quando o usuário digita um comando, o modelo analisa a ordem das palavras, suas conexões e o peso semântico relativo para gerar a melhor resposta possível. De acordo com a análise feita na plataforma de desenvolvedores Hugging Face por Sanseviero (2023), o DeepSeek, ao adotar o MoE, leva esse processo a um novo patamar por usar a esparsidade. A esparsidade usa a ideia de computação condicional, portanto, enquanto em modelos densos todos os parâmetros são usados para todas as entradas, a esparsidade nos permite executar apenas algumas partes de todo o sistema.

Aqui, a escolha semântica feita pelo usuário no prompt assume ainda mais importância. Cada palavra no comando pode ativar experts diferentes, dependendo de sua relevância. Assim, enquanto o transformer distribui atenção de forma ampla para todas as partes da entrada, o MoE atua de forma seletiva, como se delegasse partes da tarefa para especialistas específicos que melhor entendem aquele contexto, ou seja, o MoE mantém o mecanismo de atenção do transformer, mas otimiza a computação ao ativar seletivamente subredes especializadas para cada entrada e, portanto, reduzindo o custo computacional. Por exemplo, um prompt técnico sobre medicina pode ativar subredes especializadas em terminologia médica e processamento de linguagem científica, enquanto uma solicitação relacionada à criação artística pode acionar especialistas em análise estética e composição criativa. Esse mecanismo de ativação condicional permite que o DeepSeek equilibre profundidade analítica e eficiência operacional, gerando respostas detalhadas sem comprometer recursos computacionais.

Além de sua arquitetura MoE, a eficiência do DeepSeek também pode ser atribuída a sua estratégia de treinamento. Enquanto modelos densos exigem o uso de todos os parâmetros para cada entrada, o DeepSeek utiliza uma arquitetura esparsa, ativando dinamicamente apenas os especialistas relevantes por cada inferência. Essa abordagem seletiva reduz drasticamente a redundância, resultando, ademais, em menos consumo energético e menores custos de treinamento (Dai, 2024, p. 8).

Em última análise, o sucesso de tecnologias como o DeepSeek reforça a importância de integrar inovações técnicas com uma compreensão profunda da semântica e do potencial que reside em cada prompt, reafirmando que, no campo da IA, o verdadeiro diferencial está no equilíbrio entre eficiência e especialização. Ao analisar os MoEs do DeepSeek, torna-se evidente que o futuro dos modelos de linguagem aponta para uma especialização crescente, integrada à capacidade de personalização pelos usuários. No entanto, ao considerar o nosso português como língua principal, por exemplo, enfrentamos um desafio significativo: esses modelos são amplamente treinados em inglês, uma língua que não reflete completamente nossas especificidades linguísticas, culturais e contextuais. Isso muitas vezes resulta em respostas que ignoram nuances linguísticas e complexidades, no nosso caso, da língua e cultura brasileiras de que a língua é inseparável. Para compensar essa lacuna, nossos comandos precisam ser mais longos, detalhados e cuidadosamente elaborados, para orientar os especialistas internos do modelo a operar de forma mais precisa e eficiente em nosso idioma.

O cuidado na semântica e sintaxe pode transformar resultados medianos em criações avançadas que dependem da clara expressão verbal de nossas necessidades (Chan et al., 2024). Grande parte dos usuários não chega a explorar esse conteúdo, seja pela falta de hábito de leitura, pela dificuldade em navegar na complexidade das opções oferecidas, por desconhecimento ou pelo fato de as interfaces dessas ferramentas serem tão intuitivas e simples que geram a falsa impressão de que não há necessidade de especialização. Entretanto, a realidade mostra que essa especialização é crucial para alcançar resultados verdadeiramente diferenciados (essa documentação encontra-se nas próprias plataformas) (Labate e Cozman, 2024). De acordo com Chan et al (2024, s/p), a acessibilidade das ferramentas, por mais intuitivas que pareçam, frequentemente esconde dependência de conhecimento técnico. Documentações e a necessidade de entender conceitos subjacentes tornam-se uma vantagem competitiva para aqueles que dedicam tempo à aprendizagem e prática. Por exemplo, entender como construir um comando que especifique ângulos de câmera em um vídeo ou a paleta de cores de uma imagem permite ao especialista produzir resultados que superam em muito os padrões oferecidos pelas interações básicas.

<><> Reflexões provisórias

Os desafios das IAs generativas refletem a complexidade de um mundo cada vez mais interconectado, mas profundamente desigual. A concentração de poder econômico e tecnológico nas mãos de grandes corporações e países desenvolvidos perpetua disparidades no acesso a infraestrutura, dados e conhecimento técnico. Enquanto Estados Unidos, China e União Europeia lideram a corrida, países em desenvolvimento enfrentam barreiras estruturais que dificultam sua soberania digital, agravando desigualdades socioeconômicas e culturais (Tao et al., 2024, p. 4). Além disso, a falta de diversidade nos times de desenvolvimento e a exclusão de línguas e contextos locais resultam em soluções que não atendem à complexidade das comunidades globais, criando um abismo digital que compromete o potencial inclusivo dessas tecnologias (Tao et al., 2024, p. 4).

Ao analisar a trajetória do DeepSeek e seu enorme impacto no mercado, torna-se evidente que o futuro dos modelos de linguagem caminha para uma maior especialização, alinhada à capacidade de personalização por parte dos usuários. E não é só isso: para brasileiros, ter um modelo gratuito e aberto cria inúmeras oportunidades novas e faz com que a DeepSeek possa provavelmente ser a melhor alternativa de uso, muito além do que IAs como Claude e Perplexity conseguiram.

A governança ética e a sustentabilidade também são questões críticas. Modelos avançados como os de IA generativa demandam infraestrutura computacional massiva, resultando em altos custos energéticos e ambientais, muitas vezes em regiões de alta pegada de carbono. Simultaneamente, a ausência de regulamentações globais sobre privacidade, vieses e usos militares da IA alimenta tensões geopolíticas, levantando o dilema entre inovação e mitigação de riscos (Andrade e Röhe, 2023, p. 51). Somado a isso, controles de exportação de tecnologias avançadas reforçam o domínio de poucos atores e dificultam a inovação em regiões menos desenvolvidas. Para enfrentar esses desafios, é imprescindível um esforço global que priorize inclusão, ética e sustentabilidade, garantindo que os avanços da IA beneficiem a todos, e não apenas uma parcela privilegiada (Andrade e Röhe, 2023, p. 54).

O DeepSeek, de fato, ao se diferenciar pelo uso inteligente de recursos computacionais, pelo foco em especialização e pela capacidade de adaptar-se ao contexto, abre um novo capítulo na história dos LLMs. Com um treinamento acessível, uma abordagem open source, e uma comunidade ativa de desenvolvedores, o DeepSeek se consolida como um modelo inclusivo, eficiente e disruptivo. No entanto, ele também escancara desafios fundamentais, como a necessidade de linguagens e culturas menos representadas se adaptarem às lacunas nos dados de treinamento. Para usuários da nossa língua portuguesa, por exemplo, elaborar prompts mais detalhados e direcionados é um requisito para maximizar o potencial desses sistemas. O poder dessas ferramentas está intrinsecamente ligado à capacidade humana de explorar seu potencial com criatividade e profundidade. Assim como os especialistas internos do MoE são ativados pelo contexto, os humanos, ao interagir com essas tecnologias, precisam se posicionar como mentores que guiam o conhecimento gerado pela IA, moldando-o com base em suas intenções e necessidades. A construção de um futuro sustentável requer a implementação de ações educacionais coordenadas que democratizem o conhecimento e fomentem a alfabetização digital, garantindo que todas as pessoas tenham acesso às ferramentas necessárias para atuar de forma crítica e ativa na transformação digital e socioeconômica. Não cumpriremos esse compromisso se não estruturarmos modelos educacionais inclusivos e acessíveis, capazes de preparar indivíduos para um mundo no qual a simbiose entre humanidade e tecnologia seja conduzida com responsabilidade e visão sistêmica.

 

Fonte: Opera Mundi/IHU

 

Nenhum comentário: