Hugo
Albuquerque: O sonho americano está morto
“O lançamento do DeepSeek, Inteligência
Artificial (IA) de uma empresa chinesa, deve ser um alerta para nossas
indústrias de que precisamos estar extremamente focados em competir para
vencer” disse o presidente americano Donald Trump, há poucos dias, na
Flórida, enquanto companhias americanas de tecnologia viam suas ações virarem
cinzas no mercado de ações, com perdas na casa de 1 trilhão de dólares. Isso foi fruto do singelo
anúncio que uma startup chinesa ultrapassou os titãs
corporativos de IA dos Estados Unidos: O DeepSeek – em
chinês Shēndù Qiúsuǒ 深度求索 –, que significa Busca
Profunda, foi a causa do choque. Com código-fonte aberto, os chineses
roubaram o fogo dos deuses e entregaram à humanidade, permitindo
desenvolvimentos autônomos da tecnologia de IA, o que pode alcançar o Sul
Global.
Esse evento surpreendente, emblemático e disruptivo é apenas uma
imagem de um mosaico de dificuldades para Trump. O leitor atento desta coluna
se recorda, por certo, que há duas semanas falávamos sobre o fenômeno do Xiaohongshu, ou Rednote, que foi o aplicativo mais baixado nos
Estados Unidos. Agora, a bola da vez nesse sentido é o DeepSeek.
Tudo isso no contexto do retorno de Trump à Casa Branca rodeado pelos barões das Big
Techs. Como se tudo isso já não fosse
um grande problema, a completa incapacidade em lidar com os incêndios em Los
Angeles, a epidemia de fentanil e, ainda, a demagogia fascista de Trump contra
os imigrantes “ilegais” compõem um quadro tenebroso – a caça aos imigrantes, em
particular, conduziu a crises diplomáticas com México, Brasil e,
sobretudo, Colômbia, os três principais países da América Latina, a zona de
influência imediata dos Estados Unidos.
·
A visão das trevas
O economista grego Yanis Varoufakis sentenciou em seu perfil no X/Twitter: “Costumava ser assim: os Estados
Unidos inovavam, a China imitava e a Europa regulamentava; Hoje: a China
origina, os Estados Unidos emulam e a Europa estagna”. Impossível não constatar
as mudanças de vento. Nem Trump questiona isso: seu mote já era Make
America Great Again (Fazer a América grande de novo), o MAGA, e agora
ele mesmo admite o golpe. Embora Trump inicie sua
narrativa aludindo a uma era de ouro americana que nunca existiu, ele
rapidamente sempre passa para que o interessa: um futuro no qual os Estados
Unidos precisam rasgar sua fantasia, negando e destruindo a modernidade para se
impor em um novo mundo no qual o país fica para trás, suplantado por
civilizações não-brancas que avançam sem controle ou tutela.
Isso revela um padrão dos grandes movimentos de extrema direita.
Os fascistas na Itália louvavam a antiguidade gloriosa dos romanos, embora na
prática reproduzissem apenas a barbárie instalada após a sua queda. Os nazistas
falavam de uma realidade mítico-esotérica dos arianos, mas igualmente repetiam
a barbárie, só que sob a moderna tecnologia industrial. Trump fala em Abraham
Lincoln, mas é apenas um barão ladrão entre barões ladrões.
Nos três casos, a praxe do passado idealizado serve para uma
ruptura na forma de tecno-arcaísmo: um passado dourado que serve para
ressuscitar o pior dos dias passados pelo topo das tecnologias, separadas de
qualquer projeto de modernidade. Trump é apenas um retorno – como farsa – à era
da grande traição posterior à Guerra Civil e o pacto espúrio de 1877, que gerou o segregacionismo. As teorias que servem de verniz ideológico ao trumpismo são
produzidas pela mesma oligarquia das Big Techs, como o inefável Peter Thiel: é a turma do Iluminismo das Trevas e o
aceleracionismo de direita. Eles atacam o “Estado grande” para, no fim das
contas, viver dele. Ao promover a América durona, Trump mira em um caubói de
John Wayne, mas acerta no paranoico coronel Kurtz, personagem de Marlon Brando em Apocalypse Now.
·
O sonho como a grande commodity dos Estados
Unidos
O tripé do poder americano consiste na hegemonia monetária do
dólar, o poderio das forças armadas e, por último, o encanto gerado pela
indústria cinematográfica hollywoodiana – cuja sede arde, vítima de incêndios
florestais mal controlados. Esses três elementos, no entanto, são feitos de uma
matéria peculiar: o sonho americano, como modelo de subjetividade geral que os
Estados Unidos exportam. Quem não gostaria de ser um americano, afinal de
contas?
A superpotência americana criou uma hegemonia nova, cujo cerne não
é a força bruta ou a pujança de sua indústria, o que não consistiria em
novidade alguma – e os europeus estariam muito à frente. Ela vive da construção
de um novo homem, o americano, em uma nova Terra Prometida, nascida
da tomada do território dos povos originários e baseada na mão de obra escrava
africana, uma utopia norte-europeia e protestante. Esse sujeito-projeto, que nasceu enquanto síntese messiânica de
uma miríade de nações, funcionou como um gatilho do desejo: mesmo Ronald
Reagan, no seu discurso derradeiro, pontificou que era possível não só viver
nos Estados Unidos como, ainda, se tornar americano. Esse mecanismo despertou a imaginação, por mais de dois séculos,
de incontáveis seres humanos dentro e fora dos Estados Unidos.
O sonho americano moveu, até mesmo, gerações de
lutadores por direitos civis dos negros, os quais desejavam se tornar parte do
sistema que se construiu sobre sua escravização – e que lhe denegou a igualdade
perante a lei por mais de um século após a abolição da escravatura. Ou dos
tantos hispânicos, recebidos pelas portas dos fundos como imigrantes “ilegais”,
e que foram racializados e discriminados a todo o tempo, o que se estende aos
seus filhos e netos. A supremacia desse dispositivo
funcionou, séculos a fio, como motivador de suas tropas e elemento de atração
de quintas-colunas do lado adversário – como se pode ser contra uma nação que é
a materialização da liberdade, uma sociedade na qual todos podem ser o que são?
Aparentemente, no seu auge, os Estados Unidos encontraram seu esgotamento e o
sonho americano se tornou um entrave.
·
Trump e o fim do sonho
De toda forma, ainda que o MAGA seja uma apropriação da campanha
de Reagan nos anos 1980, Trump nega inclusive ele – nem é preciso chegar tão
longe, do quão nonsense é a apropriação de Lincoln por Trump
ou mesmo tomá-lo como um antagonista dos movimentos de inclusão promovidos por
Franklin Delano Roosevelt ou John Kennedy. Tampouco o gesto de Trump é um passo
em falso: ele é um sintoma. A ascensão dos Estados Unidos
como superpotência única após o colapso soviético despreocupou a oligarquia
dominante. Ela avançou em um projeto de domínio global, mas também de
concentração de riqueza. Os millennials, os nascidos do início dos
anos 1980 até 1996, formam a primeira geração americana a conhecer a mobilidade social
negativa, isto é, eles foram condenados a viver abaixo da condição de seus
pais.
Com a elevação da indignação social, e até mesmo a surpreendente
recuperação do termo “socialismo” nos Estados Unidos, a oligarquia dominante
criou sua própria forma de populismo, cuja forma final foi dada sob a liderança
do comunicativo Donald Trump. Mas as bases ideológicas disso repousam em
doutrinas que, sob o nome da liberdade, miram sua destruição. A velha fórmula fascista foi repaginada nos Estados Unidos, mas
ela mira um futuro que nega o passado mítico que ela exalta. A fala inspiradora
de Reagan em 1989, na verdade, ignorou que a nova realidade econômica que ele
criou durante os anos 1980 destruiu a possibilidade do sonho americano. Isso
não marca, ainda, uma derrota dos Estados Unidos, mas marca um giro
possivelmente irreversível do país. O débil governo de Joe Biden,
um interregno entre as duas passagens de Trump pela Casa Branca, apenas mostrou
a falência do sonho americano e sua substituição por algo mais mortal, embora
mais óbvio. O que resta é uma negação deliberada do iluminismo armada com o que
há de mais tecnológico no mundo, ou quase: os chineses estão chegando aí em uma
longa marcha em passo apressado.
·
O fim do mundo como conhecemos
Os imigrantes latino-americanos nos Estados Unidos, sobretudo no
último quarto de século XX, ilustram um cenário triste: a superpotência
americana faliu seus vizinhos, ainda mais com a “crise da dívida” de 1982, e
cooptou sua mão de obra na condição de trabalhadores precarizados, sem direitos
e destinados a diminuir a média salarial dos trabalhadores recém-empoderados.
Era o velho dividir para conquistar. A fúria contra imigrantes hoje ilustra uma economia americana sem
dinamismo, mas também a necessidade de criar um pânico racial que tende a
aumentar a exploração do trabalho. Seja diminuindo ainda mais o papel dos
“ilegais” como, ainda, criando um pânico político contra os trabalhadores
“nacionais” racializados, isto é, os não-brancos. O recado é que é a “América”,
como espaço interno, para os “americanos” – no fundo, os brancos. Acaba, assim, a narrativa de que qualquer um pode se tornar
americano e desfrutar das benesses desse sonho. Os frutos da “América”, agora
limitados, cabem apenas aos que podem ser compreendidos como americanos. As
portas do paraíso se fecharam. Tudo isso poderia ser uma forma de condensar as
forças e permitir que o país avançasse, não fosse o cenário no qual chineses
podem superar os Estados Unidos e os pobres optarem.
Quando mesmo americanos “legítimos” veem, via Xiaohongshu,
que a vida na China não é o pesadelo que se dizia, e muitas mentiras do governo
americano se revelam, a ideia de que a América deve ser tornada exclusiva é
antes um sinal de fraqueza, não de privilégio, o que levaria a todos a se
reunirem pelo espaço vital em direção a voos mais altos, talvez tomando a
Groenlândia e o Canal do Panamá.
Os Estados Unidos, enquanto privilégio de uma classe e sua
racialidade preferencial, se chocam contra a noção de futuro compartilhado dos
chineses, seu racionalismo perseverante e seus ganhos tecnológicos que geram
vários “momentos Sputnik”. Os Estados Unidos ainda podem vencer? Sim, mas não
como fantasia edulcorada de potência includente, ainda que fatalmente de
mentira.
¨ DeepSeek e a transformação da Inteligência Artificial.
Por Lucia Santaella, Fabiana Raulino e Kalynka Cruz
Em 27 de janeiro de
2025, foi lançado o DeepSeek, uma startup chinesa que apresentou um modelo
de IA de alto desempenho
e baixo custo, desenvolvido com um investimento, segundo a empresa, de apenas
US$ 5,6 milhões (Agência Brasil, 2025). O sucesso
da DeepSeek desafiou a supremacia das gigantes americanas no setor
de inteligência artificial (IA), o que provocou um impacto entre
investidores sobre a possível perda de influência das empresas
dos EUA nesse domínio tecnológico. Não por acaso, o mercado
financeiro global sofreu uma significativa desvalorização nas ações de empresas
de tecnologia dos Estados Unidos, resultando em uma perda acumulada de
aproximadamente US$ 1 trilhão em valor de mercado. Foi fartamente noticiado que
a Nvidia, renomada fabricante de chips de inteligência
artificial (IA), arcou com uma queda de 17% em suas ações, correspondendo
a uma redução de US$ 589 bilhões em sua capitalização, a maior já registrada
por uma única empresa em um único dia no mercado acionário americano. Além da
Nvidia, outras empresas de tecnologia, como Meta e Alphabet,
também registraram quedas significativas em suas ações, refletindo a apreensão
do mercado diante do avanço chinês na área de inteligência artificial.
Este texto busca
explicar o porquê da ferramenta DeepSeek ter gerado tamanho impacto
no mercado, além de aparecer como uma ótima alternativa gratuita para o Brasil
e, especialmente, como é possível extrair o melhor daquilo que essa tecnologia
tem a dar. Nosso objetivo é explicar o que são os MoEs (Mixture of
Experts) utilizados pela DeepSeek, que estão na base de um funcionamento
diferenciado de outros modelos produzidos no Vale do Silício, especialmente o
mais popular dentre eles, o ChatGPT4, de resto, um
modelo pago. Por fim, algumas reflexões serão apresentadas sobre a importância
de obtermos letramento digital sobre o uso dessas tecnologias para elaborarmos
comandos semanticamente precisos e estrategicamente otimizados, garantindo
maior eficiência e relevância nas interações com sistemas cognitivos
especializados. Este artigo foi escrito em janeiro de 2025. A localização
temporal torna-se um elemento essencial quando se trata de discutir quaisquer
aspectos da IA, isto porque é necessário situar o leitor e fundamentar as
análises realizadas, permitindo compreender as discussões nesse campo em constante
transformação.
<><> A
ascensão dos experts: sistemas cognitivos especializados
Este LLM (Large
Language Model) chinês, desenvolvido pela empresa de mesmo nome em Hangzhou,
explícita ou implicitamente traz consigo a promessa de rivalizar — e até superar
— o desempenho de outros Chats, inclusive o ChatGPT, mesmo em sua versão
paga (GPT-4) (Steibel et al, 2025). Para aqueles que já o experimentaram, o que
mais chama atenção é o fato de um modelo gratuito alcançar níveis de qualidade
comparáveis a um sistema amplamente reconhecido e financeiramente robusto,
levantando a pergunta: como isso seria possível, considerando que o DeepSeek
foi treinado com um custo significativamente menor?
Para
contextualizar, a empresa afirma que o treinamento
do DeepSeek R1 custou cerca de US$ 5,6 milhões, uma fração
ínfima quando comparada aos gastos declarados pela Meta ao treinar o
Llama, que utilizou dezenas de milhares de chips Nvidia e
investimentos expressivamente maiores (Dave; Knight, 2024). Elon Musk contestou
a informação e disse que isso seria impossível. Em contraste, o DeepSeek
aproveitou um conjunto de mais de 2.000 chips Nvidia, um número
surpreendentemente baixo para modelos dessa magnitude.
A chave para essa
eficiência impressionante deve estar na arquitetura que fundamenta o modelo, um
marco na era dos modelos de IA: o Mixture of Experts (MoE). Com isso,
o DeepSeek simboliza uma mudança de paradigma no desenvolvimento de
LLMs, mostrando que excelência não está necessariamente atrelada a recursos
financeiros exorbitantes, mas sim a inovações arquitetônicas. Sua adoção do MoE
desafia a supremacia das arquiteturas transformer tradicionais, demonstrando
que é possível equilibrar profundidade, especialização e eficiência
computacional (Cai, 2024).
É possível prever
que, mesmo que existam esforços para conter o avanço do DeepSeek, como ocorreu
com plataformas como o TikTok ou com as restrições
comerciais impostas por empresas norte-americanas de semicondutores ao mercado
chinês, sua arquitetura open source já está disponível e sendo amplamente
explorada pela comunidade global de desenvolvedores (Sanseviero, 2023). Essa
abertura torna inviável restringir ou centralizar seu uso, permitindo que o
modelo seja adaptado, aprimorado e integrado a diversas aplicações sem depender
de uma única entidade ou jurisdição. Essa característica consolida
o DeepSeek.
<><> Onde
reside o segredo: uma nova abordagem para redes neurais escaláveis
De acordo
com Krishnamurthy et al (2023), o diferencial técnico da
abordagem Mixture of Experts (MoE) está na capacidade de dividir o
trabalho entre diferentes "especialistas" — partes do modelo
treinadas para lidar com tipos específicos de dados ou tarefas. Ao invés de
utilizar um único modelo monolítico para processar todas as entradas, o MoE
distribui a carga computacional, ativando apenas os especialistas mais
relevantes para a tarefa em questão. Essa ativação seletiva não apenas melhora
a eficiência, mas também possibilita a especialização sem aumentar o custo
computacional de maneira linear.
Em 2024,
os MoEs ganharam relevância significativa com o lançamento de modelos
como Mixtral-8x7B, Grok-1, DBRX, Arctic, e o DeepSeek-V2,
todos adotando essa abordagem para maximizar eficiência e precisão. Esses
avanços destacaram a capacidade dos MoEs de reduzir os limites impostos por
arquiteturas tradicionais, abrindo novas possibilidades em escala,
especialização e acessibilidade (Cai, 2024).
A inovação dos MoEs
está na substituição das camadas tradicionais de redes neurais feedforward
(FFN) por camadas especializadas (MoE). Em modelos baseados em transformers,
como os LLMs (Large Language Models), essas camadas MoE são
compostas por várias subredes independentes, denominadas
"especialistas". Cada especialista é uma rede neural dedicada, com
seu próprio conjunto de pesos, treinada para executar um tipo específico de
processamento (Grootendorst, 2024). O processo central dos MoEs envolve
um mecanismo conhecido como gating function. Esse componente atua como um
roteador dinâmico, decidindo quais especialistas devem ser ativados para cada
entrada específica, com base em características dos dados ou tokens
processados. Esse mecanismo é o que permite aos MoEs oferecer maior
especialização em áreas específicas, ao mesmo tempo que minimizam custos
computacionais desnecessários (Grootendorst, 2024). Em contraste com redes
neurais tradicionais, onde cada camada utiliza todos os nós para processar uma
entrada, um modelo MoE emprega apenas um subconjunto de especialistas para
lidar com cada tarefa.
Por exemplo, em uma
entrada relacionada a uma linguagem de programação como Python, o modelo
pode ativar especialistas focados em sintaxe de código, lógica computacional e
análise semântica, enquanto ignora especialistas voltados para processamento de
linguagem natural ou dados numéricos. Essa ativação seletiva permite que o
modelo escale sem que o custo computacional cresça proporcionalmente.
A eficiência
dos MoEs também se reflete na otimização de recursos durante o
treinamento. Em vez de treinar um modelo menor por mais etapas, os MoEs
permitem que modelos maiores sejam treinados em menos iterações (iteration),
otimizando o orçamento computacional. Essa abordagem tem demonstrado ser mais
eficaz para melhorar a qualidade final do modelo, especialmente quando se trata
de LLMs em larga escala (Sanseviero et al, 2023). Além disso,
o DeepSeek e outros modelos MoE priorizam eficiência
energética e acessibilidade, utilizando GPUs de forma inteligente e escalável.
A arquitetura suporta até 338 linguagens de programação, com foco na inclusão
de múltiplos contextos, ao mesmo tempo que mantém uma abordagem open source,
permitindo que a comunidade técnica participe ativamente de sua evolução (Zhu
et al., 2024).
Uma característica
impressionante dos MoEs, exemplificada pelo DeepSeek-V3, é a
transparência em suas operações. Ao solicitar, por exemplo, a geração de um
código em Python, o modelo não apenas entrega o resultado, mas também
fornece uma explicação detalhada de como está pensando (thinking) ao processar
o comando. Esse comportamento reflete o avanço dos MoEs em transformar sistemas
de IA em verdadeiros especialistas cognitivos, capazes de contextualizar e justificar
suas respostas (Zhuu et al., 2024).
<><> Comparações
oportunas
Para melhor
compreensão dos MoEs, compartilhamos a tradução de uma analogia que encontramos
em uma publicação do LinkedIn, muito interessante pela didática. Ela foi
criada por Harsha Kudaravalli, que esclarece as diferenças fundamentais
entre as arquiteturas do GPT-4 e do DeepSeek com a seguinte analogia: imagine
que ambos os modelos têm 100 pessoas respondendo aos seus comandos. No caso
do GPT, essa abordagem seria equivalente a 100 colaboradores generalistas,
cada um tentando contribuir com uma resposta razoável, mas sem um foco profundo
em um tema específico. Já no DeepSeek, esses 100 colaboradores seriam
especialistas altamente qualificados, cada uma com um domínio aprofundado em uma
área específica, sendo ativadas apenas quando sua expertise é relevante para a
tarefa. Essa analogia nos ajuda a visualizar como as redes neurais diferem na
maneira como processam e distribuem informações, ilustrando o salto qualitativo
que o DeepSeek oferece ao adotar a arquitetura Mixture of Experts.
Para entender a
magnitude dessa diferença, é útil considerar como um modelo como o GPT-4 opera.
Em termos simplificados, seria como ter milhares de colaboradores generalistas
respondendo a um prompt, mas sem ativar um conhecimento específico a menos que
o usuário forneça instruções explícitas e contextualizadas. O MoE, por outro
lado, propõe um paradigma fundamentalmente diferente. Inspirado pelo trabalho
seminal de Jacobs e Nowlan (1991)
e Jordan e Jacobs (1994), Cai et al. (2024)
apresentaram o artigo “A Survey on Mixture of Experts” no qual
o MoE é explicitado no tempo atual com seus componentes
especializados, denominados "experts". Esses experts não trabalham
simultaneamente, ou seja, apenas os componentes mais relevantes para uma tarefa
específica são ativados em um dado momento. Isso resulta em uma redução
significativa nos custos computacionais, permitindo uma utilização mais
eficiente dos recursos disponíveis, ao mesmo tempo que entrega respostas altamente
especializadas.
<><> No
universo dos prompts
Para compreender
melhor como o DeepSeek opera em sua arquitetura, é necessário
explorar a maneira como modelos de linguagem processam prompts. No caso
de LLMs como o GPT-4, a base está no transformer, uma estrutura
de autoatenção introduzida no artigo revolucionário “Attention is All You Need”
(Vaswani et al., 2017). Essa arquitetura utiliza mecanismos que avaliam a
relevância de cada palavra dentro de uma frase, atribuindo pesos matemáticos a
tokens e identificando relações semânticas em um espaço multidimensional.
Quando o usuário digita um comando, o modelo analisa a ordem das palavras, suas
conexões e o peso semântico relativo para gerar a melhor resposta possível. De
acordo com a análise feita na plataforma de desenvolvedores Hugging
Face por Sanseviero (2023), o DeepSeek, ao adotar
o MoE, leva esse processo a um novo patamar por usar a esparsidade. A
esparsidade usa a ideia de computação condicional, portanto, enquanto em
modelos densos todos os parâmetros são usados para todas as entradas, a
esparsidade nos permite executar apenas algumas partes de todo o sistema.
Aqui, a escolha
semântica feita pelo usuário no prompt assume ainda mais importância. Cada
palavra no comando pode ativar experts diferentes, dependendo de sua
relevância. Assim, enquanto o transformer distribui atenção de forma ampla para
todas as partes da entrada, o MoE atua de forma seletiva, como se delegasse
partes da tarefa para especialistas específicos que melhor entendem aquele contexto,
ou seja, o MoE mantém o mecanismo de atenção do transformer, mas otimiza a
computação ao ativar seletivamente subredes especializadas para cada entrada e,
portanto, reduzindo o custo computacional. Por exemplo, um prompt técnico sobre
medicina pode ativar subredes especializadas em terminologia médica e
processamento de linguagem científica, enquanto uma solicitação relacionada à
criação artística pode acionar especialistas em análise estética e composição
criativa. Esse mecanismo de ativação condicional permite que
o DeepSeek equilibre profundidade analítica e eficiência operacional,
gerando respostas detalhadas sem comprometer recursos computacionais.
Além de sua
arquitetura MoE, a eficiência do DeepSeek também pode ser
atribuída a sua estratégia de treinamento. Enquanto modelos densos exigem o uso
de todos os parâmetros para cada entrada, o DeepSeek utiliza uma arquitetura
esparsa, ativando dinamicamente apenas os especialistas relevantes por cada
inferência. Essa abordagem seletiva reduz drasticamente a redundância,
resultando, ademais, em menos consumo energético e menores custos de
treinamento (Dai, 2024, p. 8).
Em última análise,
o sucesso de tecnologias como o DeepSeek reforça a importância de
integrar inovações técnicas com uma compreensão profunda da semântica e do
potencial que reside em cada prompt, reafirmando que, no campo da IA, o
verdadeiro diferencial está no equilíbrio entre eficiência e especialização. Ao
analisar os MoEs do DeepSeek, torna-se evidente que o futuro dos modelos de
linguagem aponta para uma especialização crescente, integrada à capacidade de
personalização pelos usuários. No entanto, ao considerar o nosso português como
língua principal, por exemplo, enfrentamos um desafio significativo: esses
modelos são amplamente treinados em inglês, uma língua que não reflete
completamente nossas especificidades linguísticas, culturais e contextuais.
Isso muitas vezes resulta em respostas que ignoram nuances linguísticas e
complexidades, no nosso caso, da língua e cultura brasileiras de que a língua é
inseparável. Para compensar essa lacuna, nossos comandos precisam ser mais
longos, detalhados e cuidadosamente elaborados, para orientar os especialistas
internos do modelo a operar de forma mais precisa e eficiente em nosso idioma.
O cuidado na
semântica e sintaxe pode transformar resultados medianos em criações avançadas
que dependem da clara expressão verbal de nossas necessidades (Chan et al.,
2024). Grande parte dos usuários não chega a explorar esse conteúdo, seja pela
falta de hábito de leitura, pela dificuldade em navegar na complexidade das
opções oferecidas, por desconhecimento ou pelo fato de as interfaces dessas
ferramentas serem tão intuitivas e simples que geram a falsa impressão de que
não há necessidade de especialização. Entretanto, a realidade mostra que essa
especialização é crucial para alcançar resultados verdadeiramente diferenciados
(essa documentação encontra-se nas próprias plataformas) (Labate e Cozman,
2024). De acordo com Chan et al (2024, s/p), a acessibilidade das ferramentas,
por mais intuitivas que pareçam, frequentemente esconde dependência de
conhecimento técnico. Documentações e a necessidade de entender conceitos
subjacentes tornam-se uma vantagem competitiva para aqueles que dedicam tempo à
aprendizagem e prática. Por exemplo, entender como construir um comando que
especifique ângulos de câmera em um vídeo ou a paleta de cores de uma imagem
permite ao especialista produzir resultados que superam em muito os padrões
oferecidos pelas interações básicas.
<><> Reflexões
provisórias
Os desafios das IAs
generativas refletem
a complexidade de um mundo cada vez mais interconectado, mas profundamente
desigual. A concentração de poder econômico e tecnológico nas mãos de grandes
corporações e países desenvolvidos perpetua disparidades no acesso a
infraestrutura, dados e conhecimento técnico. Enquanto Estados Unidos, China e União
Europeia lideram a corrida, países em desenvolvimento enfrentam barreiras
estruturais que dificultam sua soberania digital, agravando desigualdades
socioeconômicas e culturais (Tao et al., 2024, p. 4). Além disso, a falta de
diversidade nos times de desenvolvimento e a exclusão de línguas e contextos
locais resultam em soluções que não atendem à complexidade das comunidades
globais, criando um abismo digital que compromete o potencial inclusivo dessas
tecnologias (Tao et al., 2024, p. 4).
Ao analisar a
trajetória do DeepSeek e seu enorme impacto no mercado, torna-se
evidente que o futuro dos modelos de linguagem caminha para uma maior
especialização, alinhada à capacidade de personalização por parte dos usuários.
E não é só isso: para brasileiros, ter um modelo gratuito e aberto cria
inúmeras oportunidades novas e faz com que a DeepSeek possa provavelmente ser a
melhor alternativa de uso, muito além do
que IAs como Claude e Perplexity conseguiram.
A governança ética
e a sustentabilidade também são questões críticas. Modelos avançados como os
de IA generativa demandam infraestrutura computacional massiva,
resultando em altos custos
energéticos e ambientais, muitas vezes em regiões de alta pegada de carbono.
Simultaneamente, a ausência de regulamentações globais sobre privacidade,
vieses e usos militares da
IA alimenta
tensões geopolíticas, levantando o dilema entre inovação e mitigação de riscos
(Andrade e Röhe, 2023, p. 51). Somado a isso, controles de exportação de
tecnologias avançadas reforçam o domínio de poucos atores e dificultam a
inovação em regiões menos desenvolvidas. Para enfrentar esses desafios, é
imprescindível um esforço global que priorize inclusão, ética e sustentabilidade,
garantindo que os avanços da IA beneficiem a todos, e não apenas uma parcela
privilegiada (Andrade e Röhe, 2023, p. 54).
O DeepSeek, de
fato, ao se diferenciar pelo uso inteligente de recursos computacionais, pelo
foco em especialização e pela capacidade de adaptar-se ao contexto, abre um
novo capítulo na história dos LLMs. Com um treinamento acessível, uma
abordagem open source, e uma comunidade ativa de desenvolvedores,
o DeepSeek se consolida como um modelo inclusivo, eficiente e
disruptivo. No entanto, ele também escancara desafios fundamentais, como a
necessidade de linguagens e culturas menos representadas se adaptarem às
lacunas nos dados de treinamento. Para usuários da nossa língua portuguesa, por
exemplo, elaborar prompts mais detalhados e direcionados é um requisito para
maximizar o potencial desses sistemas. O poder dessas ferramentas está
intrinsecamente ligado à capacidade humana de explorar seu potencial com
criatividade e profundidade. Assim como os especialistas internos do MoE são
ativados pelo contexto, os humanos, ao interagir com essas tecnologias,
precisam se posicionar como mentores que guiam o conhecimento gerado pela IA,
moldando-o com base em suas intenções e necessidades. A construção de um futuro
sustentável requer a implementação de ações educacionais coordenadas que
democratizem o conhecimento e fomentem a alfabetização digital, garantindo que
todas as pessoas tenham acesso às ferramentas necessárias para atuar de forma
crítica e ativa na transformação digital e socioeconômica. Não cumpriremos esse
compromisso se não estruturarmos modelos educacionais inclusivos e acessíveis,
capazes de preparar indivíduos para um mundo no qual a simbiose entre
humanidade e tecnologia seja conduzida com responsabilidade e visão sistêmica.
Fonte: Opera Mundi/IHU
Nenhum comentário:
Postar um comentário