Código aberto, o segredo por trás do DeepSeek
Segunda-feira, 27 de janeiro, Wall Street atravessou um
de seus dias mais turbulentos. As previsões para o setor de inteligência
artificial desmoronaram, “players” viram seus papéis derreterem. As ações da
Nvidia, inflacionada pela corrida por chips instalados nas IAs generativas,
tombaram 17%, resultando em uma perda de US$ 589 bilhões em valor de mercado –
a maior queda diária já registrada na história do mercado financeiro americano,
que virou matéria e foco de atenção de diversos jornais. Sete bigtechs (Apple,
Amazon, Alphabet, Meta, Microsoft, Nvidia e Tesla) viram uma perda de US$ 643
bilhões em suas ações. O responsável por essa reviravolta? Um chatbot de baixo
custo lançado por uma startup chinesa, a DeepSeek, criado em 2024 como um braço
de pesquisa de um fundo chamado High Flyer, também chinês. Segundo a empresa, o
custo de treinamento do modelo por trás da IA, o DeepSeek-R1, foi de
aproximadamente US$ 6 milhões – um décimo do que a Meta investiu no
desenvolvimento do Llama 3.1, por exemplo, ou menos ainda dos US$ 100 milhões
que a OpenIA investiu no seu último modelo. Além disso, a startup informou que
seu chatbot apresentou um desempenho superior ao GPT-4, da OpenAI, em 20 das 22 métricas analisadas.
Não entrando nos pormenores econômicos especulativos do
mercado de ações (o tombo se deu no valor do mercado destas big techs a partir
da desvalorização de suas ações), o fato principal aqui é: a queda foi
sobretudo porque a DeepSeek mostrou ao mundo que existe possibilidade de se
competir na área com menos dinheiro, investido de forma eficiente. Com menos
processadores, chips e data centers, a empresa demonstrou a possibilidade de
operar com custos menores. E fez isso justo semanas depois de Trump, ao lado de
Sam Altman (Open IA) e Larry Ellison (Oracle), anunciar o “Stargate”, um mega programa
de investimentos em IA no Texas, com potencial anunciado de alavancar até US$
500 bilhões de dólares em cinco anos. O lançamento do modelo da DeepSeek
redesenha a disputa entre EUA e China pela inteligência artificial e mostra
que, mesmo com as travas colocadas pelo
Governo Biden na compra de chips da Nvidia pela China, é possível fazer
sistemas robustos de IA de forma mais barata do que Altman e cia afirmam.
·
As diferenças técnicas do
sistema chinês
Vamos tentar explicar aqui brevemente como funciona o
DeepSeek e as principais diferenças em relação ao seus modelos concorrentes. O
recém-lançado R1 é um modelo de linguagem em grande escala (LLM) que conta com
mais de 670 bilhões de parâmetros, projetado a partir de 2.048 chips H800 da
Nvidia – estima-se, por exemplo, que os modelos desenvolvidos pelas big techs
utilizem cerca de 16 mil chips para treinar os robôs. Utiliza-se de aprendizado por reforço, uma técnica de
aprendizado de máquina (machine learning) em que o sistema
aprende automaticamente com os dados e a própria experiência, sem depender de
supervisão humana, a partir de mecanismos de recompensa/punição.
Para aumentar sua eficiência, a DeepSeek adotou a
arquitetura Mixture-of-Experts (MoE), uma abordagem dentro do aprendizado de
máquina que,
em vez de utilizar todos os parâmetros do modelo (ou toda as redes neurais) em
cada tarefa, ativa só os necessários de acordo com a demanda. Isso torna o R1
mais ágil e reduz o consumo de energia computacional, executando as operações
de forma mais leve e rápida. É como se o modelo fosse uma grande equipe de
especialistas e, ao invés de todos trabalharem sem parar, apenas os mais
relevantes para o trabalho em questão são chamados, economizando tempo e
energia.
Outra técnica utilizada pelo R1 é a Multi-Head Latent Attention (MLA), que
permite ao modelo identificar padrões complexos em grandes volumes de dados,
usando de 5 a 13% da capacidade de modelos semelhantes como a MHA (Multi-Head
Attention), o que a torna mais eficiente, segundo essa análise bem técnica publicada por
Zain ul Abideen, especialista em LLM e aprendizado de máquina, em dezembro
2024. Grosso modo, a MLA analisa de forma simultânea diferentes partes dos
dados, a partir de várias “perspectivas”, o que possibilita ao DeepSeek-R1
processar informações de maneira mais precisa gastando menos recursos de
processamento. A MLA funciona como um grupo de pessoas olhando para o mesmo
problema de diferentes ângulos, sempre buscando a melhor solução — de novo e de
novo e de novo, a cada novo desafio.
Além de seu baixo custo de treinamento, um dos maiores
atrativos do modelo está no baixo custo da operação geral. Grandes empresas de
tecnologia costumam cobrar valores altos para acessar suas APIs, ferramentas
que permitem que outras empresas usem seus modelos de inteligência artificial
em seus próprios aplicativos. A DeepSeek, por outro lado, adota uma abordagem
mais acessível; a API do R1 custa entre 20 e 50 vezes menos do que a da OpenAI,
de acordo com a empresa. O preço de uma API é calculado com base na quantidade
de dados processados pelo modelo, medido em “tokens”. No caso da DeepSeek, a
API cobra US$ 0,88 por milhão de tokens de entrada e US$ 3,49 por milhão de
tokens de saída. Em comparação, a OpenAI cobra US$ 23,92 e US$ 95,70,
respectivamente. Ou seja, empresas que optarem pela tecnologia da chinesa podem
economizar substancialmente ao integrar o modelo R1 em suas plataformas.
A DeepSeek declarou que usou 5,5 milhões de dólares (32
milhões de reais) em capacidade computacional, utilizando apenas as 2.048 GPUs
Nvidia H800 que a empresa chinesa tinha, porque não podia comprar as GPUs H100
ou A100, superiores, que as big techs acumulam às centenas de milhares. Para
ter uma ideia: Elon Musk tem 100 mil GPUs, a OpenAI treinou seu modelo GPT-4 em
aproximadamente 25 mil GPUs A100.
Em entrevista à TV estatal chinesa, Liang Wenfeng,
CEO da DeepSeek e também do fundo que bancou o modelo (High Flyer), disse que a
empresa nunca pretendeu ser disruptiva, e que o “estrelato” teria vindo por
“acidente”. “Não esperávamos que o preço fosse uma questão tão sensível.
Estávamos simplesmente seguindo nosso próprio ritmo, calculando custos e
definindo preços de acordo. Nosso princípio não é vender com prejuízo nem
buscar lucros excessivos. O preço atual permite uma margem de lucro modesta
acima de nossos custos”, afirmou o fundador da DeepSeek.
“Capturar usuários não era nosso objetivo principal.
Reduzimos os preços porque, primeiro, ao explorar estruturas de modelos de
próxima geração, nossos custos diminuíram; segundo, acreditamos que os serviços
de IA e API devem ser acessíveis e baratos para todos.”
Wenfeng é bacharel e mestre em engenharia eletrônica e
da informação pela Universidade de Zhejiang. Entre muitas especulações
momentâneas sobre sua vida pessoal, o que se sabe é que o empresário de 40 anos
parece “mais um nerd do que um chefe” e que é um
entusiasta do modelo open source de desenvolvimento, o que nos leva para o
próximo tópico.
·
As vantagens do código
aberto
Um componente fundamental do sucesso (atual) do modelo
chinês é o fato de estar em código aberto. O DeepSeek-V3, lançado no final de 2024, está disponível
no GitHub, com uma documentação
detalhada sobre como foi feito e como pode ser replicado.
Isso, na prática, tem fomentado uma corrida de várias
pessoas e grupos para experimentar fazer seus próprios modelos a partir das
instruções dadas pela equipe do DeepSeek. Dê uma busca no Reddit e nos próprios
buscadores nestes últimos dias de janeiro de 2025 e você já verá uma enxurrada
de gente fazendo.
Como vocês já ouviram falar no “A Cultura é Livre”, a natureza do código aberto, de origem
filosófica no liberalismo clássico do século XVII e XVIII, permite mais
colaborações, e acaba por impulsionar tanto a concorrência de outras empresas
no setor quanto diferentes forks [bifurcações]
independentes e autônomos individuais. Vale, porém, aqui dizer que o código
aberto não é o mesmo que um software livre. Software de código aberto (free/libre/open source
software, acrônimo Floss adotado pela primeira vez em 2001) é
um nome usado para um tipo de software que surgiu a partir da chamada Open
Source Initiative (OSI),
estabelecida em 1998 como uma dissidência com alguns princípios mais pragmáticos que os do
software livre. A flexibilização na filosofia de respeito à liberdade dos
usuários (mais rígida e comprometida com a justiça social no software livre,
mais pragmática e aplicável como metodologia de desenvolvimento no open
source)
propiciou uma expansão considerável tanto do software de código aberto quanto
de projetos e empresas que têm este tipo de software como produto e motor de
seus negócios. A OSI tem como texto filosófico central “A catedral e o bazar”, de Eric Raymond,
publicado em 1999. Nele, Raymond trabalha com a ideia de que “havendo olhos
suficientes, todos os erros são óbvios”, para dizer que, se o código fonte está
disponível para teste, escrutínio e experimentação pública, os erros serão
descobertos mais rapidamente.
A definição da OSI diz que um
sistema open source é: “O programa deve incluir o código-fonte
e permitir sua distribuição tanto na forma de código-fonte quanto na forma
compilada. Quando alguma forma do produto não for distribuída com o
código-fonte, deve haver um meio amplamente divulgado de obtenção do
código-fonte por um custo razoável de reprodução, preferencialmente com a opção
de download gratuito pela Internet. O código-fonte deve ser a forma preferida
na qual um programador modificaria o programa. Não é permitido código-fonte
deliberadamente ofuscado. Formas intermediárias, como a saída de um
pré-processador ou tradutor, não são permitidas1.
O esclarecimento sobre o que é código aberto é
importante porque, na esteira do desenvolvimento das IAs de código aberto, vem
também surgindo um movimento de open washing, ou seja: a
prática de empresas privadas dizerem que os códigos de seus sistemas
algorítmicos são abertos – quando na verdade não são tão abertos assim. Ou
então quando grandes corporações (ou startups) iniciam projetos
em código aberto para incorporar o trabalho colaborativo de colaboradores
(desenvolvedores, tradutores, cientistas de dados) – para logo depois, quando o
projeto se torna mais robusto, fecharem o código e nunca mais abrirem. “O Google
tem um histórico nessa prática, a própria OPEN IA fez isso – e foi processada por Elon Musk (!) justamente
por não seguir os princípios abertos.
Escrevemos em nossa última newsletter do
BaixaCultura que
a Meta, ao dizer que seu modelo LLama é aberto, vem “poluindo” e “confundindo”
o open source, como afirma Stefano Maffulli, diretor da Open
Source Initiative (OSI). Mas o que o Llama traz como aberto são os pesos que
influenciam a forma como o modelo responde a determinadas solicitações. Um
elemento importante para a transparência, mas que por si só não faz se encaixar
na definição do open source. A licença sob a qual o Llama foi lançado
não permite o uso gratuito da tecnologia por outras empresas, por exemplo, o
que não está em conformidade com as definições de código aberto reconhecidas
pela OSI. “Programadores que utilizam modelos como o Llama não têm conseguido
ver como estes sistemas foram desenvolvidos, ou construir sobre eles para criar
novos produtos próprios, como aconteceu com o software de código aberto”,
acrescenta Maffuli.
·
Mas existem IAs totalmente
abertas?
A disputa (velha, aliás) pelo que de fato é open
source –
e principalmente o que não é – também ganha um novo capítulo com o DeepSeek. A
“OSI AI Definition – 1.0-RC1” aponta que uma IA
de código aberto deve oferecer quatro liberdades aos seus utilizadores:
_ Utilizar o sistema para qualquer fim e sem ter de
pedir autorização;
_ Estudar o funcionamento do sistema e inspecionar os
seus componentes;
_ Modificar o sistema para qualquer fim, incluindo para
alterar os seus resultados;
_ Partilhar o sistema para que outros o utilizem, com
ou sem modificações, para qualquer fim;
Nos quatro pontos o DeepSeek v-1 se encaixa. Tanto é
que, como mencionamos antes, já tem muita gente fazendo os seus; seja
criando modelos ainda mais abertos quanto para
ser executada localmente em um dispositivo separado, com boas
possibilidades de customização e com exigência técnica possível na maior parte
dos computadores bons de hoje em dia. Para não falar em modelos parecidos que
já estão surgindo na China, como o Kimi k1.5, lançado enquanto
esse texto estava sendo escrito – o que motivou memes de que a competição real
na geopolítica de IA está sendo feita entre regiões da
China, e não entre EUA X China.
O fato de ser de código aberto faz com que o DeepSeek,
diferente do ChatGPT ou do LLama, possa ser acoplado e inserido com diferentes
funcionalidades por outras empresas, grupos, pessoas com mais facilidade e
menor custo. Ao permitir que novas soluções surjam, torna a barreira de entrada
da inteligência artificial muito menor e estoura a bolha especulativa dos
financistas globais sobre o futuro da tecnologia – o que talvez seja a melhor
notícia da semana.
Mas há um porém importante nessa discussão do código
aberto: as bases de dados usadas para
treinamento dos sistemas. Para
treinar um modelo de IA generativa, parte fundamental do processo são os dados
utilizados e como eles são utilizados. Como analisa o filósofo e programador
Tante nesse ótimo texto, os
sistemas de IA generativa (os LLMs) são especiais porque não consistem em muito
código em comparação com o seu tamanho. Uma implementação de uma rede neural é
constituída por algumas centenas de linhas de Python, por exemplo, mas um LLM
moderno é composto por algum código e uma arquitetura de rede – que depois vai
ser parametrizada com os chamados “pesos”, que são os milhares de milhões de
números necessários para que o sistema faça o que quer que seja, a partir dos
dados de entrada. Assim como os dados, estes “pesos” também precisam ser
deixados claros quando se fala em open source, afirma Tante.
Não está claro, ainda, quais foram os dados de
treinamento do DeepSeek e como estes pesos foram distribuídos. Endossando
Tante, Timnit Gibru disse neste post que para
ser open source de fato teria que mostrar quais os dados
usados e como foram treinados e avaliados. O que talvez nunca ocorra de fato,
pois isso significa assumir que a DeepSeek pegou dados de forma ilegal na
internet tal qual o Gemini, a LLama e a OpenIA – que está acusando a DeepSeek de fazer o
mesmo que ela fez (!).
Outras IAs de código aberto também não deixam muito claro como funcionam suas
bases, embora as proprietárias muito menos. Ainda assim, são os modelos de IA
identificados como open source, com seus códigos disponíveis no Github, os que
lideram o nível de transparência, segundo este índice criado por pesquisadores da Universidade de
Stanford,
que identificou como os mais transparentes o StarCoder e o Jurassic 2.
Podemos concluir que na escala em que estamos falando
desses sistemas estatísticos atualmente, e entendendo o acesso e o tratamento
dos dados como elementos constituintes do códigos a ser aberto, uma IA
totalmente open source pode ser quase uma utopia. Muitos
modelos menores foram e estão sendo treinados com base em conjuntos de dados
públicos explicitamente selecionados e com curadoria. Estes podem fornecer
todos os processos, os pesos e dados, e assim serem considerados, de fato, como
IA de código aberto. Os grandes modelos de linguagem que passamos a chamar de
IA generativa, porém, baseiam-se todos em material adquirido e utilizado
ilegalmente também porque os conjuntos de dados são demasiado grandes para
fazer uma filtragem efetiva de copyright e garantir a sua legalidade – e,
talvez, mesmo a sua origem definitiva, dado que muitas vezes podemos ter acesso
ao conjunto de uma determinada base de dados, mas não exatamente que tipo de
dado desta base foi utilizada para treinamento. Aliás, não é surpresa que hoje
muitos dos que estão procurando saber exatamente o dado utilizado são
detentores de copyright em busca de processar a Open AI por roubo de conteúdo.
Mesmo que siga o desafio de sabermos como vamos lidar
com o treinamento e a rastreabilidade dos dados usados pelos modelos de IA, a
chegada do DeepSeek como um modelo de código aberto (ou quase) tem enorme
importância sobretudo na ampliação das possibilidades de concorrência frente
aos sistemas da big techs. Não é como se o império das grandes empresas de
tecnologia dos Estados Unidos tivesse ruído da noite pro dia, mas houve uma
grande demonstração de como a financeirização da economia global amarrou uma
parte gigantesca do valor financeiro do mundo às promessas de engenheiros que
claramente estavam equivocados nas suas projeções do que era preciso para
viabilizar a inteligência artificial – seja para ganhos especulativos ou por
puro desconhecimento.
A parte ainda não solucionada da equação é uma
repetição do antigo episódio envolvendo o lançamento do Linux: se essa solução
estará disponível para ser destrinchada por qualquer um, como isso vai gerar
mais independência aos cidadãos? A inteligência artificial tem milhares de aplicações
imaginadas, e até agora se pensava em utilizá-la nos processos produtivos de
diversas indústrias e serviços pelo mundo. Mas como ela pode sugerir
independência e autonomia para comunidades, por exemplo? Espera-se, talvez de
maneira inocente, que suas soluções sejam aproveitadas pela sociedade como um
todo, e que não sejam meramente cooptadas pelo mercado para usos privados como
tem ocorrido até aqui. Por fim, o que se apresenta é mais um marco na história
da tecnologia, onde ela pode dobrar a curva da independência, ou seguir no
caminho da instrumentalização subserviente às taxas de lucro.
Fonte: Por Leonardo Foletto e Victor Wolffenbüttel, em Outras
Palavras
Nenhum comentário:
Postar um comentário