A inteligência artificial vive um momento de grande transformação, e o recente lançamento do DeepSeek V3 parece marcar um ponto de virada na indústria. Desenvolvido pela empresa chinesa DeepSeek, este modelo multimodal está no centro das atenções do mercado não apenas pelo seu desempenho técnico, mas também pela forma como desafia os paradigmas tradicionais de acesso e distribuição no setor de IA. Analisemos como o DeepSeek V3 reacende debates sobre transparência, acessibilidade e inovação.
O que é o DeepSeek V3?
O DeepSeek V3 utiliza uma arquitetura Mixture-of-Experts (a sigla é MoE, mas não se trata do barman do Simpsons), contando com 671 bilhões de parâmetros, dos quais 37 bilhões são ativados por token. Isso significa que, dependendo do assunto abordado com o chatbot, ele ativa uma parte diferente de seus parâmetros. Dessa maneira, apesar de sua escala massiva, o modelo é altamente eficiente no uso de recursos computacionais, proporcionando baixos custos de treinamento.
Seu treinamento, que abrangeu 14,8 trilhões de tokens, foi concluído a um custo baixo para este mercado: cerca de US$ 5,576 milhões, algo inimaginável em modelos de porte semelhante. Ainda assim, o que realmente diferencia o DeepSeek V3 é sua promessa de acessibilidade: os “pesos” do modelo estão disponíveis para download, permitindo que ele seja executado localmente, sem depender de uma conexão com a internet.
Os “pesos” são o núcleo do funcionamento de um modelo de IA. Eles armazenam todo o aprendizado adquirido a partir dos dados de treinamento. Ao compartilhar os pesos, uma organização permite que outros usem o modelo já treinado sem precisar passar novamente pelo processo de treinamento.
Mas afinal, é open source?
Essa abordagem, que a empresa promove como “open source”, é, na verdade, mais complexa. Enquanto os pesos estão acessíveis, aspectos fundamentais do desenvolvimento, como os dados de treinamento e scripts de processamento, permanecem fechados. Essa decisão estratégica cria um meio-termo entre o modelo tradicional fechado, como o GPT-4 da OpenAI, e a filosofia verdadeiramente aberta que alguns defendem para o futuro da IA.
Sem acesso a esses elementos, a comunidade enfrenta limitações para replicar, entender ou adaptar completamente o DeepSeek V3. Isso levanta questões sobre reprodutibilidade científica, identificação de vieses e a possibilidade de inovação colaborativa.
A comparação com outros modelos líderes no mercado é inevitável. O GPT, da OpenAI, é fechado e oferecido apenas como serviço, o que garante maior controle pela empresa, mas restringe sua acessibilidade e pode aumentar os custos operacionais para os usuários finais.
Já o Llama, da Meta, embora amplamente distribuído, segue uma política de licenciamento restritiva, limitando seu uso para fins não comerciais e acadêmicos. O DeepSeek V3, por sua vez, oferece o acesso aos pesos e seu código-fonte, com sua licença permitindo não apenas a execução local, mas também o uso comercial e a criação de patentes baseadas no modelo.
Abalando o status quo
O impacto do DeepSeek V3 no mercado global de IA já é evidente. Seu lançamento abalou o setor, com empresas de hardware como NVIDIA e ASML enfrentando quedas históricas no valor de suas ações, devido à sua menor necessidade de poder computacional.
A demonstração de que um modelo dessa escala pode ser treinado de forma tão econômica representa uma otimização do uso dos recursos já existentes, podendo desacelerar o crescimento de grandes datacenters. Além disso, a capacidade de rodar o modelo localmente sem conexão à internet reduz a dependência de infraestrutura centralizada, ameaçando o modelo de negócios de gigantes como OpenAI e Google.
Com a crescente tendência de rodar IA localmente, inclusive em assistentes pessoais de smartphones, poderemos ver, em breve, ver alguma variação do modelo da DeepSeek em nossos bolsos. Enquanto isso, você pode testar a IA localmente em seu computador ou rodando em servidores externos pelo site oficial.
Fique por dentro das principais notícias da semana sobre tecnologia e Linux: assine nossa newsletter!