Conteúdo mostrar

A IBM vem lapidando sua estratégia de IA aberta com a família Granite, mirando o uso corporativo com eficiência, governança e implantação prática para além de uma “contagem de parâmetros”. O novo Granite 4.0 mantém essa filosofia, trocando o “tamanho pelo tamanho” por uma arquitetura híbrida Mamba-2 + Transformer que corta custo e memória sem sacrificar desempenho, a ponto de modelos menores superarem versões antigas bem maiores.

O segredo é o design

O Mamba-2 processa sequências linearmente e com memória constante conforme o contexto cresce, enquanto camadas Transformer ficam responsáveis por capturar nuances locais via self-attention. No Granite 4.0, a combinação segue uma proporção 9:1 (≈90% Mamba-2, 10% Transformers). O resultado prático é até 70% de redução do uso de RAM frente a LLMs convencionais para contextos longos e cargas com várias sessões simultâneas, um cenário típico de RAG corporativo, suporte ao cliente e agentes multi-ferramenta.

IBM lança Granite 4.0, um modelo híbrido de IA que economiza até 70% de memória RAM (2) — Imagem: IBM

Essa eficiência aparece também no bolso: rodar e escalar fica mais barato, inclusive em GPUs mais acessíveis. A IBM cita a compatibilidade com a placa AMD Instinct MI300X e seu trabalho com a Qualcomm/Nexa AI para acelerar on-device via Hexagon NPUs.

A linha estreia em três portes, Micro, Tiny e Small, cada um em versões Base e Instruct. O Small é o “cavalo de batalha” para fluxos corporativos (agents, automação de atendimento). Micro e Tiny miram latência baixa e borda (edge), além de servirem como “blocos rápidos” em orquestrações com modelos maiores. Há ainda uma versão do Granite-4.0-Micro pensada para ambientes que ainda não suportam a arquitetura híbrida. No roadmap de 2025 entram variantes “Thinking”, com suporte a”raciocínio” e novos tamanhos, do Medium ao Nano.

Menos memória, mais resultado

Nos testes internos e públicos, o Granite 4.0 mostra saltos consistentes sobre a geração passada. No IFEval (seguir instruções), o Granite-4.0-H-Small marcou 0,89, superando todos os open-weights exceto o Llama 4 Maverick, um gigante “fechado” 12× maior. Em function calling (BFCL v3), o Small acompanha modelos bem maiores (abertos e fechados) com custo inferior.

IBM lança Granite 4.0, um modelo híbrido de IA que economiza até 70% de memória RAM (1) — Imagem: IBM

A IBM reforça que o ganho de qualidade não veio só da arquitetura. O pré-treino e o pós-treino foram turbinados, com um corpus de 22T tokens voltado a contextos corporativos (linguagem, código, matemática, segurança, tool-use, multi-idioma). Um detalhe técnico curioso: os híbridos não usam positional encoding (NoPE); como o Mamba “lê” tokens sequencialmente, ele preserva a ordem sem precisar do mecanismo, e foi treinado com amostras de até 512K tokens (validação em 128K), abrindo espaço para janelas extensas de contexto.

Outro destaque, o Granite 4.0 é open-source (Apache 2.0) e a família Granite se tornou a primeira de modelos abertos a conquistar ISO/IEC 42001 (padrão internacional para gestão responsável de IA). Além disso, a IBM assina criptograficamente todos os checkpoints 4.0 (garantia de procedência), mantém um bug bounty com a HackerOne e oferece indenização a clientes do watsonx.ai em casos de disputas de propriedade intelectual envolvendo o conteúdo gerado.

Sendo assim, para equipes que precisam latência, custo previsível e escala com muitos atendimentos simultâneos, ingestão de documentação extensa e agentes chamando ferramentas o tempo todo, o Granite 4.0 promete qualidade competitiva com otimização de memória e hardware.

Fique por dentro das principais novidades da semana sobre tecnologia e Linux: leia nossa newsletter!

IBM lança Granite 4.0, um modelo híbrido de IA que economiza até 70% de memória RAM

O segredo é o design

Menos memória, mais resultado

Confira o novo Diocast!

Nem tudo deveria rodar no seu Homelab - Diocast

Imperdíveis da semana

O Hannah Montana Linux está de volta, mas existem bons motivos para você não usá-lo

O projetor Voxflix VF71 consegue substituir uma tv?

Debian discute proibir contribuições feitas com IA

Codeberg passa a proibir projetos compostos majoritariamente por código gerado por IA

ROCm.AI, a aposta da AMD otimizar GPUs e reduzir a dependência do CUDA da NVIDIA

Ariel Bonfim

Sobre o Autor