Conteúdo mostrar

Em 26 de setembro de 2024, a Wiz Research divulgou a descoberta de uma vulnerabilidade crítica na NVIDIA Container Toolkit, um componente essencial para aplicativos de IA que utilizam GPUs, tanto em ambientes de nuvem quanto on-premise. A falha, identificada como CVE-2024-0132, apresenta um risco significativo para workloads de IA e infraestruturas que utilizam essa tecnologia, impactando diretamente a segurança e privacidade dos dados.

Entenda a vulnerabilidade CVE-2024-0132

A vulnerabilidade está presente na NVIDIA Container Toolkit, uma biblioteca amplamente usada para permitir que aplicativos em contêineres acessem GPUs. O problema permite que invasores que controlam uma imagem de contêiner escapem e obtenham acesso total ao sistema subjacente. Isso representa um risco considerável para dados confidenciais e a infraestrutura, especialmente em ambientes compartilhados, como Kubernetes, onde várias aplicações podem dividir o mesmo nó.

Um boletim de segurança foi emitido pela NVIDIA juntamente com uma versão corrigida do produto, e todas as organizações que utilizam a NVIDIA Container Toolkit são encorajadas a atualizar para a versão mais recente, 1.16.2. A correção também se aplica ao NVIDIA GPU Operator, amplamente usado para gerenciar ambientes Kubernetes com suporte a GPUs.

Impacto e cenários de risco

A vulnerabilidade é particularmente perigosa em ambientes que permitem o uso de imagens de contêiner de terceiros, seja internamente ou como serviço. Como exemplo:

Ambientes de Computação Single-Tenant: Um usuário pode baixar uma imagem de contêiner maliciosa de uma fonte não confiável, resultando na tomada de controle da sua estação de trabalho pelo atacante;
Ambientes Orquestrados (como Kubernetes): Um atacante com permissão para implantar um contêiner pode escapar do contêiner e obter acesso aos dados e segredos de outras aplicações no mesmo nó ou até no mesmo cluster, comprometendo o ambiente inteiro.

Esse segundo cenário é especialmente relevante para provedores de serviços de IA que permitem que seus clientes executem suas próprias imagens de contêiner habilitadas para GPU. Nesses casos, a vulnerabilidade se torna ainda mais perigosa, pois um invasor poderia implantar um contêiner malicioso, romper o isolamento e usar os segredos da máquina host para acessar sistemas de controle, obtendo informações confidenciais de outros clientes.

Brecha no NVIDIA Container Toolkit pode expor 35% dos ambientes em nuvem 2 — Imagem: Wiz

A NVIDIA Container Toolkit é amplamente adotada, sendo a solução padrão da NVIDIA para integração de GPUs em ambientes de contêiner. Ela está pré-instalada em muitas plataformas de IA e imagens de máquina virtual (AMIs), sendo um requisito comum para aplicativos de IA. Além disso, o NVIDIA GPU Operator automatiza a implementação e gerenciamento da Container Toolkit em clusters Kubernetes, aumentando sua presença em workloads de GPU em contêineres.

Os componentes afetados são:

NVIDIA Container Toolkit: Todas as versões até a 1.16.1;
NVIDIA GPU Operator: Todas as versões até a 24.6.1.

A vulnerabilidade não afeta casos de uso onde a Container Device Interface (CDI) é usada.

Passo a passo de um ataque

Durante a investigação de provedores de serviços de IA, a Wiz identificou que os provedores tendem a executar modelos e procedimentos de treinamento de IA como contêineres em ambientes compartilhados, onde várias aplicações de diferentes clientes compartilham o mesmo dispositivo de GPU. Isso levantou a questão: seria possível que o compartilhamento do dispositivo de GPU permitisse o acesso aos modelos, prompts ou datasets de outros clientes?

Essa linha de investigação levou a Wiz a explorar módulos do kernel, SDK e ferramentas de runtime da NVIDIA. Ao investigar a Container Toolkit, a Wiz identificou uma ampla superfície de ataque para vulnerabilidades de escape de contêiner, com potencial para acessar os dados de outros clientes que compartilham os mesmos recursos de GPU.

O ataque tem três estágios principais:

Criação de uma Imagem Maliciosa: O invasor cria uma imagem especialmente projetada para explorar a CVE-2024-0132;
Obtenção de Acesso ao Sistema de Arquivos: O invasor executa a imagem maliciosa na plataforma alvo, ganhando a capacidade de montar o sistema de arquivos do host e obter acesso completo ao sistema subjacente;
Tomada Completa do Host: Com o acesso ao sistema de arquivos, o invasor pode alcançar os sockets Unix de Runtime de Contêiner (docker.sock/containerd.sock) e usá-los para executar comandos no host com privilégios de root, tomando efetivamente o controle da máquina.

Mitigação e recomendações

As organizações afetadas devem atualizar para as versões mais recentes da Container Toolkit (v1.16.2) e do GPU Operator (v24.6.2). Importante destacar que a exposição à internet não é um fator relevante para triagem dessa vulnerabilidade, pois o host do contêiner afetado não precisa estar publicamente exposto para carregar uma imagem de contêiner maliciosa. Em vez disso, vetores de acesso inicial podem incluir tentativas de engenharia social contra desenvolvedores, cenários de cadeia de suprimentos, como um invasor com acesso prévio a um repositório de imagens de contêiner, e ambientes que permitem a usuários externos carregar imagens arbitrárias.

Ao discutir riscos de segurança em IA, essa vulnerabilidade destaca o risco real e imediato para as aplicações de IA vindo da infraestrutura e das ferramentas utilizadas. Esta descoberta também reforça que contêineres não são necessariamente uma barreira forte de segurança e não devem ser a única forma de isolamento. É importante projetar aplicações considerando sempre a existência de uma vulnerabilidade e implementar pelo menos mais uma barreira de isolamento, como a virtualização.

A Wiz planeja divulgar mais detalhes técnicos sobre a vulnerabilidade em uma próxima publicação, dando tempo para as organizações avaliarem e mitigarem os riscos em seus ambientes.Fique por dentro das principais notícias da semana sobre Linux e tecnologia, assine nossa newsletter!

Brecha no NVIDIA Container Toolkit pode expor 35% dos ambientes em nuvem

Entenda a vulnerabilidade CVE-2024-0132

Impacto e cenários de risco

Passo a passo de um ataque

Mitigação e recomendações

Confira o novo Diocast!

E foi assim que o Ubuntu perdeu o trono... (Distros amigáveis?) - Diocast

Imperdíveis da semana

Alpine Linux 3.22: mais leve, mais seguro e sem X11 no KDE

LattePanda 3 Delta um mini PC que desafia as limitações do formato

Com o Zorin OS é fácil migrar do Windows para o Linux!

Ameaçar a IA funciona melhor do que ser educado?

Crie seu próprio serviço de nuvem independente com o Nextcloud

Ariel Bonfim

Sobre o autor