Meta lança o OpenZL, um sistema open source de compressão para dados estruturados
Notícias

Meta lança o OpenZL, um sistema open source de compressão para dados estruturados

Acesse nossos conteúdos exclusivos!

A Meta apresentou o OpenZL, um novo framework de compressão open source pensado para dados estruturados, como tabelas, colunas e registros. A ideia e parar de tratar tudo como “sopa de bytes” e usar a estrutura do dataset a favor do algoritmo para comprimir mais e mais rápido, sem perdas. Diferente de um compressor generalista (tipo zstd), o OpenZL entende o formato, aplica uma sequência configurável de transformações que revelam padrões e, só então, codifica; e, mesmo com planos diferentes por tipo de dado, um único binário universal faz a descompressão de tudo, simplificando manutenção e fortalecendo a segurança operacional.

Nem todo problema se resolve com um martelo

O grande diferencial está em como o framework enxerga o problema. Em vez de martelar o mesmo sistema de compressão pra tudo, o OpenZL recebe uma descrição do formato mediante um esquema fino ou pela linguagem SDDL (Simple Data Description Language), passando por um estágio de treinamento offline que gera um plano de compressão. Esse plano vira uma “receita” embutida no arquivo, que o decodificador universal executa sem depender de metadados externos.

Nos benchmarks iniciais publicados, o OpenZL chamou atenção no arquivo “sao” (do Silesia Corpus), típico de dados estruturados: atingiu razão de 2,06×, superando o xz (1,64×) e zstd (1,31×), e ainda rodou mais rápido, com ~340 MB/s na compressão e 1,2 GB/s na descompressão em um Apple M1. É o tipo de ganho que interessa em fluxos de trabalho de data center, em que tanto taxa quanto velocidade valem ouro.

Sob o capô, o OpenZL modela a compressão como um grafo de transformações, compondo etapas reversíveis até deixar os fluxos homogêneos e altamente comprimíveis. A equipe publicou um whitepaper detalhando o modelo do grafo, a arquitetura de decodificação universal e resultados frente a compressores de uso geral; há também repositório no GitHub com código, scripts reprodutíveis de testes e um guia rápido para começar.

Outro ponto prático é a evolução contínua: como o plano de compressão fica separado do decodificador, dá para retreinar e atualizar estratégias conforme o dado muda, sem quebrar a compatibilidade, de modo que os arquivos antigos continuam a abrir, e os novos já colhem os ganhos. Em cenários onde não há uma estrutura útil à sua metodologia, o OpenZL recua para o zstd, mantendo um “piso” de desempenho.

Apesar de o zstd continuar excelente como compressor “coringa”  (ele próprio nasceu na Meta e segue evoluindo) o OpenZL mira o próximo salto: se adequando ao arquivo-alvo, com um treinador automatizando escolhas e um só decodificador para reduzir eventuais atritos operacionais.Fique por dentro das principais novidades da semana sobre tecnologia e Linux: receba nossa newsletter!

Diolinux Ofertas - Aproveite os melhores descontos em diversos produtos!