Google Magika 1.0, uma ferramenta open source para detecção de formatos de arquivos
Notícias

Google Magika 1.0, uma ferramenta open source para detecção de formatos de arquivos

Acesse nossos conteúdos exclusivos!

O Magika é a ferramenta de detecção de tipo de arquivo movida a IA da Google. Ele usa um modelo leve de deep learning para “entender” o conteúdo e indicar o tipo com alta precisão, muito útil em pipelines de segurança, CI/CD, varredura de anexos e qualquer fluxo que dependa de classificar arquivos de forma confiável e veloz. Segundo o Google, o projeto já é usado em larga escala em serviços como Gmail e Drive, e alcança ~99% de acurácia em testes com um dataset de ~100 milhões de amostras e mais de 200 classes.

O que há de novo no Magika 1.0

A versão 1.0 marca a primeira “release” estável e chega com um pacote de mudanças importante. A headline é a engine completamente reescrita em Rust,  oferecendo melhor desempenho e segurança de memória, além de trazer um cliente de linha de comando nativo que varre centenas de arquivos por segundo por núcleo e escala facilmente em CPUs multi-core, alcançando, por exemplo, ~1.000 arquivos/s em um MacBook Pro com M4. Junto disso, o número de formatos suportado dobrou: 200+ tipos agora são reconhecidos, com melhor granularidade para formatos parecidos (JSON vs. JSONL, CSV vs. TSV, C vs. C++/JavaScript vs. TypeScript).

Além da CLI em Rust, a Google atualizou os módulos de Python e TypeScript para integrações mais simples, e refinou o modelo para acertar melhor formatos de texto desafiadores, como arquivos de código e de configuração. Há também melhorias no pipeline de treinamento, incluindo o uso do SedPack para processar terabytes de dados eficientemente e geração sintética (via Gemini) para suprir formatos raros, tudo para manter a precisão mesmo quando há poucos exemplos reais disponíveis.

Desempenho, segurança e uso prático

O ganho de desempenho não vem só da linguagem: o Magika 1.0 usa ONNX Runtime para inferência e Tokio para paralelismo assíncrono, ajudando a manter a latência de predição de poucos milissegundos por arquivo após o carregamento do modelo, mesmo em CPU. Para quem opera em ambientes sensíveis, a reescrita em Rust e a execução isolada por processos/threads ajudam a reduzir riscos de memória sem prescindir da velocidade.

Na prática, isso significa que você pode apontar a CLI para uma árvore de diretórios (incluindo -r para varredura recursiva), classificar milhares de arquivos rapidamente e usar a saída para acionar scanners específicos, rotinas de compliance ou pipelines de build. Para workloads gráficos, dados e devops, o Magika  1.0 adiciona formatos como Parquet, HDF5, Jupyter/IPYNB, NPY/NPZ, ONNX, Dockerfile, HCL/TOML, Bazel, além de DWG/DXF, PSD, WOFF/WOFF2, entre outros.

Como instalar e começar

A forma mais direta é pela instalação via script (Linux/macOS):

curl -LsSf https://securityresearch.google/magika/install.sh | sh

No Windows (PowerShell):

powershell -ExecutionPolicy ByPass -c "irm https://securityresearch.google/magika/install.ps1 | iex"

Se preferir, dá para usar pipx install magika, o pacote Python inclui o cliente em Rust. A documentação oficial traz guias para integrar a biblioteca em Python, TypeScript/JavaScript e Rust.

Se você mantém pipelines que dependem de identificar arquivo com confiabilidade (segurança, triagem de uploads, repositórios de dados, migrações), o Magika 1.0 resolve o dilema clássico entre velocidade e precisão, agora com um stack moderno e multiplataforma. Para testar, a Google oferece demo web (executa local no navegador) e o repositório no GitHub com exemplos e lançamentos.

Fique por dentro das principais novidades da semana sobre tecnologia e Linux: receba nossa newsletter!

Diolinux Ofertas - Aproveite os melhores descontos em diversos produtos!