Conteúdo mostrar

A IBM segue investindo fortemente em soluções para o setor de inteligência artificial (IA) voltadas ao ambiente corporativo, com lançamentos que buscam simplificar o uso de IA generativa em empresas. Uma das suas mais recentes contribuições para o ecossistema de código aberto é o Docling, uma ferramenta projetada para extrair dados de documentos empresariais e transformá-los em formatos utilizáveis por modelos de linguagem como JSON e Markdown. Isso permite que as informações sejam facilmente lidas e processadas por grandes modelos de linguagem (LLMs), tornando mais eficiente a integração de dados empresariais em treinamentos de IA generativa.

Docling: poderoso e flexível

O Docling, lançado sob a licença de código aberto MIT, foi criado para facilitar o acesso a dados complexos, muitas vezes escondidos em documentos como manuais técnicos, relatórios anuais e arquivos PDF. Por meio de uma combinação de visão computacional e técnicas avançadas de reconhecimento, a ferramenta identifica e classifica elementos em documentos, como blocos de texto, imagens e tabelas, além de converter tabelas em imagem para formatos legíveis por máquina. Essa capacidade torna o Docling especialmente útil para empresas que buscam organizar grandes quantidades de dados não estruturados, um dos maiores desafios na preparação de conjuntos de dados para IA.

A IBM posiciona seu produto como uma alternativa mais eficaz aos métodos tradicionais de reconhecimento óptico de caracteres (OCR), que, embora úteis, frequentemente apresentam alta taxa de erros e são bastante lentos. Ao optar por um modelo de visão para identificar elementos e estrutura das páginas, o Docling consegue entregar resultados até 30 vezes mais rápidos do que ferramentas de OCR convencionais, conforme relatado por Peter Staar, pesquisador da IBM.

Como o Docling é estruturado

A ferramenta conta com dois modelos principais desenvolvidos por pesquisadores da IBM. O primeiro é um modelo de visão que utiliza técnicas de detecção de objetos para analisar a estrutura da página. Esse modelo foi treinado em um conjunto de 81 mil páginas, composto por patentes, manuais e relatórios financeiros. Segundo a IBM, ele chega perto de igualar a capacidade humana de identificar corretamente notas de rodapé, títulos e outros elementos-chave.

O segundo modelo, conhecido como TableFormer, é responsável por converter tabelas baseadas em imagens em formatos de linha e coluna legíveis por máquina. Esse modelo se originou do projeto DeepSearch da IBM e teve desempenho superior em testes internos comparado às principais ferramentas de reconhecimento de tabelas.

Aplicações e integrações do Docling

Projetado para uso empresarial, o Docling já foi utilizado por equipes da IBM e Red Hat para processar grandes volumes de dados, incluindo 2,1 milhões de PDFs do Common Crawl. No futuro, a IBM planeja expandir o uso da ferramenta para processar um total de 1,8 bilhão de PDFs, integrando esses dados em versões futuras do modelo multimodal Granite. A capacidade de converter dados complexos em formatos utilizáveis por IA permitirá que empresas personalizem seus modelos internos e otimizem fluxos de trabalho, facilitando o compartilhamento de conhecimento e a criação de sistemas de apoio à decisão.

O Docling é fácil de integrar com ferramentas e frameworks de IA de código aberto como LlamaIndex e LangChain, especialmente em aplicações de geração aumentada por recuperação (RAG). Com apenas cinco linhas de código, desenvolvedores podem configurar o Docling e começar a extrair dados de documentos, demonstrando sua simplicidade e acessibilidade, além de conseguir ser leve o bastante para ser executado até em laptops convencionais.

Expansão de capacidades

A IBM planeja expandir as funcionalidades do Docling, incluindo o suporte a dados mais complexos, como equações matemáticas e gráficos. Além disso, há planos de integração do Docling com o sistema operacional RHEL da Red Hat, permitindo que empresas ajustem seus próprios modelos de IA usando seus dados proprietários.

Essa nova ferramenta atende a uma demanda crescente por métodos de extração de dados que otimizem o uso de documentos internos para a personalização de modelos de IA, permitindo que empresas maximizem o valor de seus dados.

Fique por dentro das principais notícias da semana sobre tecnologia e Linux, assine nossa newsletter!

Docling, uma IA da IBM para organizar dados que pode chegar ao RHEL

Docling: poderoso e flexível

Como o Docling é estruturado

Aplicações e integrações do Docling

Expansão de capacidades

Confira o novo Diocast!

Linux roda jogos, o problema é outro! - Diocast

Imperdíveis da semana

Microsoft lança distro Linux, Ubuntu Core 26, GitHub confirma invasão na plataforma

Linux roda jogos, o problema é outro! - Diocast

O Linux Mint está passando por uma das maiores transições de sua história

As distros “novas” que estão roubando espaço no Linux

KDE Plasma vem ganhando cada vez mais espaço no ecossitema Linux

Ariel Bonfim

Sobre o Autor