Docling, uma IA da IBM para organizar dados que pode chegar ao RHEL
Notícias

Docling, uma IA da IBM para organizar dados que pode chegar ao RHEL

A IBM segue investindo fortemente em soluções para o setor de inteligência artificial (IA) voltadas ao ambiente corporativo, com lançamentos que buscam simplificar o uso de IA generativa em empresas. Uma das suas mais recentes contribuições para o ecossistema de código aberto é o Docling, uma ferramenta projetada para extrair dados de documentos empresariais e transformá-los em formatos utilizáveis por modelos de linguagem como JSON e Markdown. Isso permite que as informações sejam facilmente lidas e processadas por grandes modelos de linguagem (LLMs), tornando mais eficiente a integração de dados empresariais em treinamentos de IA generativa.

Docling: poderoso e flexível

O Docling, lançado sob a licença de código aberto MIT, foi criado para facilitar o acesso a dados complexos, muitas vezes escondidos em documentos como manuais técnicos, relatórios anuais e arquivos PDF. Por meio de uma combinação de visão computacional e técnicas avançadas de reconhecimento, a ferramenta identifica e classifica elementos em documentos, como blocos de texto, imagens e tabelas, além de converter tabelas em imagem para formatos legíveis por máquina. Essa capacidade torna o Docling especialmente útil para empresas que buscam organizar grandes quantidades de dados não estruturados, um dos maiores desafios na preparação de conjuntos de dados para IA.

A IBM posiciona seu produto como uma alternativa mais eficaz aos métodos tradicionais de reconhecimento óptico de caracteres (OCR), que, embora úteis, frequentemente apresentam alta taxa de erros e são bastante lentos. Ao optar por um modelo de visão para identificar elementos e estrutura das páginas, o Docling consegue entregar resultados até 30 vezes mais rápidos do que ferramentas de OCR convencionais, conforme relatado por Peter Staar, pesquisador da IBM.

Como o Docling é estruturado

A ferramenta conta com dois modelos principais desenvolvidos por pesquisadores da IBM. O primeiro é um modelo de visão que utiliza técnicas de detecção de objetos para analisar a estrutura da página. Esse modelo foi treinado em um conjunto de 81 mil páginas, composto por patentes, manuais e relatórios financeiros. Segundo a IBM, ele chega perto de igualar a capacidade humana de identificar corretamente notas de rodapé, títulos e outros elementos-chave.

O segundo modelo, conhecido como TableFormer, é responsável por converter tabelas baseadas em imagens em formatos de linha e coluna legíveis por máquina. Esse modelo se originou do projeto DeepSearch da IBM e teve desempenho superior em testes internos comparado às principais ferramentas de reconhecimento de tabelas. 

Aplicações e integrações do Docling

Projetado para uso empresarial, o Docling já foi utilizado por equipes da IBM e Red Hat para processar grandes volumes de dados, incluindo 2,1 milhões de PDFs do Common Crawl. No futuro, a IBM planeja expandir o uso da ferramenta para processar um total de 1,8 bilhão de PDFs, integrando esses dados em versões futuras do modelo multimodal Granite. A capacidade de converter dados complexos em formatos utilizáveis por IA permitirá que empresas personalizem seus modelos internos e otimizem fluxos de trabalho, facilitando o compartilhamento de conhecimento e a criação de sistemas de apoio à decisão.

O Docling é fácil de integrar com ferramentas e frameworks de IA de código aberto como LlamaIndex e LangChain, especialmente em aplicações de geração aumentada por recuperação (RAG). Com apenas cinco linhas de código, desenvolvedores podem configurar o Docling e começar a extrair dados de documentos, demonstrando sua simplicidade e acessibilidade, além de conseguir ser leve o bastante para ser executado até em laptops convencionais.

Expansão de capacidades

A IBM planeja expandir as funcionalidades do Docling, incluindo o suporte a dados mais complexos, como equações matemáticas e gráficos. Além disso, há planos de integração do Docling com o sistema operacional RHEL da Red Hat, permitindo que empresas ajustem seus próprios modelos de IA usando seus dados proprietários. 

Essa nova ferramenta atende a uma demanda crescente por métodos de extração de dados que otimizem o uso de documentos internos para a personalização de modelos de IA, permitindo que empresas maximizem o valor de seus dados.

Fique por dentro das principais notícias da semana sobre tecnologia e Linux, assine nossa newsletter!

Diolinux Ofertas - Aproveite os melhores descontos em diversos produtos!
1397 postagens

Sobre o autor
Redator, além de estudante de engenharia e computação.
Artigos