A IBM segue investindo fortemente em soluções para o setor de inteligência artificial (IA) voltadas ao ambiente corporativo, com lançamentos que buscam simplificar o uso de IA generativa em empresas. Uma das suas mais recentes contribuições para o ecossistema de código aberto é o Docling, uma ferramenta projetada para extrair dados de documentos empresariais e transformá-los em formatos utilizáveis por modelos de linguagem como JSON e Markdown. Isso permite que as informações sejam facilmente lidas e processadas por grandes modelos de linguagem (LLMs), tornando mais eficiente a integração de dados empresariais em treinamentos de IA generativa.
Docling: poderoso e flexível
O Docling, lançado sob a licença de código aberto MIT, foi criado para facilitar o acesso a dados complexos, muitas vezes escondidos em documentos como manuais técnicos, relatórios anuais e arquivos PDF. Por meio de uma combinação de visão computacional e técnicas avançadas de reconhecimento, a ferramenta identifica e classifica elementos em documentos, como blocos de texto, imagens e tabelas, além de converter tabelas em imagem para formatos legíveis por máquina. Essa capacidade torna o Docling especialmente útil para empresas que buscam organizar grandes quantidades de dados não estruturados, um dos maiores desafios na preparação de conjuntos de dados para IA.
A IBM posiciona seu produto como uma alternativa mais eficaz aos métodos tradicionais de reconhecimento óptico de caracteres (OCR), que, embora úteis, frequentemente apresentam alta taxa de erros e são bastante lentos. Ao optar por um modelo de visão para identificar elementos e estrutura das páginas, o Docling consegue entregar resultados até 30 vezes mais rápidos do que ferramentas de OCR convencionais, conforme relatado por Peter Staar, pesquisador da IBM.
Como o Docling é estruturado
A ferramenta conta com dois modelos principais desenvolvidos por pesquisadores da IBM. O primeiro é um modelo de visão que utiliza técnicas de detecção de objetos para analisar a estrutura da página. Esse modelo foi treinado em um conjunto de 81 mil páginas, composto por patentes, manuais e relatórios financeiros. Segundo a IBM, ele chega perto de igualar a capacidade humana de identificar corretamente notas de rodapé, títulos e outros elementos-chave.
O segundo modelo, conhecido como TableFormer, é responsável por converter tabelas baseadas em imagens em formatos de linha e coluna legíveis por máquina. Esse modelo se originou do projeto DeepSearch da IBM e teve desempenho superior em testes internos comparado às principais ferramentas de reconhecimento de tabelas.
Aplicações e integrações do Docling
Projetado para uso empresarial, o Docling já foi utilizado por equipes da IBM e Red Hat para processar grandes volumes de dados, incluindo 2,1 milhões de PDFs do Common Crawl. No futuro, a IBM planeja expandir o uso da ferramenta para processar um total de 1,8 bilhão de PDFs, integrando esses dados em versões futuras do modelo multimodal Granite. A capacidade de converter dados complexos em formatos utilizáveis por IA permitirá que empresas personalizem seus modelos internos e otimizem fluxos de trabalho, facilitando o compartilhamento de conhecimento e a criação de sistemas de apoio à decisão.
O Docling é fácil de integrar com ferramentas e frameworks de IA de código aberto como LlamaIndex e LangChain, especialmente em aplicações de geração aumentada por recuperação (RAG). Com apenas cinco linhas de código, desenvolvedores podem configurar o Docling e começar a extrair dados de documentos, demonstrando sua simplicidade e acessibilidade, além de conseguir ser leve o bastante para ser executado até em laptops convencionais.
Expansão de capacidades
A IBM planeja expandir as funcionalidades do Docling, incluindo o suporte a dados mais complexos, como equações matemáticas e gráficos. Além disso, há planos de integração do Docling com o sistema operacional RHEL da Red Hat, permitindo que empresas ajustem seus próprios modelos de IA usando seus dados proprietários.
Essa nova ferramenta atende a uma demanda crescente por métodos de extração de dados que otimizem o uso de documentos internos para a personalização de modelos de IA, permitindo que empresas maximizem o valor de seus dados.
Fique por dentro das principais notícias da semana sobre tecnologia e Linux, assine nossa newsletter!