Fatos principais
- Categoria
- IA e geradores
- Tipos de entrada
- file, select, number, checkbox
- Tipo de saída
- file
- Cobertura de amostras
- 4
- API disponível
- Yes
Visão geral
O Gerador de chunks RAG e citation pack para PDF converte documentos complexos em fragmentos de texto estruturados, ideais para sistemas de IA. Ele extrai parágrafos, tabelas e listas, preservando metadados cruciais como números de página, coordenadas (bounding boxes) e caminhos de títulos para garantir citações precisas e rastreabilidade em aplicações de busca semântica.
Quando usar
- •Ao preparar documentos PDF para alimentar bancos de dados vetoriais em sistemas de Retrieval-Augmented Generation (RAG).
- •Quando é necessário que a IA cite a página exata e a localização visual de uma informação dentro de um PDF original.
- •Para processar relatórios técnicos ou financeiros onde a estrutura de títulos e tabelas deve ser preservada para manter o contexto.
Como funciona
- •O usuário faz o upload do arquivo PDF e seleciona o modo de fragmentação, como o agrupamento baseado em títulos ou por elemento individual.
- •A ferramenta utiliza o OpenDataLoader para analisar a árvore estrutural do documento, identificando elementos como listas, tabelas e hierarquia de cabeçalhos.
- •O conteúdo é dividido em blocos (chunks) respeitando o limite de caracteres definido e anexando metadados de localização e contexto de seção.
- •Um arquivo JSON estruturado é gerado, contendo os fragmentos de texto prontos para indexação em vector stores ou uso em sistemas de chat fundamentados em documentos.
Casos de uso
Exemplos
1. Preparação de Relatório Financeiro para RAG
Analista de Dados- Contexto
- O analista precisa indexar um relatório anual de 100 páginas para um chatbot interno de consulta financeira.
- Problema
- Fragmentar o PDF sem perder a referência de qual página cada dado financeiro veio, garantindo que as tabelas sejam mantidas.
- Como usar
- Carregue o PDF do relatório, selecione o modo 'heading-aware' e defina o limite de 900 caracteres.
- Configuração de exemplo
-
{"chunkMode": "heading-aware", "maxChars": 900, "includeTableNodes": true, "useStructTree": true} - Resultado
- Um arquivo JSON com chunks organizados por seção, contendo tabelas integradas e números de página para citações diretas.
2. Extração de Cláusulas com Localização Visual
Desenvolvedor de IA- Contexto
- Uma empresa jurídica deseja que sua IA destaque visualmente a cláusula citada no PDF original durante a revisão de contratos.
- Problema
- Obter as coordenadas exatas (bounding boxes) de cada parágrafo para que o frontend possa renderizar um destaque sobre o PDF.
- Como usar
- Envie o contrato em PDF e ative a opção 'Usar árvore estrutural' com o modo de um elemento por bloco.
- Configuração de exemplo
-
{"useStructTree": true, "chunkMode": "element-per-chunk", "maxChars": 500} - Resultado
- Cada parágrafo e título é transformado em um chunk individual contendo metadados de bounding box para realce visual preciso no navegador.
Testar com amostras
pdf, fileHubs relacionados
FAQ
O que é o modo 'heading-aware'?
É uma fragmentação que agrupa o conteúdo respeitando a hierarquia de títulos para manter o contexto semântico de cada seção.
A ferramenta processa tabelas do PDF?
Sim, se a opção 'Incluir tabelas' estiver ativa, as tabelas são extraídas como nós estruturados dentro dos chunks gerados.
O que são as bounding boxes incluídas no JSON?
São as coordenadas geográficas que indicam a posição exata do texto na página do PDF original, permitindo o realce visual da fonte.
Posso limitar o tamanho dos blocos de texto?
Sim, você pode configurar o número máximo de caracteres por chunk, com um intervalo permitido entre 200 e 4000 caracteres.
A ferramenta remove dados sensíveis?
Existe uma opção de sanitização que, quando ativada, ajuda a ocultar informações sensíveis identificadas durante o processamento do documento.