Gerador de chunks RAG e citation pack para PDF

Converte um PDF em chunks RAG com pagina, bounding box e metadados de citacao

Envie um PDF e a ferramenta executa o OpenDataLoader para gerar JSON estruturado. Em seguida, paragrafos, listas, tabelas e titulos sao agrupados em chunks para RAG com pagina, bounding box e contexto de secao.

Exemplos de resultados

1 Exemplos

Preparar um relatorio financeiro para RAG

O teste real gerou 2 chunks e 57 nos semanticos para citacoes precisas.

pdf-rag-chunker-citation-pack-example1.json Ver arquivo
Ver parâmetros de entrada
{ "pdfFile": "/public/samples/pdf/financial-report-example1.pdf", "chunkMode": "heading-aware", "maxChars": 900, "useStructTree": true, "sanitizeSensitiveData": false, "includeTableNodes": true }

Click to upload file or drag and drop file here

Maximum file size: 10MB Supported formats: application/pdf

Fatos principais

Categoria
IA e geradores
Tipos de entrada
file, select, number, checkbox
Tipo de saída
file
Cobertura de amostras
4
API disponível
Yes

Visão geral

O Gerador de chunks RAG e citation pack para PDF converte documentos complexos em fragmentos de texto estruturados, ideais para sistemas de IA. Ele extrai parágrafos, tabelas e listas, preservando metadados cruciais como números de página, coordenadas (bounding boxes) e caminhos de títulos para garantir citações precisas e rastreabilidade em aplicações de busca semântica.

Quando usar

  • Ao preparar documentos PDF para alimentar bancos de dados vetoriais em sistemas de Retrieval-Augmented Generation (RAG).
  • Quando é necessário que a IA cite a página exata e a localização visual de uma informação dentro de um PDF original.
  • Para processar relatórios técnicos ou financeiros onde a estrutura de títulos e tabelas deve ser preservada para manter o contexto.

Como funciona

  • O usuário faz o upload do arquivo PDF e seleciona o modo de fragmentação, como o agrupamento baseado em títulos ou por elemento individual.
  • A ferramenta utiliza o OpenDataLoader para analisar a árvore estrutural do documento, identificando elementos como listas, tabelas e hierarquia de cabeçalhos.
  • O conteúdo é dividido em blocos (chunks) respeitando o limite de caracteres definido e anexando metadados de localização e contexto de seção.
  • Um arquivo JSON estruturado é gerado, contendo os fragmentos de texto prontos para indexação em vector stores ou uso em sistemas de chat fundamentados em documentos.

Casos de uso

Criação de assistentes virtuais corporativos que precisam responder perguntas baseadas em manuais técnicos extensos com citações de página.
Automação de auditorias de conformidade onde cada resposta da IA deve apontar para a evidência exata e localização no documento fonte.
Indexação de relatórios financeiros anuais em bancos de dados vetoriais para análise comparativa rápida e precisa.

Exemplos

1. Preparação de Relatório Financeiro para RAG

Analista de Dados
Contexto
O analista precisa indexar um relatório anual de 100 páginas para um chatbot interno de consulta financeira.
Problema
Fragmentar o PDF sem perder a referência de qual página cada dado financeiro veio, garantindo que as tabelas sejam mantidas.
Como usar
Carregue o PDF do relatório, selecione o modo 'heading-aware' e defina o limite de 900 caracteres.
Configuração de exemplo
{"chunkMode": "heading-aware", "maxChars": 900, "includeTableNodes": true, "useStructTree": true}
Resultado
Um arquivo JSON com chunks organizados por seção, contendo tabelas integradas e números de página para citações diretas.

2. Extração de Cláusulas com Localização Visual

Desenvolvedor de IA
Contexto
Uma empresa jurídica deseja que sua IA destaque visualmente a cláusula citada no PDF original durante a revisão de contratos.
Problema
Obter as coordenadas exatas (bounding boxes) de cada parágrafo para que o frontend possa renderizar um destaque sobre o PDF.
Como usar
Envie o contrato em PDF e ative a opção 'Usar árvore estrutural' com o modo de um elemento por bloco.
Configuração de exemplo
{"useStructTree": true, "chunkMode": "element-per-chunk", "maxChars": 500}
Resultado
Cada parágrafo e título é transformado em um chunk individual contendo metadados de bounding box para realce visual preciso no navegador.

Testar com amostras

pdf, file

Hubs relacionados

FAQ

O que é o modo 'heading-aware'?

É uma fragmentação que agrupa o conteúdo respeitando a hierarquia de títulos para manter o contexto semântico de cada seção.

A ferramenta processa tabelas do PDF?

Sim, se a opção 'Incluir tabelas' estiver ativa, as tabelas são extraídas como nós estruturados dentro dos chunks gerados.

O que são as bounding boxes incluídas no JSON?

São as coordenadas geográficas que indicam a posição exata do texto na página do PDF original, permitindo o realce visual da fonte.

Posso limitar o tamanho dos blocos de texto?

Sim, você pode configurar o número máximo de caracteres por chunk, com um intervalo permitido entre 200 e 4000 caracteres.

A ferramenta remove dados sensíveis?

Existe uma opção de sanitização que, quando ativada, ajuda a ocultar informações sensíveis identificadas durante o processamento do documento.

Documentação da API

Ponto final da solicitação

POST /pt/api/tools/pdf-rag-chunker-citation-pack

Parâmetros da solicitação

Nome do parâmetro Tipo Requerido Descrição
pdfFile file (Upload necessário) Sim -
chunkMode select Não -
maxChars number Não -
useStructTree checkbox Não -
sanitizeSensitiveData checkbox Não -
includeTableNodes checkbox Não -

Os parâmetros de tipo arquivo precisam ser carregados primeiro via POST /upload/pdf-rag-chunker-citation-pack para obter filePath, depois filePath deve ser passado ao campo de arquivo correspondente.

Formato de resposta

{
  "filePath": "/public/processing/randomid.ext",
  "fileName": "output.ext",
  "contentType": "application/octet-stream",
  "size": 1024,
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
Arquivo: Arquivo

Documentação de MCP

Adicione este ferramenta à sua configuração de servidor MCP:

{
  "mcpServers": {
    "elysiatools-pdf-rag-chunker-citation-pack": {
      "name": "pdf-rag-chunker-citation-pack",
      "description": "Converte um PDF em chunks RAG com pagina, bounding box e metadados de citacao",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-rag-chunker-citation-pack",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Você pode encadear várias ferramentas, ex: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, máx 20 ferramentas.

Suporta links de arquivos URL ou codificação Base64 para parâmetros de arquivo.

Se você encontrar algum problema, por favor, entre em contato conosco em [email protected]