Camada de texto OCR PDF

Adiciona camada OCR em PDF digitalizado para permitir busca e copia

Rasteriza paginas em imagens, executa Tesseract por pagina e combina em um PDF com texto pesquisavel.

Exemplos de resultados

2 Exemplos

Camada OCR padrao

Adiciona camada OCR em ingles com 300 DPI e segmentacao padrao

pdf-ocr-text-layer-example1.pdf Ver arquivo
Ver parâmetros de entrada
{ "sourceFile": "/Users/quyue/www/elysia-tools/public/samples/pdf/pdf-2026-02-19-source-4pages.pdf", "language": "eng", "dpi": 300, "oem": 1, "psm": 3 }

OCR rapido com DPI menor

Usa 200 DPI e psm=6 para acelerar o OCR e reduzir o tamanho do PDF

pdf-ocr-text-layer-example2.pdf Ver arquivo
Ver parâmetros de entrada
{ "sourceFile": "/Users/quyue/www/elysia-tools/public/samples/pdf/pdf-2026-02-19-source-4pages.pdf", "language": "eng", "dpi": 200, "oem": 1, "psm": 6 }

Click to upload file or drag and drop file here

Maximum file size: 500MB Supported formats: application/pdf

Fatos principais

Categoria
Documentos e PDF
Tipos de entrada
file, text, number
Tipo de saída
file
Cobertura de amostras
4
API disponível
Yes

Visão geral

Transforme documentos digitalizados em arquivos inteligentes com a nossa ferramenta de Camada de Texto OCR. Ela processa seus PDFs, identifica o conteúdo visual e adiciona uma camada de texto pesquisável e selecionável, facilitando a extração de informações e a organização de documentos.

Quando usar

  • Quando você precisa pesquisar palavras-chave dentro de documentos digitalizados ou PDFs baseados em imagens.
  • Ao precisar copiar e colar texto de contratos, recibos ou livros que foram escaneados.
  • Para tornar arquivos PDF antigos ou arquivados compatíveis com sistemas de indexação e busca.

Como funciona

  • Envie seu arquivo PDF digitalizado para a plataforma.
  • Configure os parâmetros de DPI e o idioma do documento para otimizar a precisão do reconhecimento.
  • O sistema rasteriza as páginas em imagens e aplica o motor Tesseract para extrair o texto.
  • Baixe o novo arquivo PDF que agora contém uma camada de texto sobreposta, pronta para busca e cópia.

Casos de uso

Digitalização de contratos e documentos jurídicos para busca rápida de cláusulas específicas.
Conversão de livros e artigos acadêmicos escaneados em arquivos digitais acessíveis.
Processamento de recibos e faturas para facilitar a extração de dados financeiros.

Exemplos

1. OCR de alta precisão para documentos

Contexto
Um advogado precisa encontrar uma cláusula específica em um contrato de 50 páginas que foi digitalizado como imagem.
Problema
O PDF não permite busca de texto, tornando a revisão manual extremamente lenta.
Como usar
Upload do PDF, configuração de DPI para 300 e idioma 'por' (português).
Configuração de exemplo
{"language": "por", "dpi": 300, "oem": 1, "psm": 3}
Resultado
O novo PDF permite busca instantânea por termos e cópia de trechos do contrato.

2. OCR rápido para arquivos leves

Contexto
Um estudante possui vários materiais de estudo digitalizados e precisa economizar espaço em disco.
Problema
Arquivos com alta resolução ocupam muito espaço e o OCR padrão é lento.
Como usar
Upload dos arquivos, ajuste de DPI para 200 e modo de segmentação 6 para acelerar o processamento.
Configuração de exemplo
{"language": "eng", "dpi": 200, "oem": 1, "psm": 6}
Resultado
PDFs com camada de texto funcional e tamanho de arquivo reduzido.

Testar com amostras

pdf, text, file

Hubs relacionados

FAQ

O que é OCR?

OCR significa Reconhecimento Óptico de Caracteres. É uma tecnologia que converte imagens de texto em texto editável e pesquisável.

Quais idiomas são suportados?

A ferramenta suporta diversos idiomas através do motor Tesseract. Você pode especificar o idioma no campo de configuração, como 'eng' para inglês ou combinações como 'eng+por'.

Qual DPI devo escolher?

Recomendamos 300 DPI para um equilíbrio ideal entre qualidade de reconhecimento e tamanho do arquivo. Use valores menores para documentos simples e maiores para textos pequenos ou complexos.

O arquivo original é alterado?

Não, a ferramenta gera um novo arquivo PDF com a camada de texto adicionada, mantendo o seu arquivo original intacto.

Existe limite de tamanho para o arquivo?

Sim, o limite para upload é de 500 MB por arquivo.

Documentação da API

Ponto final da solicitação

POST /pt/api/tools/pdf-ocr-text-layer

Parâmetros da solicitação

Nome do parâmetro Tipo Requerido Descrição
sourceFile file (Upload necessário) Sim -
language text Não -
dpi number Não -
oem number Não -
psm number Não -

Os parâmetros de tipo arquivo precisam ser carregados primeiro via POST /upload/pdf-ocr-text-layer para obter filePath, depois filePath deve ser passado ao campo de arquivo correspondente.

Formato de resposta

{
  "filePath": "/public/processing/randomid.ext",
  "fileName": "output.ext",
  "contentType": "application/octet-stream",
  "size": 1024,
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
Arquivo: Arquivo

Documentação de MCP

Adicione este ferramenta à sua configuração de servidor MCP:

{
  "mcpServers": {
    "elysiatools-pdf-ocr-text-layer": {
      "name": "pdf-ocr-text-layer",
      "description": "Adiciona camada OCR em PDF digitalizado para permitir busca e copia",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-ocr-text-layer",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Você pode encadear várias ferramentas, ex: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, máx 20 ferramentas.

Suporta links de arquivos URL ou codificação Base64 para parâmetros de arquivo.

Se você encontrar algum problema, por favor, entre em contato conosco em [email protected]