Fatos principais
- Categoria
- Documentos e PDF
- Tipos de entrada
- file, text, number
- Tipo de saída
- file
- Cobertura de amostras
- 4
- API disponível
- Yes
Visão geral
Transforme documentos digitalizados em arquivos inteligentes com a nossa ferramenta de Camada de Texto OCR. Ela processa seus PDFs, identifica o conteúdo visual e adiciona uma camada de texto pesquisável e selecionável, facilitando a extração de informações e a organização de documentos.
Quando usar
- •Quando você precisa pesquisar palavras-chave dentro de documentos digitalizados ou PDFs baseados em imagens.
- •Ao precisar copiar e colar texto de contratos, recibos ou livros que foram escaneados.
- •Para tornar arquivos PDF antigos ou arquivados compatíveis com sistemas de indexação e busca.
Como funciona
- •Envie seu arquivo PDF digitalizado para a plataforma.
- •Configure os parâmetros de DPI e o idioma do documento para otimizar a precisão do reconhecimento.
- •O sistema rasteriza as páginas em imagens e aplica o motor Tesseract para extrair o texto.
- •Baixe o novo arquivo PDF que agora contém uma camada de texto sobreposta, pronta para busca e cópia.
Casos de uso
Exemplos
1. OCR de alta precisão para documentos
- Contexto
- Um advogado precisa encontrar uma cláusula específica em um contrato de 50 páginas que foi digitalizado como imagem.
- Problema
- O PDF não permite busca de texto, tornando a revisão manual extremamente lenta.
- Como usar
- Upload do PDF, configuração de DPI para 300 e idioma 'por' (português).
- Configuração de exemplo
-
{"language": "por", "dpi": 300, "oem": 1, "psm": 3} - Resultado
- O novo PDF permite busca instantânea por termos e cópia de trechos do contrato.
2. OCR rápido para arquivos leves
- Contexto
- Um estudante possui vários materiais de estudo digitalizados e precisa economizar espaço em disco.
- Problema
- Arquivos com alta resolução ocupam muito espaço e o OCR padrão é lento.
- Como usar
- Upload dos arquivos, ajuste de DPI para 200 e modo de segmentação 6 para acelerar o processamento.
- Configuração de exemplo
-
{"language": "eng", "dpi": 200, "oem": 1, "psm": 6} - Resultado
- PDFs com camada de texto funcional e tamanho de arquivo reduzido.
Testar com amostras
pdf, text, fileHubs relacionados
FAQ
O que é OCR?
OCR significa Reconhecimento Óptico de Caracteres. É uma tecnologia que converte imagens de texto em texto editável e pesquisável.
Quais idiomas são suportados?
A ferramenta suporta diversos idiomas através do motor Tesseract. Você pode especificar o idioma no campo de configuração, como 'eng' para inglês ou combinações como 'eng+por'.
Qual DPI devo escolher?
Recomendamos 300 DPI para um equilíbrio ideal entre qualidade de reconhecimento e tamanho do arquivo. Use valores menores para documentos simples e maiores para textos pequenos ou complexos.
O arquivo original é alterado?
Não, a ferramenta gera um novo arquivo PDF com a camada de texto adicionada, mantendo o seu arquivo original intacto.
Existe limite de tamanho para o arquivo?
Sim, o limite para upload é de 500 MB por arquivo.