Mancomún

OCRopus, OCR para GNU/Linux

OCRopus é un sistema de análise de documentos e recoñecemento óptico de caracteres. O motor de OCRopus está desenvolvido e esponsorizado en Google Code. Inicialmente estase a desenvolver para plataformas GNU/Linux x86 e x86/64 baixo Ubuntu 6.10. O código podería ser facilmente portado a outras distribucións GNU/Linux ou outras plataformas.

Empregando OCRopus pódese recoñecer o contido dunha imaxe e retornar unha saída en HTML, en concreto ao microformato hOCR.

Un exemplo para converter o texto dunha imaxen PNG a HTML dende a liña de comandos:

./ocropus ocr test-page.png > output.html

Dende o wiki están detalladas todas as opcións por liña de comando.

hOCR é un formato para a representación da saída OCR, incluíndo información da maquetación, caracteres confidenciais, caixas ligadas e información do estilo. Esta información é invisible sendo gardada en formato HTML estándar. Ao estar gardada en formato HTML estándar pódese traballar de forma automática por calquera linguaxe de programación. Para traballar co formato hOCR están dispoñibles as hocr-tools que son un conxunto de ferramentas para manipular e avaliar o formato hOCR e representar os resultados do formato multilingua OCR e incluílos dentro de código HTML.

Pódense seguir os pasos de instalación de OCRopus dende o wiki do proxecto.

Para máis información do formato hOCR consultar o seguinte PDF.

Xunta

Xunta de Galicia, Información mantenida y publicada en internet por Xunta de Galicia

Atención a la ciudadanía - Accesibilidad - Aviso legal - Mapa del portal