Mancomún

ArchivistaBox 2008/IX: primeira aplicación para o recoñecemento de texto en SwL con procura en pdf

Luns, 22 Setembro 2008

archivistaArchivista, unha compañía suíza de software de código aberto, lanzou recentemente ArchivistaBox 2008/IX. Trátase do único software de recoñecemento de texto de código aberto mundial que crea arquivos PDF con opción de procura.

ArchivistaBox é un sistema de xestión de documentos (DMS) web, que pode instalarse en cada equipo dispoñible comercialmente. Segundo o hardware utilizado, o volume de páxinas procesado pode variar entre varios miles a varios millóns de páxinas ao día.

O lanzamento de 2008/IX marca o lanzamento do primeiro sistema de recoñecemento de texto de código aberto que é capaz de xerar arquivos PDF procedentes de páxinas escaneadas con opción de procura. Máis de 20 idiomas están dispoñibles e a calidade de recoñecemento é comparable coa dos sistemas comerciais (>99 por cento)…

Os arquivos PDF xerados con ArchivistaBox almacénanse nunha base de datos de Archivista e se indexan automaticamente, permitindo a consulta de todo o documento completo. Os documentos escaneados poden recuperarse cun navegador web en calquera momento. Os datos sensibles poden encriptarse antes de estar dispoñibles. Se é necesario, ArchivistaBox pode crear publicacións en DVD completas.
O 100 % do código fonte utilizado en ArchivistaBox vén baixo licenza GPLv2. Os motores OCR de Tesseract (incluíndo recoñecemento de fractura/letra negra) e o porto Linux de Cuneiform (licenza BSD) utilízanse para o recoñecemento de texto. O módulo hocr2pdf utilízase para xerar arquivos PDF con opcións de procura.
 
ArchivistaBox 2008/IX CD (700 MByte) pode descargarse desde https://sourceforge.net/projects/archivista/ ou http://www.archivista.ch.
 
Fonte: Sourceforge.net
Xunta

Xunta de Galicia, Información mantida e publicada na internet pola Xunta de Galicia

Atención á cidadanía - Accesibilidade - Aviso legal - Mapa do portal