Google vén de liberar unha aplicación de Recoñecemento Óptico de Caracteres ([[OCR]]). Esta aplicación fora desenvolvida por HP entre 1985 e 1995 e foi retomada hai un tempo por Google que a actualizou e corrixiu algúns erros. A aplicación chámase Tesseract OCR e está dispoñible en SourceForge. …
En canto ás súas características, no anuncio de Google din que, polo momento, só soporta o idioma inglés e aínda non inclúe análisis do esquema da páxina, polo que non funciona demasiado ben con páxinas multicolumna. Tampouco reacciona ben con documentos en escala de grises ou en cor. Afirman que non é tan preciso como os mellores OCR comerciais, pero que dos OCR libres é o máis preciso.
Dende Google agradecen á xente de HP e aos desenvolvedores do Tesseract o ter feito posible a liberación deste software.
No propio anuncio tamén din que buscan enxeñeiros especialistas en software OCR.
Fonte: Google Code Blog
