«

»

Jul 03

Manual de Instalación y uso del OCR Tesseract con la aplicación gscan2pdf

1.- Se Abre una consola y entramos como root

unicornio:/home/julioh# aptitude install tesseract-ocr tesseract-ocr-spa gscan2pdf libtiff-dev linuxprinting.org-ppds cups

2.- Se conecta la impresora multifunciónal, vemos que la reconoció el sistema operativo.

unicornio:/home/julioh# tail -f /var/log/syslog
ice_added(): New device added (hal udi is '/org/freedesktop/Hal/devices/usb_device_3f0_4d11_CN53AV507J04BN_usbraw').
Jan 13 17:19:09 unicornio hal_lpadmin: add
Jan 13 17:19:10 unicornio python: hp-makeuri[25543]: warning: hp-makeuri should not be run as root.
Jan 13 17:19:10 unicornio hal_lpadmin: URIs: ['hp:/usb/PSC_1400_series?serial=CN53AV507J04BN', 'usb://HP/PSC%201400%20series?serial=CN53AV507J04BN', 'hal:///org/freedesktop/Hal/devices/usb_device_3f0_4d11_CN53AV507J04BN_if1_printer_CN53AV507J04BN']
Jan 13 17:19:10 unicornio python: hp-makeuri[25550]: warning: hp-makeuri should not be run as root.
Jan 13 17:19:10 unicornio python: hp-makeuri[25550]: error: Device does not support fax.
Jan 13 17:19:10 unicornio hal_lpadmin: HPLIP Fax URIs: None
Jan 13 17:19:10 unicornio NetworkManager: [1231883350.360665] nm_hal_device_added(): New device added (hal udi is '/org/freedesktop/Hal/devices/usb_device_3f0_4d11_CN53AV507J04BN_if1_printer_CN53AV507J04BN').
Jan 13 17:19:10 unicornio hal_lpadmin: Calling GetReady
Jan 13 17:19:11 unicornio kernel: [36921.864246] wlan0: RX too short data frame payload
Jan 13 17:19:15 unicornio hal_lpadmin: Device ID: MFG:HP;MDL:PSC 1400 series;DES:;CMD:LDL,MLC,PML,DYN; URI:hp:/usb/PSC_1400_series?serial=CN53AV507J04BN
Jan 13 17:19:15 unicornio hal_lpadmin: PPD: drv:///hpijs.drv/hp-psc_1400_series-hpijs.ppd; Status: 0
Jan 13 17:19:15 unicornio hal_lpadmin: Added printer PSC_1400_series

3.- Ya se tiene configurada la impresora y se agrega al sistema operativo Linux, se procede a usar la herramienta, para ejecutarla se selecciona en Aplicaciones>Graficos>gscan2pdf Esta de mas de recordar que el usuario tiene que estar agregado al grupo de impresoras y scanner.

1-OCR Tesseract

4.- Ya abierta la aplicación se le da click a escanear, luego ella la aplicación genera y saca una multipestaña, bueno en realidad son dos pestañas en las que posiblemente no hay que tocar nada, solo en la segunda opción que tendremos que modificar.

2-OCR Tesseract

5.- El panel de fuente del documento te permite seleccionar cosas como si solo tiene una cara, si tiene las dos, si el adverso o reverso. Sería cosa a probar con alimentador de hojas el cual no se tiene.

6.- El panel post processing te ofrece un botón de opciones que te permitirá configurar qué partes se escanean o no de la página y como, tales como márgenes y zonas específicas. No se ha tocado de momento. Seguidamente la casilla para activar el ocr de páginas escaneadas aparecerá luego de digitalizar.

7.- Seguidamente aparecen dos cuadros combinados, uno para seleccionar el tipo de motor OCR; que puede ser Gocr o Tesseract, en el caso que se toca se usará Tesseract; y otro para seleccionar el idioma de reconocimiento que, en el o caso tiene español, también puede instalarse diferentes soportes de idiomas.

8.- Finalmente hay un cuadro combinado donde aparecen las posibles fuentes de reconocimientos de imagen, en el caso que se trata aparece el escáner, si no aparece es que el scanner no tiene soporte para Linux.

9.- La segunda de las páginas, con opciones de escaneado tiene el tipo de formato de página a escanear carta, a4, a5 y entre otros dependiendo del escáner, un cuadro combinado para elegir cómo se escanea, color, gris y trazos, en este caso para el correcto funcionamiento del Ocr se escoge gris, al escoger color no se gana en calidad y si se pierde en velocidad.
3-OCR Tesseract

10.- Luego aparece un cuadro combinado para la resolución que en el caso que se trata viene en 75 , se procede a modificar y aumentarlo a 300 el cual mejorará la calidad de reconocimiento.

11.- Luego de esto se pulsa escanear y se espera un tiempo, el escáner procede a digitalizar la página, se ejecuta el Ocr y se detiene, si se quiere se sigue escaneando hasta terminar, entonces se da al botón cerrar y luego se usa tabulador un par de veces hasta que diga el texto, es ahí donde se ha colocado el resultado. El cursor se pondrá al final del documento.
5-OCR Tesseract
6-OCR Tesseract

12.- Luego que se esta en el cuadro de texto, lo que se hace es seleccionar todo el texto, luego abrir el editor de texto y copiarlo, no se hace en esta aplicación por que el programa está pensado para convertir a pdf y todavía no tiene la opción de guardar como texto .txt.
8-OCR Tesseract

13- Seleccionamos el texto realizando el control+a y nos va a salir de la siguiente forma, luego de eso ejecutamos el control+c para copiarlo

9-OCR Tesseract

14- Luego abrimos gedit y ejecutamos control+v para pegar lo que hemos escaneado y que gracias al OCR lo tengo en texto plano.
11-OCR Tesseract

Este manual fue creado hace tiempo, realmente su desarrollo se hizo para demostrar que no se necesita tener una impresora de gran escala para digitalizar documentos como las Allreader Precio de la Allreader con ven en ese enlace la cual cuesta $2,495.00

Se hicieron las pruebas con una persona con discapacidad usando una impresora multifuncional HP de las mas regulares que no llego a costar ni $100, el pudo escanear sus documentos o guías que le dieron en la universidad, y de manera puedo tener digitalizado algo que tenia en físico.

Cualquier aporte bienvenido sera.

1 comentario

  1. Juan

    De no conocer tu blog últimamente las búsquedas me traen asiduamente; te pido consejo con respeto a este tema si es que sabés qué le puede estar pasando.
    Instalé el gscan2pdf y tesseract-ocr-spa (y todo el resto); pero por interface gráfica no me aparece la opción de elejir nada más que inglés (tengo instalado español, español antigua, frances y vasco, además del inglés) Esto me pasa en el Kubuntu 12.04 del trabajo -arquitectura 32- y en el LinuxMint 13 de casa (también kubuntu 12.04) -arquitectura 64-.
    Muchas gracias por hacer público lo que vas haciendo.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Puedes usar las siguientes etiquetas y atributos HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>