TICbeat LAB

Guía práctica: escanear y editar documentos con OCR

El reconocimiento óptico de caracteres (OCR) es una tecnología que nos permite convertir archivos de imagen en archivos de texto editables y con los que poder trabajar de forma cómoda. Aquí os explicamos cómo funciona este software y cómo usarlo en tu día a día.

Aunque haya una tendencia creciente hacia la administración electrónica y las oficinas sin papel, lo cierto es que gran parte de nuestra documentación sigue estando en soporte físico: contratos, propuestas o simples notificaciones a otros departamentos, proveedores o clientes son todavía objeto de impresoras, tinta y árboles convertidos -químicos mediante- en finas hojas.

Pero este soporte clásico, que tiene su gracia en muchos contextos (no lo vamos a negar), peca de una falta de eficiencia inherente a los nuevos tiempos digitales, en los que se exige que cualquier información esté informatizada para su posterior edición, procesamiento o almacenamiento. Es por ello que, ante la disyuntiva de hacer convivir ambos mundos, muchos trabajadores opten por escanear los documentos físicos al ordenador, con el fin de cubrir las dos vertientes.

La UNED crea un OCR de jeroglíficos para reconocer los nombres de los faraones

Sin embargo, esa opción se choca de frente con una realidad inapelable: al escanear un documento, éste queda guardado como imagen y, por ende, no puede ser utilizado para nada más que la mera observación humana. Si queremos que ese escaneo sea funcional, que podamos editarlo como si fuera texto de Word, necesitamos algo más. Y ahí es donde entran en juego las tecnologías OCR.

El reconocimiento óptico de caracteres, que es lo que significan esas siglas, es una tecnología que nos permite convertir archivos de imagen en archivos de texto. Esta tecnología existe desde hace bastante tiempo, y existen principalmente dos formas de llevarlo a cabo: mediante reconocimiento de patrones (el carácter de entrada se lee y se compara con todos los caracteres almacenados en la base de datos; el que coincide con el carácter de entrada se selecciona y se procesa y se proporciona como salida) o mediante reconocimiento de características (en lugar de comparar todo el carácter, se comparan los trazos o características de los caracteres individuales con lo que, incluso si la calidad de entrada es baja, la salida es bastante precisa).

Cómo usar un escáner OCR

Para acceder a las funciones del reconocimiento de caracteres no necesitamos ninguna clase de hardware especial, con lo que nos valdrá cualquier escáner del mercado o la cámara de nuestro smartphone. Incluso podremos tratar de digitalizar imágenes ya tomadas previamente y que tenemos guardadas en nuestro disco duro.

Lo que sí necesitaremos es un software que contenga los sistemas y algoritmos necesarios para proceder a identificar, codificar y extraer la información contenida en los documentos que tenemos en papel. Al respecto, existen numerosas opciones en Internet totalmente gratuitas como, por ejemplo, http://www.onlineocr.net, en la que tan solo deberemos adjuntar la imagen deseada, escoger el idioma y el tipo de archivo de salida -.docx, etc.-.

Con algo más de precisión, existen opciones comerciales que pueden ser una alternativa a tener en cuenta en el segmento profesional, así como versiones de OCR que requieren ser instaladas en nuestros equipos (ya sean programas para Windows o apps para iOS y Android).

En todos los casos, el funcionamiento es el mismo: adjuntar la imagen -o tomarla en ese instante con la cámara- y hacer click en ‘Convertir’. Al instante tendremos la copia en texto editable del papel que tanto tiempo nos hubiera llevado transcribir a mano…

Sobre el autor

Alberto Iglesias Fraga

Periodista especializado en tecnología e innovación que ha dejado su impronta en medios como TICbeat, La Razón, El Mundo, ComputerWorld, CIO España, Business Insider, Kelisto, Todrone, Movilonia, iPhonizate o el blog Think Big, entre otros. También ha sido consultor de comunicación en Indie PR. Ganador del XVI Premio Accenture de Periodismo, ganador del Premio Día de Internet 2018 a mejor marca personal en RRSS y ganador del European Digital Mindset Award 2019.