Digitalizacion y volcado a documentum


En este post se describe, a modo de ejemplo, un proyecto que Serikat ha abordado dentro de su línea de negocio de Servicios Documentales.

Como en muchos otros proyectos de Servicios Documentales, para este caso Serikat ha desarrollado una aplicación específica que le asiste a la hora de realizar el servicio como mayor eficiencia.

El objetivo de este proyecto es el de facilitar la gestión de toda la información referente a los poderes recibidos de los agentes representantes de nuestro cliente, para mejorar su consulta y localización.

Dado que el cliente en cuestión dispone entre sus sistema de información del gestor documental Documentum, es también objeto del proyecto incorporar toda la información referente a los poderes notariales recibidos de los agentes en el sistema Documentum para su explotación informática.

El alcance de este proyecto/servicio incluye las siguientes tareas y trabajos:

· Preparación de una aplicación de digitalización específicamente adaptada para la digitalización y catalogación de los poderes notariales objeto de este servicio.

· Instalación del software y de la aplicación digitalización y catalogación en los puestos de trabajo asignados a esta tarea e instalación de un scanner de producción con objeto de soportar la carga de trabajo prevista.

· Trabajos de digitalización, catalogación de los poderes, así como el control de calidad de los datos e imágenes obtenidos.

· Volcado de las imágenes y sus datos de catalogación en el sistema Documentum.


Sistema de digitalización, catalogación y validación de Poderes Notariales

Para realizar los trabajos de digitalización y catalogación de toda la documentación referente a los poderes notariales objeto de este servicio, Serikat ha desarrollado una aplicación informática específicamente diseñada para realizar trabajos de catalogación masiva y adaptada para la catalogación de los campos de información específicos de los poderes notariales.


Las principales características de este sistema son:

· La digitalización se puede realizar de forma autónoma utilizando indistintamente escáneres de sobremesa o equipos multifuncionales que tengan opción de escáner, pudiéndose así reutilizar las infraestructuras de las que dispone actualmente el cliente

· Pantalla de catalogación personalizada de los poderes notariales, presentando en pantalla de forma simultánea los campos de catalogación junto con la imagen del documento digitalizado.

Dispone de un control de páginas del documento para poder localizar los datos a catalogar.

· Para facilitar las operaciones de catalogación, se ha previsto la implementación de un OCR fulltext, página a página, de todas las páginas de cada documento, con el objetivo de mostrar simultáneamente la página digitalizada y su texto reconocido. Así se pueden realizar operaciones de selección y copia de los nombres reconocidos de los representados y pegado de los mismos sobre el campo de representado correspondiente.

· Módulo de control de calidad para comprobar la calidad de las imágenes digitalizadas y datos catalogados.

· Dispone de un módulo de validación de los Poderes digitalizados, realizando el análisis del texto reconocido mediante OCR para determinar si el poder notarial tiene un contenido válido.

· La salida de los datos catalogados se realiza en formato de texto ASCII:

· Una línea por poder digitalizado con campos deparados por un carácter especial y cuyo último campo indica el nombre del archivo digitalizado.
· Integración con el gestor documental Documentum para almacenar los Poderes digitalizados.

· El sistema genera los documentos digitalizados en dos formatos diferentes para su integración con Documentum:

· PDF Text, que es un PDF con la imagen exacta del documento más el texto extraído en el OCR y que permite a los usuarios realizar búsquedas por su contenido.

· RTF, que contiene el texto extraído en el proceso de OCR, y donde aparecen resaltadas las diferencias de texto encontradas durante la comparación con un texto patrón en el módulo de validación de los poderes descrito más arriba.


Módulos de la aplicación

Los módulos que conforman esta aplicación son:

· Módulo de Catalogación

Consistente en un interfaz preparado para realizar la catalogación masiva de los poderes, donde se muestra la imagen del documento digitalizado junto con los campos de información específicos de los poderes notariales, y que está integrado con las tablas Oracle de la aplicación de gestión del Cliente para facilitar las labores de catalogación a los operadores del sistema.


· Módulo de validación automática del contenido de texto de los poderes

Este módulo se encarga de realizar un OCR (reconocimiento óptico de caracteres) de cada documento para tratar de localizar un texto cuyo contenido es fijo, y que siempre tiene que aparecer dentro del poder, aunque no en una posición determinada.


· Módulo de volcado a Documentum

Para la integración de la aplicación de digitalización con Documentum se ha previsto el desarrollo e instalación de un “Job” de Documentum, que es controlado desde el interfaz “Documentum Administrator”.

A continuación se detalla el Módulo de Validación automática, por ser el que más interés pueda tener.

El texto fijo a localizar consiste en un bloque de texto (contienen un conjunto de párrafos) que puede comenzar en cualquier parte de cualquier página dentro del poder notarial. El bloque de texto fijo a reconocer puede tener dos variantes que sólo cambian en un párrafo, siendo ambas variantes reconocidas por este módulo de análisis del texto contenido en los poderes.

Dado que los sistemas actuales de OCR no son exactos, la aplicación permite seleccionar un índice de confianza en el reconocimiento del bloque de texto buscado que se irá ajustando, según los resultados que se obtengan, en las pruebas con los documentos originales de los poderes.

Este módulo de la aplicación de digitalización se encarga de:

· Separar los documentos en lotes diferentes de poderes válidos y poderes no válidos de forma automática en función de si se encuentra, o no, el bloque de texto buscado.

· Como el bloque de texto fijo a buscar consiste en una secuencia de párrafos determinada, comprueba la existencia de todos los párrafos del texto fijo y su correcto orden de aparición.

· Genera un archivo en formato “.rtf” donde aparecen resaltadas en un color llamativo, las palabras o trozos de texto encontradas en el documento que sean diferentes del texto fijo que se debe encontrar.

Este archivo “rtf” se genera para todos los documentos independientemente de que se hayan clasificado como válidos o inválidos en función del índice de confianza configurado en la aplicación, y es visible desde la aplicación para que los usuarios puedan determinar la validez del documento de forma manual.

· Revisión y validación manual de los poderes: Una vez realizado el análisis, se dispone de un interfaz que permite al usuario acceder a la carpeta de los poderes que han sido detectados como inválidos para la visualización simultánea del texto fijo a reconocer junto al archivo .rtf con las diferencias encontradas resaltadas.