La extracción de Normas de Boletines Oficiciales en papel y de ediciones en internet.

AutorDiego Manuel Guasch Díaz
CargoAbogado. Madrid. Estudios de Derecho Comercial y Comunitario Europeo en la Universidad de Estocolmo. Suecia.
  1. Introducción.

    En el presente escrito, se exponen de forma sucinta algunas cuestiones legales que pueden presentarse a una empresa de bases de datos, cuando se plantean la oferta de un producto basado en una recopilación legislativa. Se exponen en primer lugar, la dificultad que supone la obtención de los textos legales, cuando se tiene que tomar el papel como fuente. Esta dificultad en la obtención y verificación de las normas, llevan a las empresas de bases de datos a plantearse la búsqueda de soluciones que supongan una menor inversión en recursos humanos y materiales.

    Las empresas de bases de datos se plantean la posibilidad de eludir una maquetación de los textos legales, o la supresión de un proceso en el que intervengan escáneres, programas de reconocimiento óptico de caracteres y grabadores de datos. En los formatos originales de los boletines y en las ediciones de los mismos en Internet podría encontrarse una solución, pero esta posibilidad envuelve varias consecuencias legales que deben ser analizadas.

    2.El esfuerzo en el tratamiento automatizado de los textos legales.

    La clave de la obtención de los textos legales se encuentra en la digitalización. El conocimiento de las dificultades de obtención de un texto en formato digital que pueda ser utilizado por el usuario de una base de datos, (v.g. para copiar y pegar fragmentos del mismo en otro documento), nos ayudará a comprender mejor los dos temas sobre los que versa el presente artículo, que son los siguientes:

    Si es o no posible que una empresa de bases de datos ofrezca las normas en el mismo formato que tienen los boletines oficiales.

    Si es o no posible que una empresa de bases de datos extraiga partes sustanciales o no sustanciales de un una edición electrónica de un boletín oficial.

    El tema es importante ya que una publicación con el mismo formato que los boletines oficiales evita una verificación de los errores de reconocimiento de los programas de Reconocimiento Optico de Caracteres (OCR), supone una presentación maquetada, estética, y hasta puede dotársele de un sistema de búsqueda a texto completo parcialmente fiable. Asimismo, la posibilidad de extraer normas en formato texto, directamente de las ediciones electrónicas de los organismos encargados de la publicación de los boletines oficiales, haría innecesaria la utilización de escáneres o programas de OCR y supondría un ahorro de tiempo y recursos humanos a las empresas de bases de datos.

    Conviene tener una visión realista de las limitaciones de los actuales sistemas de Reconocimiento Optico de Caracteres:

  2. La fuente con la que ordinariamente se ha contado hasta ahora para la obtención del texto de las normas ha sido los boletines oficiales editados por los departamentos u organismos gubernamentales (v.g. Boletín Oficial del Estado, Boletines Oficiales de las Comunidades Autónomas... etc.) en función de una potestad atribuida legalmente.

  3. Para la conversión de los textos legales a formato digital, hasta hace pocos años, las empresas de bases de datos mecanografiaban los textos legales del papel a la memoria del ordenador, o compraban el texto digitalizado a los organismos públicos que habían desarrollado algún sistema de grabación simultanea en banda magnética o cinta perforada al realizar la escritura a máquina o la composición en linotipia (1). Esto suponía para las empresas un elevado gasto económico o en recursos humanos y una lentitud en la obtención de los textos.

  4. Con la llegada de las técnicas de lectura óptica y los "scanners" el proceso de digitalización se fue acelerando. La evolución del software de Reconocimiento Optico de Caracteres (OCR) y el abaratamiento de sus costes de implantación, ha acercado la digitalización a la pequeña y mediana empresa.

  5. Pero al día de hoy los sistemas de OCR no están evitando una verificación manual de los resultados del proceso automático. Esto significa un coste en recursos humanos que no acaba de descender. Las razones de que un texto digitalizado y sometido a un OCR deba ser revisado son, entre otras, las siguientes:

  6. Los actuales programas de OCR no aciertan al cien por cien en el reconocimiento de los caracteres, por lo que el texto casi siempre contiene errores en las palabras que deben ser corregidos manualmente. La utilización de programas de tratamiento de texto que detectan faltas de ortografía (v.g. MS-Word) pueden facilitar la tarea pero no garantizan un resultado totalmente fiable.

  7. Si el fallo de reconocimiento consiste en la omisión de un número o en la omisión de una palabra completa, su corrección deberá efectuarse comparando el texto digitalizado con el documento original. Esto supone una gran pérdida de tiempo y...

Para continuar leyendo

Solicita tu prueba

VLEX utiliza cookies de inicio de sesión para aportarte una mejor experiencia de navegación. Si haces click en 'Aceptar' o continúas navegando por esta web consideramos que aceptas nuestra política de cookies. ACEPTAR