Nuevas formas de protección penal de la intimidad

AutorJavier Valls Prieto
CargoProfesor Titular de la Universidad de Granada
Páginas175-214

Page 176

I Nuevas formas de análisis de datos

No existe una definición de Big Data única que ponga de acuerdo a todos los científicos. A principios del año 2.0001científicos en astronomía2y genoma fueron los primeros en utilizar este concepto cuando se referían a las investigaciones en las que utilizaban una cantidad ingente de datos3. Esta técnica de gestión de grandes cantidades de datos se ha ido extendiendo a otras disciplinas dando diferentes definiciones de Big Data.

Para explicar este fenómeno, los ingenieros de IBM utilizan como definición "la tendencia en el avance de la tecnología que ha abierto las puertas hacia un nuevo enfoque de entendimiento y toma de decisiones, la cual es utilizada para describir enormes cantidades de datos (estructurados, no estructurados y semiestructurados) que tomaría demasiado tiempo y sería muy costoso cargarlos a un base de datos relacional para su análisis. De tal manera que, el concepto de Big Data se aplica para toda aquella información que no puede ser procesada o analizada utilizando procesos o herramientas tradicionales"4.

Se suele relacionar Big Data con el volumen de datos analizados pero realmente es sólo una parte de la ecuación en la técnica que se desarrolla en la actualidad. Al menos hay dos variables adicionales que influyen directamente en la posible definición de la que tratamos: velocidad y variedad. En este conjunto de 3V5se pueden describir las variables de la siguiente manera:

Page 177

La primera de las V se refiere al volumen. Cuando hablamos de gran volumen de datos estamos hablando de un número tan grande que podríamos considerarlo como cercano a infinito N=?6. Para tener una idea se espera que la producción de datos para 2020 será de 40 zettabits (un zettabit es 1021) lo que supone un incremento de 300 veces desde 20057. Esto permite estar muy cerca de obtener todos los datos de una realidad sin necesidad de establecer muestras representativas. Tal aumento de datos se produce por el incremento de dispositivos de captación, básicamente móviles, pero también pueden ser coches, electrodomésticos, etc. Además, el desarrollo del Internet 2.08ha contribuido a que el usuario aumente indiscriminadamente la generación de los mismos, lo que implica una novedad al pasar de una generación de datos jerarquizada a una horizontal9.

La segunda V sería velocidad referida a la generación y procesamiento de los datos. En un mundo digital los datos se generan a velocidad instantánea y se procesan igualmente. Un individuo genera al día miles de datos con la utilización de los dispositivos móviles o con su uso de internet.

Finalmente, la tercera V es variedad. Los datos son de muy diversa índole pudiendo estar ordenados, semiordenados o, directamente, no tener ningún tipo de regla para organizarlos. Todos ellos provienen de comunicaciones electrónicas, ya sean mails, mensajes de Whatsapp, audio, imágenes, datos recogidos por los casi 100 sensores que controlan un coche y el GPS, datos y registros médicos, etc. A parte, hay que señalar que con las medidas de trasparencia de los Estados10e instituciones internacionales están aumentando el número de datos y su acceso al público en general debido a las políticas de Open Data.

Page 178

Por supuesto, han salido críticos al poder de las teorías del Big Data, principalmente por la excesiva utilización mercantil que han realizado las empresas11y por las áreas más humanísticas de la ciencia que han llegado a tildarla, con gran afán provocador, de trasnochada12si se hace una concepción histórica del termino data. O al mal uso del concepto ligándolo sólo con grandes cantidades de datos, sin más13. Más seria es la crítica que se hace de la investigación científica del Big Data y de la metodología que utiliza. Así, boyd y Crawford dan una definición diferente, basada en su utilización en la sociología, en la que consideran que Big Data no tiene que ver con lo grande sino con la capacidad de buscar, agregar y cruzar diferentes tipos de grupos de datos. Estas autoras dan su propia definición, considerándolo como un fenómeno universitario, tecnológico y cultural que reside en la interconexión de tecnología, análisis y mitología14. Tecnología porque se utiliza capacidad de computación y algoritmos para analizar, enlazar y comparar grandes conjuntos de datos; análisis para identificar patrones en el ámbito social, económico, técnico y legal y mitológico por creer que grandes cantidades de datos ofrecen una forma superior de inteligencia y conocimiento que generan nuevas visiones que antes hubieran sido imposibles, con un aura de verdad, objetividad y certeza15.

Con las técnicas de Big Data ya no es necesario que todos los datos sean verdaderos ni que estén ordenados, lo importante es que haya muchos datos. Al haber muchos, los datos erróneos quedan prácticamente relegados a una proporción mínima que los hace irrelevantes16.

El Big Data se basa en dos puntos esenciales: el número de datos tiende al total y se acepta la incertidumbre de la existencia de errores. Errores que en la mayoría de los casos no genera mayor problema, ya que nos acerca más a la realidad, aun teniendo un desorden y algunas incorrecciones17. Esto implica nos debemos acostumbrar a la incertidumbre

Page 179

y al desorden, siendo más flexibles, y esta maleabilidad es la que nos va a permitir estar más cerca de la realidad18.

1. Importancia del big data

El punto clave de esta nueva técnica de análisis de datos es encontrar aquellos que nos van a servir de indicadores y, una vez detectados, la correlación existente entre ellos que nos va a permitir el análisis y, más tarde, tener una representación del fenómeno de estudio. De la precisión y calidad de esta correlación va a depender la cantidad de cosas que se van a poder conocer del fenómeno.

En las recientes elecciones a Presidente de EE.UU., por ejemplo, Facebook ha intentado predecir cómo será el resultado electoral y para ello ha etiquetado a cada usuario de su plataforma en Estados Unidos con una etiqueta que lo identifica como liberal, moderado o conservador basándose en la actividad de la persona en su página web. Facebook hace una deducción basándose en la correlación en las páginas que le gustan, por ejemplo, si se sigue la web de alguno de los candidatos y si le gusta. Puede ocurrir que uno no se defina políticamente pero si ha marcado la marca de yogurt o de refresco que le gusta y coincide con los gustos de mucha otra gente que sí ha seleccionado cuál es su candidato preferido, va a ser catalogado de una determinada forma. Una vez realizado el etiquetado, los datos obtenidos sobre las opciones políticas se pueden usar, por ejemplo, para saber dónde Donald Trump debe dirigir su inversión en anuncios de campaña19. La clave consiste en relacionar los datos que se tienen y encontrar el dato que sirve de conexión entre muchos para poder sacar la relación.

Las correlaciones nos permiten analizar un fenómeno no por aclarar cómo funciona sino por identificar un dato representativo de él20. Por supuesto, no toda relación sirve, es posible que simplemente la conexión sea simplemente una coincidencia.

Es aquí donde se produce otro de los cambios más importantes, no se va a utilizar sólo correlaciones lineales de datos sino que es posible hacer comprobaciones más complicadas. Los análisis no causales nos permiten descubrir cosas nuevas que nos explican el qué pero no el porqué de las

Page 180

cosas21. Vamos a poder detectar qué pasa pero no por qué se produce ese determinado hecho. Se pierde la causalidad en este tipo de análisis. Si, por ejemplo, sabemos que los coches rojos están implicados en más accidentes de tráfico podemos pensar que es debido a que el color rojo gene-ra más agresividad en sus conductores, o puede ser que el rojo llama más la atención al resto de conductores y sienten una atracción hacia el mismo. A las compañías aseguradoras les va a dar igual el porqué se produce un determinado efecto, lo que sí les interesan es que tienen que subir la tarifa a aquellos vehículos con ese color. Lo importante no es el porqué, es que el hecho se produce y se va a producir22dejando las teorías a parte ya que no importan los modelos conceptuales sino los datos en sí23. Esta postura es un poco exagerada y a las teorías científicas que expliquen el porqué van seguir poseyendo un valor en el avance científico.

Como estamos señalando la clave reside en los datos y en los meta-datos. Para entender en qué consisten estos, imaginemos una carta. El contenido de la carta serían nuestros datos mientras que los metadatos serían la información que hace que nos llegue esa carta: nombre y dirección del receptor y del remitente, oficina de correos, fecha de envío y lugar de franqueo de la carta con la información que va en el sello. En las comunicaciones digitales ocurre algo parecido. Cada mensaje que mandamos lleva aparejada una información básica para conseguir llegar a su destino: receptor, remitente, hora, fecha, lugar, etc. Estos metadatos son igual de útiles que los datos que llevan el contenido.

Para nuestro objeto de estudio entendemos el concepto dato como información que describe un fenómeno que puede ser medida y analizada24 mediante algún algoritmo. Esto nos permite poder enlazarlos con otros para poder llegar a conclusiones más allá de lo que nos daría con un único conjunto de datos.

La clave es que los datos sean medibles y cuantificables. Los intentos de medir en qué posición del mundo se encuentra una persona o un objeto se...

Para continuar leyendo

Solicita tu prueba

VLEX utiliza cookies de inicio de sesión para aportarte una mejor experiencia de navegación. Si haces click en 'Aceptar' o continúas navegando por esta web consideramos que aceptas nuestra política de cookies. ACEPTAR