3.2.5 Gobierno Del Dato LECTURA PDF
3.2.5 Gobierno Del Dato LECTURA PDF
3.2.5 Gobierno Del Dato LECTURA PDF
El objetivo de esta lectura es entender las implicaciones que el gobierno del dato
tiene en un entorno Big Data y la importancia de cubrir los aspectos de estrategia,
organización, disciplinas, herramientas y procesos para asegurar el éxito de un
proyecto. La implementación de las políticas de gobierno requiere ser llevada a
cabo por nuevos perfiles imprescindibles en la organización.
1
El gobierno del dato
Si la tienda de barrio se convierte, por ejemplo, en una tienda física de una compañía
como Amazon; nadie dudará de que los tres aspectos que hemos mencionado para
el almacén siguen siendo aplicables, solo que aumentan en complejidad: el almacén
de la tienda de Amazon contendrá muchos más productos (y será mucho más
complicado mantenerlos ordenados), de tipos, calidades y precios muy dispares (por
lo que el inventario aumentará en volumen y complejidad) y seguramente, tendrá un
tamaño mucho mayor, con varias puertas de entrada (por lo que la será necesario que
varias personas tengan todas las llaves de entrada o algunas o ninguna).
Algo muy similar a la comparación que acabamos de hacer es lo que sucede en las
instituciones cuando despliegan sus plataformas de Big Data. Pasan de tener
repositorios de información pequeños y manejables, con información acotada y
estructurada; a disponer de un verdadero Data Lake (o “lago de datos”), es decir, un
gran repositorio de almacenamiento que contiene una enorme cantidad de datos en
bruto, con mucha más información de fuentes y tipos hasta ahora desconocidos, y
donde todo el mundo tiene llave para entrar.
Por ello, si esta transición no se hace adecuadamente y en orden, el Data Lake tendrá
para la institución el mismo valor que tendrían para Amazon un almacén totalmente
desordenado y, como se dice comúnmente, en lugar de un lago de datos, será un
pantano (Data Swamp).
2
La disciplina que se encarga de que esto no suceda es lo que se conoce como
“gobierno del dato” (Big Data governance) que, por supuesto, es anterior a la
existencia del Big Data pero que, con su aparición, ha aumentado igualmente en
complejidad.
Definimos gobierno del dato como las estructuras y metodologías para gestionar
la información, de manera que ésta sea generada, procesada y almacenada por
una organización, para garantizar una alta calidad a lo largo de todo el ciclo de vida
de los datos. Esta disciplina se apoya en la definición de capacidades
organizativas, disciplinas tecnológicas, estrategias, herramientas y procesos para
garantizar el valor estratégico del dato.
En el enfoque tradicional, los datos son explotados por analistas de datos expertos en
sus áreas de negocio, pero sin experiencia en la limpieza y manipulación de datos,
por lo tanto, requieren datos completamente listos y organizados en una estructura
definida de antemano. Se dispone de datos, se realiza un control y se envían en un
repositorio para utilizarlos en el descubrimiento de nuevos datos o dar respuesta a
preguntas. En este enfoque tradicional, la vida de los datos es unidireccional y no se
recicla.
En este sentido y siguiendo con la misma metáfora que hemos planteado hasta ahora,
el gobierno del dato debe cubrir los siguientes aspectos dentro de un proyecto de
aplicación de tecnologías de Big Data en una organización:
3
1. Estrategia: consiste en la definición de la misión, los objetivos, los principios y
las políticas del programa de gobierno del dato. Tal como en el caso de un
almacén, puede decidirse que la entrada de inventario se realice a una hora
determinada, que no haya más de una cierta cantidad de inventario
almacenado por tipo de producto, se puede determinar cuándo debe entrar la
información al Data Lake, la información de mayor relevancia, cuándo debe
revisarse, entre otros aspectos.
• Orden: desde este punto de vista, debe decidirse en qué zona del Data Lake
se incorpora cada tipo de dato. Esto, que poca gente se plantea en un principio,
se debe a que no todos los datos tienen el mismo valor, el mismo nivel de
criticidad o el mismo volumen y, por tanto, debe determinarse la zona en que
se almacenan. Por ejemplo, en un almacén, los productos más delicados se
4
colocan protegidos de la luz, la humedad y los que se usan con más frecuencia
se colocan más cerca de la puerta, para que sea más fácil acceder a ellos.
5
almacén. Así, debemos dar llave del mismo sólo a las personas que realmente
deban acceder y se deben instalar alarmas que avisen de accesos no
permitidos o de intentos de robo.
• Data owner (propietario de datos): son responsables del uso de los datos que
están bajo su control. Se encargan de definir reglas de almacenamiento de
productos en el almacén, los estándares de calidad que les aplican y la utilidad
de cada uno de ellos.
6
Otro de los aspectos que resulta obvio en relación con el gobierno del dato es que
el ejercicio de poner orden puede llevarse a cabo en cualquier momento, pero si se
hace desde el primer momento, resultará mucho más sencillo y menos traumático
para la organización. Por lo tanto, lo ideal será tener en cuenta todos estos aspectos
antes incluso de construir el Data Lake para que, una vez éste esté desplegado; los
encargados de almacenar la información sepan desde el primer día en qué zona
deben guardarla y los usuarios de negocio, si lo que buscan está disponible y dónde
encontrarlo.
Por último, no nos gustaría terminar sin mencionar los dos aspectos más
fundamentales de cualquier proyecto de implementación de gobierno del dato, que
son los siguientes:
Así, la responsabilidad del gobierno del dato no solo recae sobre los líderes de una
organización o un consejo de gobierno del dato, sino también sobre los equipos de
trabajo que explotan la información, que deben adaptarse a la incorporación de
nuevas fuentes de datos, cambios estructurales a nivel corporativo o adaptación de
nuevas tecnologías.
7
Conclusiones
La disciplina del gobierno del dato es anterior a la existencia del Big Data, pero con
la aparición del Big Data ha aumentado en complejidad y, para llevar a cabo la
implementación de todas estas políticas en el Data Lake de cualquier empresa; será
necesario que las empresas cuenten con nuevos empleados especializados en el
desempeño de las tareas requeridas.
• Existan mecanismos de control sobre quién puede hacer qué con los datos en
cada momento.
Esta obra está sujeta a la Licencia Reconocimiento-NoComercial-SinObraDerivada 3.0 España de Creative Commons. Para ver una copia
de esta licencia, visite http://creativecommons.org/licenses/by-nc-nd/3.0/es/ o envíe una carta Creative Commons, PO Box 1866, Mountain
View, CA 94042, USA.