Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Expo Computo

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 3

Introducción a Big Data

El big data es la expresión utilizada para referirnos a la gestión que se especializa en

el manejo de datos masivos, llamada también ciencia de datos; sus métodos son una serie

de herramientas informáticas y estadísticas para la agrupación y el análisis de datos

recolectados, gracias a los volúmenes de información generados en la interacción de los

individuos, muchos de ellos a través de plataformas virtuales y dispositivos electrónicos y

móviles. La importancia del big data radica en que facilita la toma de decisiones para las

organizaciones y empresas, a partir de la lectura y el análisis de los comportamientos y

afinidades de sus diferentes grupos de interés, permitiéndoles generar estrategias y acciones

centradas en los mismos (Institución Universitaria Esumer , 20218).

Aunque el tamaño utilizado para determinar si un conjunto de datos determinado se

considera Big Data no está firmemente definido y sigue cambiando con el tiempo, la

mayoría de los analistas y profesionales actualmente se refieren a conjuntos de datos que

van desde 30-50 Terabytes a varios Petabytes (Power Data, 2020) .

La naturaleza compleja del Big Data se debe principalmente a la naturaleza no

estructurada de gran parte de los datos generados por las tecnologías modernas, como los

web logs, la identificación por radiofrecuencia (RFID), los sensores incorporados en

dispositivos, la maquinaria, los vehículos, las búsquedas en Internet, las redes sociales

como Facebook, computadoras portátiles, teléfonos inteligentes y otros teléfonos móviles,

dispositivos GPS y registros de centros de llamadas (Power Data, 2020).

Illustration 1. Big Data


Exploración de datos

La exploración de datos es un enfoque similar al análisis inicial de datos: en

realidad, es el análisis inicial de datos. La exploración precede a cualquier análisis

estadístico y modelo de aprendizaje automático. Esto es esencial para evitar un grave

peligro: los indicadores sintéticos, como la media y la desviación típica. La paradoja de

Simpson es un ejemplo bien conocido que muestra cómo los indicadores globales pueden

ser superficiales y engañosos. Por supuesto, se trata de un ejemplo académico, pero algo

parecido podría pasar en el mundo real, como veremos en un momento (Verdelli, 2019).

La exploración de datos se produce cuando un analista de datos utiliza la

exploración visual para comprender lo que hay en un conjunto de datos: por supuesto, es

algo más complejo que eso. Imagina leer una enorme tabla con miles de filas y decenas de

columnas, llena de números. Exploras visualmente los datos, pero no hay manera de sacar

ninguna conclusión. Eso es porque no estamos diseñados para procesar enormes tablas de

números. Somos muy buenos leyendo el mundo en términos de formas, dimensiones y

colores. Y eso es lo que permite la visualización de datos; una vez traducidos a líneas,

puntos y ángulos, los números pueden leerse más fácilmente.  Por desgracia, aquí nos

acecha un segundo peligro: gráficos mal diseñados o capciosos. A veces, una visualización

errónea impide que los científicos de datos saquen la conclusión correcta o compartan la

información correcta. Sarah Leo, de The Economist, publicó hace unas semanas

una recopilación de excelentes ejemplos (Verdelli, 2019).


Minería de datos

La minería de datos se encarga de preparar, sondear y explorar los datos para sacar

la información oculta y útil en ellos. Si los datos son leídos y analizados, pueden

proporcionar, en conjunto, un verdadero conocimiento (futuras tendencias y

comportamientos) que ayude en la toma de decisiones, ya que, para el responsable de un

sistema, los datos en sí no son lo más relevante, sino la información que se encierra en sus

relaciones, fluctuaciones y dependencias. Se conoce como minería de datos a todo un

conjunto de técnicas encargas de la extracción de conocimiento procesable, implícito en las

bases de datos (ayuda a comprender su contenido). Está fuertemente ligada con la

supervisión de procesos industriales, pues resulta muy útil para aprovechar los datos

almacenados en las bases de datos. Las bases de la minería de datos se encuentran en la

inteligencia artificial, el análisis estadístico, la Computación Gráfica, las Bases de Datos y

el Procesamiento Masivo. Mediante la utilización de técnicas de minería de datos se puede

dar solución a problemas de predicción, clasificación y segmentación (Belinchón, 2107).

A pesar de que la idea del Data Mining puede parecer una innovación tecnológica

muy reciente, en realidad este término apareció en los años sesenta juntamente con otros

conceptos como, por ejemplo, el data fishing o data archeology. No obstante, no fue hasta

los años ochenta cuando empezó su consolidación (Ribas, 2018).

La minería de datos surgió con la intención o el objetivo de ayudar a comprender

una enorme cantidad de datos, y que estos, pudieran ser utilizados para extraer conclusiones

para contribuir en la mejora y crecimiento de las empresas, sobre todo, por lo que hace a las

ventas o fidelización de clientes (Ribas, 2018).

También podría gustarte