Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

CISCO Tutorias

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 16

http://cisacad.

net/introduccion-a-la-ciberseguridad-itc-v21/
Introducción al IoT: Capitulo 1
Packet Tracer: Es un Software de Simulación de Red, creada por Cisco Network
Academy.

Internet: Es una red madre, con un conjunto de redes más pequeñas.


Red de área personal (PAN): Es el termino que describe las pequeñas redes en los
dispositivos inalámbricos en un alcance personal.

Red de área local (LAN): Termino que describe las redes de un área geográfica
pequeña, ejemplo una casa o una pequeña empresa.

Red de área amplia (WAN): Termino que describe un conjunto de LAN que permite la
conectividad entre LAN e internet a través de largas distancias, permite la conexión con
servidores que almacenan grandes bases de datos en línea.

Redes inalámbricas: Describe redes de computadoras que utilizan ondas


electromagnéticas en lugar de cables para transportar señales a diversas partes de la red.

Nube: Trata de un conjunto de servidores donde se almacena información y datos, ofrece


copia de seguridad para uso personal y corporativo.

El perímetro: Limite de alcance físico que porta una red para ser accesible.
Computación en la niebla: Están dentro del perímetro de una red empresarial, y
permite el procesamiento de datos locales para su uso inmediato.

Internet de las cosas (Iot): La conexión de dispositivos inteligentes y sensores


conectados a internet.

Gateway residencial: Dispositivos que actúan como un centro de conexión local para
dispositivos inteligentes IoT.

Inteligencia Artificial: Rama de la informática que aborda la simulación del


comportamiento inteligente que implica que los dispositivos inteligentes puedan pensar
por cuenta propia.

Redes basadas en intención (IBN): La tecnología que utiliza el aprendizaje


automático y la automatización avanzada para controlar las redes.
El comando que se utiliza para probar la conectividad de red y proporcionar una respuesta
a cada paquete recibido por el host remoto: PING
El tipo de red inalámbrica que se utiliza para conectar dispositivos dentro de una ciudad
para crear una red de área metropolitana (MAN): WiMAX
Todo se vuelve programable: Capitulo 2

Conceptos de
Programación Básica:
Diagramas de flujo: Los
diagramas de flujo se utilizan
en diferentes industrias, entre
ellas ingeniería, ciencias
físicas y programación de
computadoras, en los cuales
se requiere una comprensión
completa de los procesos o
flujos de trabajo.

Los diagramas de flujo son diagramas que se utilizan para representar estos procesos o
flujos de trabajo, estos ilustran cómo debe funcionar un proceso y deben de ser fácil de
entender sin tener que ser un experto en el campo elegido. Los diagramas de flujo deben
mostrar los estados de entrada, las decisiones tomadas y los resultados de dichas
decisiones. Es importante mostrar los pasos que se deben seguir cuando el resultado de
una decisión es sí o no

Software del sistema, software de aplicación y lenguajes informáticos:


Existen dos tipos comunes de software informático: software del sistema y software de
aplicaciones.

Los programas para software de aplicaciones se crean con el fin de realizar una tarea
determinada o un conjunto de tareas. Por ejemplo, Cisco Packet Tracer.

El software del sistema funciona entre el hardware de la computadora y el programa de


aplicaciones. Entre los ejemplos comunes de software del sistema se incluyen Linux,
Apple OSX, y Microsoft Windows, quienes son sistemas operativos y permiten el
funcionamiento del equipo.

El software del sistema y el software de aplicaciones se crean con un lenguaje de


programación. Un lenguaje de programación es un lenguaje formal diseñado para crear
programas que comunican instrucciones al hardware de la computadora. Estos programas
implementan algoritmos que son conjuntos autónomos y pormenorizados de las
operaciones que se deben realizar.
Python es un ejemplo de un lenguaje de programación
interpretado o interpretativo. En la figura, se muestra un
ejemplo de código de Python.

Cuando se determina el lenguaje de programación y se


diagrama el proceso en un diagrama de flujo, puede
comenzar la creación del programa. La mayoría de los
lenguajes informáticos usan estructuras de programa
similares.

Variables de programación: Los lenguajes de programación utilizan variables como


depósitos dinámicos para alojar frases, números u otra información importante que pueda
utilizarse en la codificación. En lugar de repetir valores específicos en varios lugares en
todo el código, se puede utilizar una variable. Las variables pueden contener el resultado
de un cálculo, el resultado de una consulta en una base de datos o algún otro valor. Esto
significa que el mismo código funcionará con diferentes porciones de datos sin que se
deban reescribir. una variable puede referirse a un valor. Por ejemplo, la expresión "a =
10" asocia el valor de 10 con la variable a.

Una variable también puede representar una ubicación de memoria. La expresión "a = 10"
representa que el valor de 10 se almacena en algún lugar de la memoria de la
computadora, que se denomina "a".

Las variables se pueden clasificar en dos categorías:

 Variables locales: Estas son variables que se encuentran dentro del alcance de un
programa/función/procedimiento.

 Variables globales: Estas son variables que se encuentran dentro del alcance en el
tiempo de ejecución del programa. Cualquier parte del programa puede recuperarlas.

Estructuras básicas de programas: Las personas imparten la lógica a las


computadoras a través de programas. Mediante estructuras lógicas específicas, un
programador puede preparar una computadora para tomar decisiones. Las estructuras
lógicas más comunes son las siguientes:

IF – THEN: Esta estructura lógica permite que la computadora tome una decisión según
el resultado de una expresión. Un ejemplo de expresión es myVar > 0. Esta expresión es
verdadera si el valor almacenado en la variable myVar es mayor que cero.

Si la expresión es falsa, la computadora continúa con la siguiente estructura, ignorando el


contenido del bloque IF - THEN. Si la expresión es verdadera, la computadora ejecuta la
acción asociada antes de pasar a la siguiente instrucción del programa.
Bucles FOR: Se utilizan para ejecutar un conjunto específico de instrucciones una
cantidad de veces específica según una expresión. El término bucle proviene del hecho
de que el conjunto de instrucciones se ejecuta varias veces. Si bien la sintaxis del bucle
FOR varía de un lenguaje al otro, el concepto sigue siendo igual. actúa como un contador
dentro de un rango de valores que se identifica con un valor mínimo y un valor máximo.
Cada vez que se ejecuta el bucle, aumenta la variable del contador. Cuando el contador
es igual al valor máximo definido, se abandona el bucle y la ejecución avanza a la
siguiente instrucción.

Bucles WHILE: Se utilizan para ejecutar un conjunto específico de instrucciones


mientras que una expresión sea verdadera. Observe que a menudo las instrucciones
dentro del bucle eventualmente harán que la expresión se evalúe como falsa.
Blockly: Es una herramienta de programación para principiantes.
Python: Idioma de programación que requiere de un intérprete para analizar y ejecutar el
código Python.

Software de Virtualización: Permite que un único servidor físico aloje varias máquinas
virtuales.

Creación de un prototipo: Proceso de creación de un modelo de trabajo básico.


Arduino: Una plataforma de computación física de código abierto que tiene como base
un tablero de microcontroladores.
Paspberry Pi: Una computadora de bajo costo, con el tamaño de una tarjeta de crédito.

Beaglebone: Una computadora mayor adecuada para aplicaciones de mayor


requerimiento de procesamiento.

¿Qué es Blockly?
Blockly es una herramienta de programación
visual creada para ayudar a los principiantes a
comprender los conceptos de programación.
Mediante el uso de múltiples tipos de bloques,
Blockly permite que un usuario cree un
programa sin introducir ninguna línea de código.

Blockly implementa la programación visual mediante la asignación de diferentes


estructuras de programas a bloques de color. Los bloques también contienen casillas y
espacios que permiten que los programadores ingresen los valores requeridos por la
estructura. Los programadores pueden unir las estructuras de programación arrastrando y
asociando los bloques adecuados. Las estructuras de programación, como condicionales,
bucles y variables, están todas disponibles para utilizar.

Crear una nueva variable en Blockly es sencillo: se debe llevar el bloque variable hasta el
espacio de trabajo y completar el valor de la casilla. También se puede cambiar el
contenido de una variable mientras se ejecuta el programa.

Se encuentran disponibles otros bloques, como el bloque IF-THEN, el bloque WHILE y el


bloque FOR. También hay bloques específicos para los sensores y los actuadores.
Blockly se puede utilizar para traducir el código basado en bloques a Python o JavaScript.
Esto es muy útil para los programadores principiantes.

Google proporciona una serie de juegos educativos gratuitos y de código abierto que
pueden ayudarlo a aprender a programar. La serie se denomina Juegos de Blockly.

¿Qué es Python?
Python es un lenguaje muy común diseñado para ser fácil de leer y escribir. La comunidad
de desarrolladores de Python agrega valor al lenguaje creando todo tipo de módulos y
poniéndolos a disposición de otros programadores.
Si bien los distintos lenguajes de programación tienen diferente semántica y sintaxis,
todos comparten la misma lógica de programación. Los principiantes pueden utilizar
Blockly para crear fácilmente un programa independiente del lenguaje, exportarlo como
código de Python y usar el código recientemente creado para aprender la sintaxis, la
estructura y la semántica de Python.

Las siguientes figuras muestran la misma programación, uno en Blockly y el otro en


Python:

Intérprete de Python

Python es un lenguaje interpretado; por lo tanto, requiere un intérprete para analizar y


ejecutar el código de Python. El código de Python puede crearse en cualquier editor de
texto y los intérpretes de Python están disponibles para muchos sistemas operativos. Los
desarrolladores de Python pueden crear e implementar los programas de Python
prácticamente en cualquier sistema operativo. Las herramientas de terceros,
como Py2exe y Pyinstaller, también pueden utilizarse para incluir el código fuente de
Python en un archivo ejecutable, lo que elimina la necesidad de intérpretes de Python al
ejecutar el código de Python.

En las máquinas Linux, el intérprete de Python está instalado generalmente


en /usr/bin/python o /usr/bin/python3

Con el nuevo instalador Windows de Python, Python se instala de manera predeterminada


en el directorio de inicio del usuario. En equipos Windows más antiguos, Python se
colocaba en C:\PythonXX (donde XX es la versión de Python)

Una vez instalado el intérprete de Python, funciona de manera similar al shell de Linux.
Esto significa que, cuando se invoca sin argumentos, lee y ejecuta comandos
interactivamente. Cuando se invoca con un argumento de nombre de archivo o con un
archivo como entrada estándar, lee y ejecuta un script de ese archivo.
Para iniciar el intérprete, simplemente escriba python o python3 en el indicador del shell.

La versión de Python está impresa en la primera línea cuando se inicia el intérprete. Este
curso se basa en el código de Python 3.

Cuando se llama al intérprete de Python sin argumentos y los comandos se ingresan


mediante el teclado, el intérprete se dice que está en modo interactivo. En este modo, el
intérprete espera los comandos. El indicador principal está representado por tres signos
mayor que (>>>). Las líneas de continuación están representadas por tres puntos (...). La
línea de seguimiento es el indicador secundario predeterminado.

El indicador >>> indica que el intérprete está listo y espera los comandos.

Las líneas de seguimientos son necesarias al introducir un código multilínea. Se muestra


el bloque IF - THEN escrito en Python.

Otra forma de utilizar el intérprete es python -c command [arg]... que ejecuta las
declaraciones en el comando. Como las declaraciones de Python suelen contener
espacios u otros caracteres determinados del shell, se recomienda incluir el comando
completo entre comillas simples.

Variables y declaraciones básicas en Python.

El intérprete actúa como calculadora simple. Puede ingresar una


expresión y escribirá el valor. La sintaxis de la expresión es directa. Los
operadores +, -, * y / funcionan al igual que en la mayoría de los otros
lenguajes (por ejemplo, Pascal o C). Los paréntesis (()) pueden
utilizarse para agrupar. Imagen 1

El modo interactivo de Python implementa la variable especial “_” para


sostener el resultado de la última expresión publicada. Imagen 2

Las variables son áreas de memoria rotuladas que se utilizan para


almacenar datos de programas de tiempo de ejecución. Para asignar
valores a las variables en Python, use el signo igual a (=). No se muestra ningún resultado
antes del siguiente indicador interactivo. Imagen 3

Los intentos de utilizar una variable no definida (sin


ningún valor asignado) resultarán en un error.
Imagen 4

Las secuencias, definidas como secuencias de


caracteres, también pueden manejarse desde el
modo interactivo. Utilice el carácter de barra
invertida (\) para sustraerse de los caracteres.
Por ejemplo, una cadena que utiliza comillas
dobles, pero que también necesita utilizar una
comilla doble dentro de la cadena. Si la cadena
se ingresa de la siguiente manera: "I really
"need" this"., Python se confundirá y pensará
que la primera comilla doble dentro de la
cadena finaliza realmente la cadena. Si coloca una barra invertida (\) antes de las comillas
dobles dentro de la cadena de la siguiente manera: "I really \"need\" this", la barra
invertida (\) hará que Python se sustraiga o ignore el carácter que sigue.
Las comillas simples o comillas dobles pueden utilizarse para envolver las cadenas.
Imagen 5

La declaración de publicación imprime el resultado de


la expresión dada. Difiere de la escritura simple de la
expresión que se desea escribir (como hicimos
anteriormente en los ejemplos de cálculo) en la
manera en que maneja múltiples expresiones y cadenas. Las cadenas se publican sin
comillas y se inserta un espacio entre los elementos para formatear las cosas
correctamente. Imagen 6

Las funciones son una parte importante de muchos


lenguajes de programación. Las funciones permiten
que un bloque de códigos reciba un nombre y se
vuelva a utilizar según sea necesario. La figura define
una función para agregar dos números y mostrar el
resultado. Imagen 7
Funciones útiles y tipos de datos en Python
Python admite muchas funciones y tipos de datos útiles. Algunos de los más importantes
son los siguientes:

Range(): La función de range() genera una lista de números utilizados generalmente


para iterar con bucles FOR.

range(stop): es la cantidad de números enteros que se deberán generar a partir de


cero.

range([start], stop[, step]: es el número inicial de la secuencia, el número final de la


secuencia y la diferencia entre cada número de la secuencia.

Tuplas: Una tupla es una secuencia de objetos incambiables de Python. Las tuplas son
secuencias separadas por paréntesis

Listas: Las listas son una secuencia de objetos cambiables de Python. Las listas pueden
crearse configurando distintos valores separados por comas entre corchetes.
Conjuntos: Los conjuntos son colecciones no ordenadas de elementos únicos. Las
aplicaciones comunes incluyen verificación de pertenencia, la eliminación de duplicados
de una secuencia y cálculos de operaciones matemáticas estándar en conjuntos, como la
intersección, unión, diferencia y diferencia simétrica.

Diccionario: Un diccionario es una lista de elementos separados por comas. Cada


elemento es una combinación de un valor y una clave única. Cada clave se separa de su
valor por dos puntos. El diccionario completo se escribe entre llaves. Se puede acceder a,
actualizar o eliminar los elementos del diccionario. También hay muchas funciones
integradas en el diccionario, como la función que compara elementos dentro de diferentes
diccionarios y la que proporciona un conteo de la cantidad total de elementos de un
diccionario.
Todo genera datos: Capitulo 3
¿Qué son los datos masivos o Big Data?
Los datos son la información que proviene de una variedad de fuentes, como personas,
imágenes, texto, sensores y sitios web. Los datos también provienen de dispositivos
tecnológicos, como teléfonos celulares, computadoras, quioscos, tablets y cajas
registradoras.

Se consideran "datos masivos". Las siguientes son tres características que indican que
una organización puede estar haciendo frente a datos masivos:

 Tienen una gran cantidad de datos que requiere cada vez más espacio de
almacenamiento (volumen).

 Tienen una cantidad de datos que crece exponencialmente rápido (velocidad).

 Tienen datos que se generan en diferentes formatos (variedad).

¿Qué cantidad de datos recopilan los sensores? Estos son algunos ejemplos
aproximados:

 Los sensores de un automóvil autónomo pueden generar 4000 gigabits (Gb) de datos


por día.

 El motor de un Airbus A380 genera 1 petabyte (PB) de datos en un vuelo de Londres


a Singapur.
 Los sensores de seguridad en las operaciones de minería pueden generar hasta 2,4
terabits (TB) de datos por minuto.

 Los sensores de un hogar conectado inteligente pueden producir 1 gigabyte (GB) de


información por semana.

Grandes conjuntos de datos


Las empresas no necesariamente tienen que generar sus propios datos masivos. Las
organizaciones más pequeñas podrían no tener los sensores, el volumen de clientes ni la
capacidad para generar la variedad de información que podría beneficiar a su empresa.

Muchas empresas de distintos tamaños, consideran que tienen que recopilar sus propios
datos para ver los beneficios del análisis de datos masivos, pero esto simplemente no es
cierto.

¿Cuáles son los desafíos de los datos masivos?


Los cálculos de datos masivos de IBM concluyen que “cada día creamos 2,5 trillones de
bytes de datos”. Para configurar esto en contexto, cada minuto de cada día:

 Cargamos cerca de 300 horas de video de YouTube.

 Enviamos cerca de 3,5 millones de mensajes de texto.

 Transmitimos cerca de 86 mil horas de video de Netflix.

 Le damos Me gusta a cerca de 4 millones de publicaciones de Facebook.


 Pedimos cerca de 14 millones de pronósticos de The Weather Channel.

El rápido crecimiento de datos puede ser una ventaja o un obstáculo cuando se trata de
lograr los objetivos comerciales. Para tener éxito, las empresas deben ser capaces de
acceder y administrar fácilmente sus activos de datos.

Con la constante creación de esta enorme cantidad de datos, las tecnologías tradicionales
y los almacenes de datos (Data Warehouses) no pueden cumplir con las necesidades de
almacenamiento. Incluso con los recursos de almacenamiento en la nube que están
disponibles por parte de las empresas como Amazon, Google, Microsoft y muchas otras,
la seguridad de los datos almacenados se convierte en un gran problema.

La seguridad de los datos almacenados se convierte en un gran problema. Las soluciones


de datos masivos deben ser seguras, tener una alta tolerancia a fallas y utilizar replicación
para garantizar que los datos no se pierdan. El
almacenamiento de datos masivos no solo implica
guardarlos, sino que también consiste en administrarlos y
protegerlos.

cinco problemas principales de almacenamiento de datos


con Big Data

¿Dónde podemos almacenar los datos masivos?


Por lo general, los datos masivos se almacenan en varios servidores normalmente
alojados en centros de datos. Para la seguridad, la accesibilidad y la redundancia, los
datos se suelen distribuir y/o replicar en diferentes servidores en varios centros de datos
diferentes.

Computación en la niebla: La computación en la niebla es una arquitectura que utiliza


dispositivos “perimetrales” o de clientes de usuarios finales para ejecutar gran parte del
procesamiento previo y almacenamiento requeridos por una organización.

Los datos de sensores, en particular, se pueden procesar previamente más cerca de


donde se recopilan. La información adquirida a partir de ese análisis de procesamiento
previo puede introducirse en los sistemas de las empresas para modificar los procesos,
de ser necesario. Dado que los datos del sensor previamente son procesados por
terminales dentro del sistema de la empresa, las comunicaciones hacia y desde los
servidores y dispositivos serían más rápidas. Esto requiere menos ancho de banda que el
que se usa al conectarse constantemente con la nube. Después de que los datos se
hayan procesado previamente, a menudo se envían para su almacenamiento a más largo
plazo, para realizar copias de respaldo o análisis más pormenorizados dentro de la nube.

La nube y la computación en la nube


Como se mencionó anteriormente, la nube es una colección de centros de datos o grupos
de servidores conectados. El acceso al software, el almacenamiento y los servicios
disponibles en los servidores, se obtiene a través de Internet mediante una interfaz de
navegador.
Desde la perspectiva de una persona, mediante los servicios en la nube, usted podrá:

 Almacenar todos sus datos, como imágenes, música, películas y correos


electrónicos, y así liberar espacio en el disco duro local

 Acceder a muchas aplicaciones en lugar de descargarlas en su dispositivo local

 Acceder a sus datos y aplicaciones en cualquier lugar, en cualquier momento y en


cualquier dispositivo

Una de las desventajas de utilizar la nube es que sus datos podrían caer en las manos
equivocadas. Desde la perspectiva de una empresa, los servicios y la computación en la
nube permiten resolver una variedad de problemas de administración de datos:

 Permite el acceso a los datos organizacionales en cualquier momento y lugar.

 Optimiza las operaciones de TI de una organización suscribiéndose únicamente a los


servicios necesarios.

 Elimina o reduce la necesidad de equipamiento, mantenimiento y administración de


TI en el sitio.

 Reduce el costo de los equipos, electricidad, requisitos de planta físicos y las


necesidades de capacitación del personal.

 Permite respuestas rápidas a los requisitos de volumen de datos crecientes.

Procesamiento distribuido

Desde una perspectiva de administración de datos, el análisis era sencillo cuando solamente creaban datos
los seres humanos. La cantidad de datos era administrable y relativamente fácil de depurar. Sin embargo, con
la explosión de los sistemas de automatización empresarial y el crecimiento exponencial de las aplicaciones
web y los datos generados por máquinas, el análisis se torna cada vez más difícil de procesar.

En lugar de procesar grandes bases de datos con computadoras centrales grandes y potentes, y
almacenarlas en arreglos de discos gigantes (escalabilidad vertical), el procesamiento de datos
distribuidos toma el volumen de datos de gran tamaño y lo divide en partes más pequeñas.

Hadoop se creó para manejar estos volúmenes de datos masivos. El proyecto Hadoop comenzó con
dos aspectos: el sistema de archivos distribuidos Hadoop (HDFS), que es un sistema de archivos
distribuidos con tolerancia a fallas, y MapReduce, que es una manera distribuida de procesar datos.

Hadoop es un software de código abierto que permite el procesamiento distribuido de grandes


conjuntos de datos que pueden tener terabytes de tamaño y que se almacenan en clústeres de
computadoras.

Hadoop tiene dos características principales que lo han transformado en el estándar de la industria para
procesar datos masivos:

 Escalabilidad: los tamaños de clúster más grandes mejoran el rendimiento y proporcionan capacidades
de procesamiento de datos más altas. Con Hadoop el tamaño del clúster puede escalarse de manera
simple desde un clúster de cinco nodos hasta un clúster de mil nodos sin aumentar excesivamente la
carga administrativa.

 Tolerancia a fallas: Hadoop replica datos automáticamente a través de clústeres para asegurarse de
que no se perderán. Si un disco, nodo o un rack falla, los datos están seguros.

¿Por qué las empresas analizan datos?

Cada organización debe volverse más eficiente y más innovadora para mantenerse competitiva y relevante en
el mundo digitalizado. IoT es una parte integral para lograr esa eficiencia e innovación.

El objetivo de muchas empresas es recopilar y analizar cantidades masivas de nuevos datos sobre el
uso de productos y obtener conocimientos valiosos. El análisis de datos permite que las empresas
comprendan mejor el impacto de sus productos y servicios, ajusten sus métodos y objetivos, y
proporcionen a sus clientes mejores productos más rápido. La capacidad para obtener nuevas
perspectivas a partir de los datos aporta valor a la empresa.

Fuentes de información

La fuente de los grandes conjuntos de datos es variada. Además de los datos de los sensores, otros datos se
originan a partir de todo lo que se ha analizado, introducido y divulgado en Internet de fuentes tales como las
siguientes:

 Sitios de redes sociales: Facebook, YouTube, eHarmony y Twitter

 HTTP, páginas web y motores de búsqueda en Internet

 Datos históricos de archivos públicos y privados

 Metadatos que se adjuntan a correos electrónicos, imágenes y documentos transmitidos

 Formularios médicos, formularios de seguros y formularios de impuestos

 Investigación genómica mediante ADN

 Los datos recopilados se pueden clasificar como estructurados o no estructurados.

Los datos estructurados se crean mediante aplicaciones que utilizan entradas de formato “fijo”, como hojas de
cálculo o formularios médicos. Incluso si los datos se consideran estructurados, diferentes aplicaciones crean
archivos en distintos formatos que no necesariamente son compatibles unos con otros. 
Los datos no estructurados se generan en un estilo de “forma libre”, como audio, video, páginas web
y tweets. Los datos no estructurados requieren diferentes herramientas para preparar los datos para
análisis o procesamiento. Los siguientes son dos ejemplos:

 Los sitios web se crean para proporcionar datos a los seres humanos, no a las máquinas. Las
herramientas que «raspan la red» (web scraping) extraen datos de páginas HTML automáticamente.
Esto es similar al rastreador o araña web de un motor de búsqueda. Explora la web para extraer datos y
crear bases de datos para responder a las consultas de búsqueda. El software de web scraping puede
utilizar el Protocolo de transferencia de hipertexto o un explorador web para acceder a la World Wide
Web. Por lo general, el proceso de web scraping es un proceso automatizado que utiliza un bot o un
rastreador web para obtener datos. Los datos específicos se recopilan y se copian de la web a una base
de datos o una hoja de cálculo. Los datos pueden luego analizarse fácilmente.

 Muchos proveedores de servicios web importantes como Facebook proporcionan interfaces


estandarizadas para recopilar los datos automáticamente mediante interfaces de programación de
aplicaciones (API). El enfoque más habitual es usar API RESTful. Las API RESTFul usan HTTP como el
protocolo de comunicación y estructura de JSON para codificar los datos. Las páginas web de Internet
como Google y Twitter recopilan grandes cantidades de datos estáticos y de series de tiempo. El
conocimiento de API para estos sitios permite que los analistas y los ingenieros de datos tengan acceso
a las grandes cantidades de datos que se generan constantemente en Internet.

También podría gustarte