Proporciona un sistema de procesamiento de datos
Mapa reducido
¿Que significa Yarm?
otro negociador de recursos
Hadoop esta formado por dos componentes básicos cuales son?
Datos y procesamiento
¿Cómo se maneja la arquitectura lambda?
Por lotes y streaming
¿Qué es un framework?
Esquema de trabajo utilizado por programadores para el desarrollo de software
¿Qué es Hadoop?
Es un framework de codigo abierto usa modelos sencillos de programacion para almacenar y procesar volumenes de datos
Qué programas contiene la distribución anaconda:
Araña, R, Júpiter, Pycharm
Herramienta diseñada para transferir datos masivos desde hadoop a otros entornos como bases de datos relacionales
Apache Sqoop
Definir que es Data Governance
Disciplina de gestión de datos
Formato de archivo de código abierto para proyectos en Hadoop
¿Qué relación existe entre Big Data y la visualización de datos?
Busca definir la mejor interpretación y visualización en grandes cúmulos de datos y sus relaciones
¿Cuáles son los principales tipos de datos que se representan con pandas?
1.DATOS TABULADORES CON COLUMNAS DE TIPO HETEROGENEO CON ETIQUETAS EN COLUMNAS Y FILAS
2.SERIE TEMPORALES
¿En que consiste una arquitectura de Big Data?
Consiste en tratar de analizar grandes volúmenes de datos que no pueden ser gestionados de manera convencional.
¿Qué herramientas se utilizan en la arquitectura hadoop para el almacenamiento de datos?
APACHE CASSANDRA, CLOUDERA
¿En que consiste las tecnologías DLP (Data Leak Prevention)?
Ofrecen protección en transito o movimiento en el sentido que son capaces de detectar si se esta intentando enviar información confidencial fuera de la organización.
¿En que consisten el IRM (Information Rights Management)?
Permite la encriptación de la información y así impedir que personas externas al control de la empresa accedan a estos datos.
El flujo de tratamiento de datos.
¿Cuáles son los tres estados del dato?
Información en reposo.
Información en transito o movimiento.
Información en uso.
Funciones Yarm:
MULTI ALQUILER
CONTENEDORES DOCKER
UTILIZACION DE CLUSTERS
¿Por que la ciberseguridad es un factor importante en el proceso de Big Data?
La vulnerabilidad de esta enorme cantidad de datos almacenados es el objetivo de los nuevos ciberataques.
¿Cuáles son las fuentes de datos compatibles con Apache Sqoop?
Las diferentes fuentes de datos de varias aplicaciones compatibles con Apache Sqoop son las siguientes:
Colmena
HBase
HDFS
HCatalog
Acumulo
¿De que se encargan las capas por lotes (batch layer)?
Almacenar el conjunto de datos maestro que es inmutable y crece constantemente, crea vistas desde un conjunto de datos.
¿Cuáles son los procesos MapReduce?
Los procesos son los siguientes:
Input (Ficheros u Objetivos)
Split (Clave / Valor)
Map (Proceso)
Shuffle ( Agrupación )
Reduce (Reduce del resultado) y resultado final.
¿Cuáles son las principales ventajas de Python para Big Data?
Permite desarrollar soluciones usando menos líneas de código, gran capacidad de visualización, como también permite manipular sencillamente los procesos de modelado de datos.
Digita en código Python, llenar los valores "na" con la media de las columnas.
df.fillna(df.mean())