Big Data
Python
Arquitectura Lambda y Z
Hadoop
Herramientas BIG DATA
100

¿Cuáles son los tipos de datos?

Estructurado,No estructurados,Semiestructurados

100

Es una libreria de python especializada en el calculo numerico y puede trabajar con matrices 

numpy

100

¿En que se especializa  la arquitectura Z?

resuelve problemas de arquitectura tradicionales en relación con la continuidad del negocio y el uso
eficiente de los recursos.

100
¿Cuáles son los 2 principales componentes de HDFS?

NameNode

DataNode

100

Servicio de análisis de datos de Microsoft con visualizaciones interactivas y capacidades de Inteligencia empresarial con una interfaz simple como para que todos los usuarios, puedan crear paneles.

Power BI

200

¿Qué es la visualización de datos?

 Es la representación gráfica de información y datos.

200

Cuales son los formatos que pandas permite leer ?

cvs, excel, bases SQL
200

¿Cuantas capas existen en la arquitectura Lambda?,menciona el nombre de cada capa.

Existen 3, Capa por lotes(Batch), Capa de velocidad(Speed), Capa proveedor(Serving)

200
¿Cuáles son las fases de MapReduce?

Fase Map

Fase Shuffle

Fase Reduce

200

Lenguaje de programación de alto nivel interpretado, que facilita el desarrollo de código, utilizado principalmente por profesionistas de cualquier ámbito que necesitan hacer desarrollos para analitica de datos.

Python

300

 ¿Qué es la Minería Datos?

Proceso de extraer información, buscar patrones al conjunto de datos, normalmente muy grandes y heterogéneos.

300

Son funciones que se definen como una línea que ejecuta una sola expresión, pueden tomar cualquier número de argumentos, pero solo pueden tener una expresión.

Funciones Lambda

300

Cierto o Falso.

La arquitectura kappa no combina el procesamiento por lotes ni el procesamiento en tiempo real, sino mejora la tolerancia a fallos.

Falso

La arquitectura kappa combina el procesamiento por lotes y el procesamiento en tiempo real con el fin de solucionar los posibles puntos “débiles” de la Arquitectura Lambda.

300
¿Cuáles son los principales componentes de YARN?

Resource Manager 

Node Manager 

Application Master

Container 

300

Sistema de base de datos NoSQL, orientado a documentos y de código abierto. Guarda estructuras de datos BSON con un esquema dinámico, haciendo que la integración de los datos en ciertas aplicaciones sea más fácil y rápida.

Mongo DB

400

 ¿Cómo funciona la Arquitectura  Centralizada?

mantiene a las aplicaciones y a los mismos datos en su lugar mientras se construye la tecnología a su alrededor 

400

Es un archivo que contiene instrucciones y definiciones de (variables,funciones,…) y se guarda con la extensión .py

modulos

400

¿Que funcion tiene serving leyer?

Es el encargado de indexar y exponer
las vistas (de sólo lectura) para que puedan
ser consultadas.

400
¿Para que se puede utilizar Sqoop?

Importar, extraer y exportar datos 

400

Es una base de datos distribuida NoSQL de código abierto en la que confían miles de empresas por su escalabilidad y alta disponibilidad sin comprometer el rendimiento. La escalabilidad lineal y la tolerancia a fallas probada en hardware básico o infraestructura en la nube la convierten en la plataforma perfecta para datos de misión critica.

Cassandra

500

¿ A que se refiere la Arquitectura Distribuida?

los procedimientos se dividen entre los distintos nodos

500

Es un framework escrito en Python que permite crear aplicaciones web rápidamente y con un mínimo numero de líneas de código.

Flask

500

Cierto o Falso

Cuando hablamos de procesamiento batch hace referencia a la hora de recibir y tratar continuamente los datos sin tener un fin, mientras que el procesamiento streaming interviene en cada conjunto de datos, tiene un inicio y un fin en el tiempo.

Falso

batch hace referencia a un procesamiento que interviene en un conjunto de datos y que tienen un inicio y un fin en el tiempo mientras que el procesamiento de este tipo streaming esta continuamente recibiendo y tratando nueva información según vaya llegando sin tener un fin.

500
¿Cuáles son los componentes de la Arquitectura de Zookeeper?

Server

Client

Leader

Follower 

500

Entorno de trabajo para software, bajo licencia libre, para programar aplicaciones distribuidas que manejen grandes volúmenes de datos. Permite a las aplicaciones trabajar con miles de nodos en red y Petabytes de datos.

HADOOP