Introducción a los grandes volúmenes de datos
Python para Big Data
Hadoop para lagos de datos
COMODINES
100

¿Cuáles son las 3v de la Big Data?



Volumen: la gran cantidad de datos.

  • Variedad: la amplia variedad de tipos de datos.

  • Velocidad: la presteza con la que deben procesarse.



100

Que Librería para python es especializada en el cálculo numérico y el

análisis de datos?

NumPy

100

Es la tecnología o sistema de almacenamiento distribuido de información que proporciona las aplicaciones o soluciones de Big Data la capacidad de acceder a los datos en el lugar en el que están almacenados.

HDFS (sistema de archivos distribuido Hadoop)


100

Cuantos colores tiene el logo de Hadoop

Posee 3 colores uno de ellos en 2 tonalidades: Negro, Amarillo y Azul.

200

¿Qué tecnologías usan norm¿Qué tecnologías usan normalmente para hacer ciencia de datos?almente para hacer ciencia de datos?

Se trabajan con lenguajes de programación, bases de datos, herramientas de

visualización, entre otras tecnologías. Algunas que podría mencionar son…

Bases de datos: MySQL, PostgreSQL, MongoDB o DynamoDB.

Big Data: Hadoop, Hive, Pig, Flume, Mahout o Sqoop.

Lenguajes de programación: Python o R.

Inteligencia Artificial / Machine Learning: Tensor Flow, Sklearn o IBM Watson.

ETL: Embulk, Python, Airflow o Azure Data Factory.

Herramientas de visualización: Tableu, Power BI, Redash, Matplotlib o TensorBoard

200

¿Cuáles son los operadores lógicos racionales?


* Y: Devuelve True si ambos operandos son True

* O Devuelve True si alguno de los operandos es True

* NO: Devuelve True si alguno de los operandos False

200

 Menciona algunas características de SQOOP

Capacidad de carga

Carga completa y carga incremental

Técnicas de compresión de datos

Importar los resultados de las consultas SQL

Conectores de datos para todas las bases de datos principales

Soporte directo de carga de datos en sistemas de archivos Hadoop

Configuraciones de seguridad como Kerberos

Funciones concurrentes de importación o exportación

200

¿Que es R Studio?

R Studio NO ES un lenguaje de programación si no más bien un software de uso libre basado en paneles con la finalidad de hacer análisis estadísticos y gráficas.

R es un lenguaje de programación palmado con un entorno de programación usado para estadística y análisis de datos, principalmente.

300

¿Qué lenguajes y herramientas se usan en Big Data?

Dependiendo del área del Big Data en el que esté trabajando, se usará una

herramienta u otra, además de algunos lenguajes de programación. Estos son las

más usados en el sector:

● Hadoop

● Docker

● Jupyter

● Tableau

● D3.js

● TensorFlow

● Apache Spark

● NumPy

● Anaconda

● Python

300

¿cómo se puede un histograma en python y qué librerías se ocupan para hacerlo?

Para hacer un histograma en Python es necesario contar las veces que aparece cada valor en cada intervalo en el conjunto de valores. Después se puede hacer una representación textual del cálculo realizado. También se puede usar una librería como Matplotlib, Seaborn, Bokeh, Altair o Plotly.

300

Cuales son los 3 principales componentes de Hadoop

DRIVER

PUNTO DE ENTRADA

PARAMETRIZACIÓN 

300

¿Qué es un operador en programación?
Nombra 3

Un operador es un elemento de programa que se aplica a uno o varios operandos en una expresión o instrucción. Regla aplicable tanto en el desarrollo de cualquier expresión matemática que los requiera como en programación.

La función de cada operador depende del tipo que se esté utilizando, veamos cada uno de ellos.


Ejemplo:
+ Suma

-Resta

*Multiplicación

= Igual

< Menor 

> Mayor

400

La arquitectura Lambda, atribuida a Nathan Marz, es una de las más habituales actualmente en el procesamiento de datos en tiempo ____?

En tiempo real.

400

 Es una librería de python destinada al análisis de datos, que proporciona unas

estructuras de datos flexibles y que permiten trabajar con ellos de forma muy

eficiente



Pandas

400

¿Cuál es la diferencia entre MapReduce y Yarn?

Yarn es el componente de Apache Hadoop responsable de gestionar los recursos y planificar los trabajos. MapReduce es el framework de programación o paradigma que indica la forma en la que ejecutar los trabajos distribuidos por medio de las fases map y reduce

400

Principales componentes de un Cluster Hadoop

500

¿Cuál es la diferencia entre la ciencia de datos, la inteligencia artificial y el aprendizaje automático?

IA significa hacer que una computadora imite de alguna manera el comportamiento humano.


El aprendizaje automático es otro subconjunto de la IA y consiste en las técnicas que permiten que las computadoras descubran cosas a partir de los datos y realicen aplicaciones de IA.


La ciencia de datos es un subconjunto de la IA que se refiere más a las áreas superpuestas de las estadísticas, los métodos científicos y el análisis de datos, que se utilizan todas para extraer el significado de los conocimientos de los datos.

500

.

Describe cómo se agrupa en cuatro sectores o soluciones tecnológicas de

Anaconda.

1. Anaconda Navigator: Interfaz gráfica de Anaconda Python

2. Proyecto Anaconda

3. Librerías de Ciencia de Datos

4. Conda: Gestor de código del Anaconda Python

2- Mencione el nombre del framework desarrollado por Apache para procesar

grandes conjuntos de datos para una aplicación en un entorno de computación distribuido.

500

¿Cuáles son los parámetros de configuración en el programa "MapReduce"?


Los principales parámetros de configuración en el marco "MapReduce" son:


Ingrese la ubicación de los trabajos en el sistema de archivos distribuido

Ubicación de trabajos de salida en sistema de archivos distribuido

Formato de entrada de datos

Formato de salida de datos

Clase que contiene la función de mapa

Clase que contiene la función reducir

Archivo JAR que contiene clases de mapeador, reductor y controlador

500

¿Qué fundación proporciona, administra y mantiene a Hadoop?

The apache software fundation.

M
e
n
u