¿Cuáles son las 3v de la Big Data?
Volumen: la gran cantidad de datos.
Variedad: la amplia variedad de tipos de datos.
Velocidad: la presteza con la que deben procesarse.
Que Librería para python es especializada en el cálculo numérico y el
análisis de datos?
NumPy
Es la tecnología o sistema de almacenamiento distribuido de información que proporciona las aplicaciones o soluciones de Big Data la capacidad de acceder a los datos en el lugar en el que están almacenados.
HDFS (sistema de archivos distribuido Hadoop)
Cuantos colores tiene el logo de Hadoop
Posee 3 colores uno de ellos en 2 tonalidades: Negro, Amarillo y Azul.
¿Qué tecnologías usan norm¿Qué tecnologías usan normalmente para hacer ciencia de datos?almente para hacer ciencia de datos?
Se trabajan con lenguajes de programación, bases de datos, herramientas de
visualización, entre otras tecnologías. Algunas que podría mencionar son…
Bases de datos: MySQL, PostgreSQL, MongoDB o DynamoDB.
Big Data: Hadoop, Hive, Pig, Flume, Mahout o Sqoop.
Lenguajes de programación: Python o R.
Inteligencia Artificial / Machine Learning: Tensor Flow, Sklearn o IBM Watson.
ETL: Embulk, Python, Airflow o Azure Data Factory.
Herramientas de visualización: Tableu, Power BI, Redash, Matplotlib o TensorBoard
¿Cuáles son los operadores lógicos racionales?
* Y: Devuelve True si ambos operandos son True
* O Devuelve True si alguno de los operandos es True
* NO: Devuelve True si alguno de los operandos False
Menciona algunas características de SQOOP
Capacidad de carga
Carga completa y carga incremental
Técnicas de compresión de datos
Importar los resultados de las consultas SQL
Conectores de datos para todas las bases de datos principales
Soporte directo de carga de datos en sistemas de archivos Hadoop
Configuraciones de seguridad como Kerberos
Funciones concurrentes de importación o exportación
¿Que es R Studio?
R Studio NO ES un lenguaje de programación si no más bien un software de uso libre basado en paneles con la finalidad de hacer análisis estadísticos y gráficas.
R es un lenguaje de programación palmado con un entorno de programación usado para estadística y análisis de datos, principalmente.
¿Qué lenguajes y herramientas se usan en Big Data?
Dependiendo del área del Big Data en el que esté trabajando, se usará una
herramienta u otra, además de algunos lenguajes de programación. Estos son las
más usados en el sector:
● Hadoop
● Docker
● Jupyter
● Tableau
● D3.js
● TensorFlow
● Apache Spark
● NumPy
● Anaconda
● Python
¿cómo se puede un histograma en python y qué librerías se ocupan para hacerlo?
Para hacer un histograma en Python es necesario contar las veces que aparece cada valor en cada intervalo en el conjunto de valores. Después se puede hacer una representación textual del cálculo realizado. También se puede usar una librería como Matplotlib, Seaborn, Bokeh, Altair o Plotly.
Cuales son los 3 principales componentes de Hadoop
DRIVER
PUNTO DE ENTRADA
PARAMETRIZACIÓN
¿Qué es un operador en programación?
Nombra 3
Un operador es un elemento de programa que se aplica a uno o varios operandos en una expresión o instrucción. Regla aplicable tanto en el desarrollo de cualquier expresión matemática que los requiera como en programación.
La función de cada operador depende del tipo que se esté utilizando, veamos cada uno de ellos.
Ejemplo:
+ Suma
-Resta
*Multiplicación
= Igual
< Menor
> Mayor
La arquitectura Lambda, atribuida a Nathan Marz, es una de las más habituales actualmente en el procesamiento de datos en tiempo ____?
En tiempo real.
Es una librería de python destinada al análisis de datos, que proporciona unas
estructuras de datos flexibles y que permiten trabajar con ellos de forma muy
eficiente
Pandas
¿Cuál es la diferencia entre MapReduce y Yarn?
Yarn es el componente de Apache Hadoop responsable de gestionar los recursos y planificar los trabajos. MapReduce es el framework de programación o paradigma que indica la forma en la que ejecutar los trabajos distribuidos por medio de las fases map y reduce
Principales componentes de un Cluster Hadoop
¿Cuál es la diferencia entre la ciencia de datos, la inteligencia artificial y el aprendizaje automático?
IA significa hacer que una computadora imite de alguna manera el comportamiento humano.
El aprendizaje automático es otro subconjunto de la IA y consiste en las técnicas que permiten que las computadoras descubran cosas a partir de los datos y realicen aplicaciones de IA.
La ciencia de datos es un subconjunto de la IA que se refiere más a las áreas superpuestas de las estadísticas, los métodos científicos y el análisis de datos, que se utilizan todas para extraer el significado de los conocimientos de los datos.
.
Describe cómo se agrupa en cuatro sectores o soluciones tecnológicas de
Anaconda.
1. Anaconda Navigator: Interfaz gráfica de Anaconda Python
2. Proyecto Anaconda
3. Librerías de Ciencia de Datos
4. Conda: Gestor de código del Anaconda Python
2- Mencione el nombre del framework desarrollado por Apache para procesar
grandes conjuntos de datos para una aplicación en un entorno de computación distribuido.
¿Cuáles son los parámetros de configuración en el programa "MapReduce"?
Los principales parámetros de configuración en el marco "MapReduce" son:
Ingrese la ubicación de los trabajos en el sistema de archivos distribuido
Ubicación de trabajos de salida en sistema de archivos distribuido
Formato de entrada de datos
Formato de salida de datos
Clase que contiene la función de mapa
Clase que contiene la función reducir
Archivo JAR que contiene clases de mapeador, reductor y controlador
¿Qué fundación proporciona, administra y mantiene a Hadoop?
The apache software fundation.