sala 2

big data y ciencia de datos

arquitectura

Python para big data

hadoop

mesos

100

¿Que es la ciencia de datos?

La ciencia de datos combina multiples campos, como las estadisticas, metodos cientificos, inteligencia artificial y analisis de datos para extraer el valor de los datos

100

Arquitectura centralizada

Es aquella que está totalmente en un lugar fijo, es decir, esta almacenada en una sola maquina y en un solo cpu

De esta manera, el administrador de la base de datos, puede acceder a todo el conjunto de información al mismo tiempo, facilitándote el uso de los recursos, el monitoreo y el control sobre los datos.

100

¿Qué es Python en Big Data?

Permite su uso para aplicaciones de muestra e intercambio de información por la facilidad de conexión e intercambio de datos en sus distintos departamentos, gracias al uso de un mismo lenguaje y secuencias de comandos en un entorno común de datos.

100

¿Qué es el HDFS?

La tecnología o sistema de almacenamiento distribuido de información más extendido en el mundo del Big Data es el Hadoop Data File System, conocido como HDFS. ... HDFS proporciona a las aplicaciones o soluciones de Big Data la capacidad de acceder a los datos en el lugar en el que están almacenados

100

¿QUÉ ES APACHE MESOS?

Es un administrador de Cluster de código abierto basado en el kernel de Linux, a diferencia de que Mesos puede correr en cualquier plataforma ya sea Linux, Windows o OSX. Además proporciona aplicaciones con API’s para el manejo de recursos y planificación.

200

¿Que es big data?

Conjunto de datos de gran volumen que son imposibles de procesar

200

Arquitectura distribuida

Por otra parte, una base de datos distribuida necesita de varios sistemas gestores y de una arquitectura más compleja, lo cual aumenta costos y exige mayores capacidades técnicas.

La razón de esta diferencia es que una arquitectura distribuida consiste en mantener separados los datos que se obtienen a través de las distintas bases de datos.

Esta separación se logra mediante centros de datos distantes o máquinas virtuales distintas.

200

¿cuales son los Beneficios de programar en Phyton?

-Código simple

-Compatibilidad y Open Source

-Buen soporte de bibliotecas

-Alta velocidad y rendimiento

-Versatilidad

200

¿Qué formatos de archivos utiliza HDFS?

Text/CSV. Un fichero en texto plano o CSV es el formato más común tanto fuera como dentro del ecosistema Hadoop. ...
SequenceFile. El formato SequenceFile almacena los datos en formato binario. ...
Avro. ...
Parquet. ...
RCFile (Record Columnar File) ...
ORC (Optimized Row Columnar)

200

¿PARA QUÉ SIRVE?

Mesos se utiliza para correr grandes aplicaciones especialmente aquellas que manejan grandes volúmenes de datos y se hace inviable correr en un único servidor.

300

Ventajas de la ciencias de datos

Permitir que los científicos de datos sean más productivos al ayudarlos a acelerar y entregar los modelos en forma más rápida y con menos errores.

Facilitar que los científicos de datos trabajen con grandes volúmenes y variedades de datos.

Brindar una inteligencia artificial confiable, de categoría empresarial, que esté libre de sesgos, sea auditable y reproducible.

300

arquitectura descentralizada

se puede decir que existe más de un controlador y todos ellos son interconectables mediante un BUS que se encarga de enviar toda la información entre ellos, funcionando como un sistema centralizado en el que cada uno de los controladores se encarga de enviar información a los actuadores dependiendo de lo que hayan registrado tanto los sensores como los usuarios.

Entre sus ventajas destaca la posibilidad de hacer un rediseño de la red, tienen un reducido cableado, se puede ampliar fácilmente y ofrece una gran seguridad de funcionamiento.

Los puntos en contra son que sus elementos de red no son universales y hay cierta limitación, reducida ampliación y requiere de programación

300

¿Que librerías se usan en Python?

-parquet
-NumPy
-Pandas

300

¿Qué es Hadoop y para qué sirve?

Hadoop es una estructura de software de código abierto para almacenar datos y ejecutar aplicaciones en clústeres de hardware comercial. Proporciona almacenamiento masivo para cualquier tipo de datos, enorme poder de procesamiento y la capacidad de procesar tareas o trabajos concurrentes virtualmente ilimitados.

300

CARACTERÍSTICAS

Escalabilidad Lineal: puedes escalar fácilmente de forma lineal hasta 10.000 nodos.
Alta disponibilidad: réplica de master y agentes tolerante a fallos usando Zookeeper
Containers: soporta nativamente el uso de containers con Docker y Appc.
Conexiones Aisladas: utiliza Cgroups para el aislamiento de CPU, memoria, disco, puertos, GPU y módulos para el aislamiento de recursos personalizados.
Dos niveles de Planificación: soporta ejecutar aplicaciones heredadas y nativas de la nube en el mismo clúster con políticas de programación conectables.
API’s: provee aplicaciones HTTP para el desarrollo de nuevas aplicaciones distribuidas para operar el Cluster y monitoreo.
Web UI: interfaz de usuario web incorporada para ver el estado del clúster y navegar por los contenedores
MultiPlataforma: corre en Linux, OSX y Windows.

400

ventajas de big data

Reducción de coste. Las grandes tecnologías de datos, como Hadoop y el análisis basado en la nube, aportan importantes ventajas en términos de costes cuando se trata de almacenar grandes cantidades de datos, además de identificar maneras más eficientes de hacer negocios.

Más rápido, mejor toma de decisiones. Con la velocidad de Hadoop y la analítica en memoria, combinada con la capacidad de analizar nuevas fuentes de datos, las empresas pueden analizar la información inmediatamente y tomar decisiones basadas en lo que han aprendido.

Nuevos productos y servicios. Con la capacidad de medir las necesidades de los clientes y la satisfacción a través de análisis viene el poder de dar a los clientes lo que quieren. Con la analítica de Big Data, más empresas están creando nuevos productos para satisfacer las necesidades de los clientes.

400

Caracteristicas de las arquitecturas

la primera es que separa los programas de los datos y las operaciones, la segunda es el soporte de múltiples vistas de usuario y la tercera la utilización de un catalogo para almacenar la descripción (esquema) de la base de datos.

400

¿Qué es anaconda?

Anaconda incluye montones de paquetes populares como la consola Ipython, Jupyter Notebook, y Spyder IDE. Échale un vistazo al Navegador Anaconda. Puedes ejecutar programas desde el Navegador o usar la línea de comando.

400

¿Cómo funciona Hadoop?

Hadoop es un sistema de código abierto que se utiliza para almacenar, procesar y analizar grandes volúmenes de datos

400

¿que paltivos ofrece mesos?

Checkpoints
Cache executor
Conexión
Fallo del slave

500

Diferencias entre ciencia de datos y big data

la ciencia de datos proporciona herramientas para beneficiar el big data

el big data es quien proporciona los grandes volumenes de datos

500

¿Que tipo de arquitectura conviene mas?

La arquitectura centralizada

500

¿Qué es flask?

Flask nos permite crear de una manera muy sencilla aplicaciones web con Python.

500

¿Cómo funciona Sqoop?

Sqoop automatiza la mayor parte de los procesos de transferencia, basándose en la base de datos para describir el esquema de los datos a importar, además para su funcionamiento utiliza MapReduce para importar y exportar los datos, lo que proporciona una operación en paralelo, así como tolerancia a fallos.

500

¿Cuáles son los dos principales tipos de nodos?

Nodos masters
Nodos slaves