¿Que es la ciencia de datos?
La ciencia de datos combina multiples campos, como las estadisticas, metodos cientificos, inteligencia artificial y analisis de datos para extraer el valor de los datos
Arquitectura centralizada
Es aquella que está totalmente en un lugar fijo, es decir, esta almacenada en una sola maquina y en un solo cpu
De esta manera, el administrador de la base de datos, puede acceder a todo el conjunto de información al mismo tiempo, facilitándote el uso de los recursos, el monitoreo y el control sobre los datos.
¿Qué es Python en Big Data?
Permite su uso para aplicaciones de muestra e intercambio de información por la facilidad de conexión e intercambio de datos en sus distintos departamentos, gracias al uso de un mismo lenguaje y secuencias de comandos en un entorno común de datos.
¿Qué es el HDFS?
La tecnología o sistema de almacenamiento distribuido de información más extendido en el mundo del Big Data es el Hadoop Data File System, conocido como HDFS. ... HDFS proporciona a las aplicaciones o soluciones de Big Data la capacidad de acceder a los datos en el lugar en el que están almacenados
¿QUÉ ES APACHE MESOS?
Es un administrador de Cluster de código abierto basado en el kernel de Linux, a diferencia de que Mesos puede correr en cualquier plataforma ya sea Linux, Windows o OSX. Además proporciona aplicaciones con API’s para el manejo de recursos y planificación.
¿Que es big data?
Conjunto de datos de gran volumen que son imposibles de procesar
Arquitectura distribuida
Por otra parte, una base de datos distribuida necesita de varios sistemas gestores y de una arquitectura más compleja, lo cual aumenta costos y exige mayores capacidades técnicas.
La razón de esta diferencia es que una arquitectura distribuida consiste en mantener separados los datos que se obtienen a través de las distintas bases de datos.
Esta separación se logra mediante centros de datos distantes o máquinas virtuales distintas.
¿cuales son los Beneficios de programar en Phyton?
-Código simple
-Compatibilidad y Open Source
-Buen soporte de bibliotecas
-Alta velocidad y rendimiento
-Versatilidad
¿Qué formatos de archivos utiliza HDFS?
¿PARA QUÉ SIRVE?
Mesos se utiliza para correr grandes aplicaciones especialmente aquellas que manejan grandes volúmenes de datos y se hace inviable correr en un único servidor.
Ventajas de la ciencias de datos
Permitir que los científicos de datos sean más productivos al ayudarlos a acelerar y entregar los modelos en forma más rápida y con menos errores.
Facilitar que los científicos de datos trabajen con grandes volúmenes y variedades de datos.
Brindar una inteligencia artificial confiable, de categoría empresarial, que esté libre de sesgos, sea auditable y reproducible.
arquitectura descentralizada
se puede decir que existe más de un controlador y todos ellos son interconectables mediante un BUS que se encarga de enviar toda la información entre ellos, funcionando como un sistema centralizado en el que cada uno de los controladores se encarga de enviar información a los actuadores dependiendo de lo que hayan registrado tanto los sensores como los usuarios.
Entre sus ventajas destaca la posibilidad de hacer un rediseño de la red, tienen un reducido cableado, se puede ampliar fácilmente y ofrece una gran seguridad de funcionamiento.
Los puntos en contra son que sus elementos de red no son universales y hay cierta limitación, reducida ampliación y requiere de programación
¿Que librerías se usan en Python?
-parquet
-NumPy
-Pandas
¿Qué es Hadoop y para qué sirve?
Hadoop es una estructura de software de código abierto para almacenar datos y ejecutar aplicaciones en clústeres de hardware comercial. Proporciona almacenamiento masivo para cualquier tipo de datos, enorme poder de procesamiento y la capacidad de procesar tareas o trabajos concurrentes virtualmente ilimitados.
CARACTERÍSTICAS
ventajas de big data
Reducción de coste. Las grandes tecnologías de datos, como Hadoop y el análisis basado en la nube, aportan importantes ventajas en términos de costes cuando se trata de almacenar grandes cantidades de datos, además de identificar maneras más eficientes de hacer negocios.
Más rápido, mejor toma de decisiones. Con la velocidad de Hadoop y la analítica en memoria, combinada con la capacidad de analizar nuevas fuentes de datos, las empresas pueden analizar la información inmediatamente y tomar decisiones basadas en lo que han aprendido.
Nuevos productos y servicios. Con la capacidad de medir las necesidades de los clientes y la satisfacción a través de análisis viene el poder de dar a los clientes lo que quieren. Con la analítica de Big Data, más empresas están creando nuevos productos para satisfacer las necesidades de los clientes.
Caracteristicas de las arquitecturas
la primera es que separa los programas de los datos y las operaciones, la segunda es el soporte de múltiples vistas de usuario y la tercera la utilización de un catalogo para almacenar la descripción (esquema) de la base de datos.
¿Qué es anaconda?
Anaconda incluye montones de paquetes populares como la consola Ipython, Jupyter Notebook, y Spyder IDE. Échale un vistazo al Navegador Anaconda. Puedes ejecutar programas desde el Navegador o usar la línea de comando.
¿Cómo funciona Hadoop?
Hadoop es un sistema de código abierto que se utiliza para almacenar, procesar y analizar grandes volúmenes de datos
¿que paltivos ofrece mesos?
Checkpoints
Cache executor
Conexión
Fallo del slave
Diferencias entre ciencia de datos y big data
la ciencia de datos proporciona herramientas para beneficiar el big data
el big data es quien proporciona los grandes volumenes de datos
¿Que tipo de arquitectura conviene mas?
La arquitectura centralizada
Flask nos permite crear de una manera muy sencilla aplicaciones web con Python.
¿Cómo funciona Sqoop?
Sqoop automatiza la mayor parte de los procesos de transferencia, basándose en la base de datos para describir el esquema de los datos a importar, además para su funcionamiento utiliza MapReduce para importar y exportar los datos, lo que proporciona una operación en paralelo, así como tolerancia a fallos.
¿Cuáles son los dos principales tipos de nodos?
Nodos masters
Nodos slaves