¿Cuáles son las Áreas de aplicación para el Análisis Inteligente de Datos?
•Business y Finanzas: análisis y predicción del mercado y de futuros requisitos.
•Ciencia e Ingeniería: búsqueda “creativa” de ideas, creación de modelos a partir de datos.
•Bio-informática: análisis de bases de datos muy grandes para identificación de propiedades de genes, moléculas, medicamentos.
•Medicina y Salud: gestión de epidemias, estandarización de la comunicación.
•Web: análisis de redes sociales, contenidos online, foros para desarrollar nuevos productos o para optimizar la publicidad online
Define el concepto de Estadística Inferencial
Es una parte de la estadística que comprende los métodos y procedimientos para deducir propiedades (hacer inferencias) de una población, a partir de una pequeña parte de la misma (muestra). También permite comparar muestras de diferentes poblaciones.
import numpy as np
Que elementos calcula describe() para columnas con valores no numéricos
count 10
unique 3
freq 5
Name: C, dtype: object
La estadística descriptiva implica la abstracción de varias propiedades del conjuntos de observaciones, mediante el empleo de métodos gráficos, tabulares o numéricos, menciona al menos 3 de los elementos que se calculan para la estadística descriptiva:
•Media aritmética •Mediana
•Moda: •Centro de amplitud
•Media Ponderada • Media geométrica
• Media Armónica
Menciona las fases de la Estadística Inferencial
•Planteamiento del problema
•Elaboración de un modelo
•Extracción de la muestra
•Tratamiento de los datos
•Estimación de los parámetros
•Contraste de hipótesis
•Conclusiones
¿Cuál es la estructura de datos natural en Pandas?
Es el DataFrame df
In [3]: df.describe()
Out[3]:
A B
count 10.000000 10.000000
mean 2.600000 16.200000
std 1.429841 3.705851
min 1.000000 11.000000
25% 1.250000 13.250000
50% 2.500000 16.500000
75% 3.750000 18.000000
max 5.000000 22.000000
¿En la estadística descriptiva cual es el ciclo que se aplica a los datos?
Recopilar - Describir - Analizar
¿Cuales son los tipos de los que pueden ser las variables cuantitativas?
•Variables cuantitativas continuas, si admiten tomar cualquier valor dentro de un rango numérico determinado (edad, peso, talla).
•Variables cuantitativas discretas, si no admiten todos los valores intermedios en un rango. Suelen tomar solamente valores enteros (número de hijos, número de partos, número de hermanos, etc).
¿Cuál es el equivalente de las listas de Phyton en Pandas?
Las Series
Escribe al menos 2 funciones para exportar datos en Pandas
df.to_csv(filename) - Escribir en un archivo CSV
df.to_excel(filename) - Escribir en un archivo Excel
df.to_sql(table_name, connection_object) - Escribir en una tabla SQL
df.to_json(filename) - Escribir en un archivo con formato JSON
El procesamiento de datos puede involucrar varios procesos, menciona al menos dos técnicas que se utilizan:
•Tabulación de datos •Resumen de datos
•Agregación de datos •Validación de datos
•Análisis estadístico •Análisis de correlaciones
•Análisis de regresión •Visualización de datos
•Análisis de escenarios •Data mining
•Análisis de sentimiento •Análisis semánticos de textos
•Análisis o de patentes y literatura científica
•Simulación de Monte Carlo
•Programación y optimización matemática
•Predicción matemática •Redes neuronales
•Experimentos AB •Cualitativo
•Cuantitativo
En el proceso de medición de estas variables, se pueden utilizar dos escalas:
•Escalas nominales: ésta es una forma de observar o medir en la que los datos se ajustan por categorías que no mantienen una relación de orden entre sí (color de los ojos, sexo, profesión, presencia o ausencia de un factor de riesgo o enfermedad, etcétera).
•Escalas ordinales: en las escalas utilizadas, existe un cierto orden o jerarquía entre las categorías (grados de disnea, estado de un tumor, etcétera).
¿Qué función se utiliza para mostrar los resultados y gráficar?
plot()
¿Qué parámetros requiero declarar para crear un Serie de Tiempo en Pandas?
ts = pd.Series(data=data, index=tidx, name='HelloTimeSeries')
Menciona al menos 3 de las Medidas de variabilidad, dispersión:
Amplitud, desviación media, varianza, desviación típica
De qué se compone una tabla de frecuencias
Intervalo de clases, Punto medio, Frecuencia y Frecuencia Relativa
Estructura general para crear un data frame en Pandas desde código
df = pd.DataFrame({'A': [1, 2, 1, 4, 3, 5, 2, 3, 4,1],
'B': [12, 14, 11, 16, 18, 18, 22, 13, 21, 17],
'C': ['a', 'a', 'b', 'a', 'b', 'c', 'b', 'a', 'b', 'a']})
Escribe al menos 3 funciones para Importar datos en Pandas