Teoría Básica
Estadística Inferencial
Código Básico
Funciones de Pandas
100

¿Cuáles son las Áreas de aplicación para el Análisis Inteligente de Datos?

•Business y Finanzas: análisis y predicción del mercado y de futuros requisitos.

•Ciencia e Ingeniería: búsqueda “creativa” de ideas, creación de modelos a partir de datos.

•Bio-informática: análisis de bases de datos muy grandes para identificación de propiedades de genes, moléculas, medicamentos.

•Medicina y Salud: gestión de epidemias, estandarización de la comunicación.

•Web: análisis de redes sociales, contenidos online, foros para desarrollar nuevos productos o para optimizar la publicidad online

100

Define el concepto de Estadística Inferencial

Es una parte de la estadística que comprende los métodos y procedimientos para deducir propiedades (hacer inferencias) de una población, a partir de una pequeña parte de la misma (muestra). También permite comparar muestras de diferentes poblaciones.

100
Que librería debo importar para crear datos sintéticos

import numpy as np

100

Que elementos calcula describe() para columnas con valores no numéricos

count 10

unique 3

freq 5

Name: C, dtype: object

200

La estadística descriptiva implica la abstracción de varias propiedades del conjuntos de observaciones, mediante el empleo de métodos gráficos, tabulares o numéricos, menciona al menos 3 de los elementos que se calculan para la estadística descriptiva:

•Media aritmética •Mediana

•Moda:  •Centro de amplitud

•Media Ponderada • Media geométrica

• Media Armónica

200

Menciona las fases de la Estadística Inferencial

•Planteamiento del problema

•Elaboración de un modelo

•Extracción de la muestra

•Tratamiento de los datos

•Estimación de los parámetros

•Contraste de hipótesis

•Conclusiones

200

¿Cuál es la estructura de datos natural en Pandas?

Es el DataFrame df

200
¿Qué valores muestra el describe() en columnas numéricas?

In [3]: df.describe()

Out[3]:

A B

count 10.000000 10.000000

mean 2.600000 16.200000

std 1.429841 3.705851

min 1.000000 11.000000

25% 1.250000 13.250000

50% 2.500000 16.500000

75% 3.750000 18.000000

max 5.000000 22.000000

300

¿En la estadística descriptiva cual es el ciclo que se aplica a los datos?

Recopilar - Describir - Analizar

300

¿Cuales son los tipos de los que pueden ser las variables cuantitativas?

•Variables cuantitativas continuas, si admiten tomar cualquier valor dentro de un rango numérico determinado (edad, peso, talla).

•Variables cuantitativas discretas, si no admiten todos los valores intermedios en un rango. Suelen tomar solamente valores enteros (número de hijos, número de partos, número de hermanos, etc).

300

¿Cuál es el equivalente de las listas de Phyton en Pandas?

Las Series

300

Escribe al menos 2 funciones para exportar datos en Pandas

df.to_csv(filename) - Escribir en un archivo CSV
df.to_excel(filename) - Escribir en un archivo Excel
df.to_sql(table_name, connection_object) - Escribir en una tabla SQL
df.to_json(filename) - Escribir en un archivo con formato JSON

400

El procesamiento de datos puede involucrar varios procesos, menciona al menos dos técnicas que se utilizan:

•Tabulación de datos •Resumen de datos

•Agregación de datos •Validación de datos 

•Análisis estadístico •Análisis de correlaciones

•Análisis de regresión •Visualización de datos

•Análisis de escenarios  •Data mining

 •Análisis de sentimiento •Análisis semánticos de textos

•Análisis o de patentes y literatura científica

•Simulación de Monte Carlo

•Programación y optimización matemática

•Predicción matemática •Redes neuronales

•Experimentos AB •Cualitativo

•Cuantitativo

400

En el proceso de medición de estas variables, se pueden utilizar dos escalas:

•Escalas nominales: ésta es una forma de observar o medir en la que los datos se ajustan por categorías que no mantienen una relación de orden entre sí (color de los ojos, sexo, profesión, presencia o ausencia de un factor de riesgo o enfermedad, etcétera).

•Escalas ordinales: en las escalas utilizadas, existe un cierto orden o jerarquía entre las categorías (grados de disnea, estado de un tumor, etcétera).

400

¿Qué función se utiliza para mostrar los resultados y gráficar?

plot()

400

¿Qué parámetros requiero declarar para crear un Serie de Tiempo en Pandas?

ts = pd.Series(data=data, index=tidx, name='HelloTimeSeries')

500

Menciona al menos 3 de las Medidas de variabilidad, dispersión:

Amplitud, desviación media, varianza, desviación típica

500

De qué se compone una tabla de frecuencias

Intervalo de clases, Punto medio, Frecuencia y Frecuencia Relativa

500

Estructura general para crear un data frame en Pandas desde código

df = pd.DataFrame({'A': [1, 2, 1, 4, 3, 5, 2, 3, 4,1],

'B': [12, 14, 11, 16, 18, 18, 22, 13, 21, 17],

'C': ['a', 'a', 'b', 'a', 'b', 'c', 'b', 'a', 'b', 'a']})

500

Escribe al menos 3 funciones para Importar datos en Pandas

pd.read_csv(filename) - De un archivo CSV
pd.read_table(filename) - Desde un archivo de texto delimitado (como TSV)
pd.read_excel(filename) - De un archivo Excel
pd.read_sql(query, connection_object) - Lee desde una BaseDeDatos/Tabla SQL
pd.read_json(json_string) - Lee desde una cadena, URL o archivo con formato JSON
pd.read_html(url) - Analiza una URL html, una cadena o un archivo y extrae tablas a una lista
pd.read_clipboard() - Toma el contenido del porta papeles
pd.DataFrame(dict) - Desde un diccionario