¿Cómo se le llama a las variables que mantenemos constantes todo el experimento para que no afecten los resultados?
Controladas
Indica qué es una variable objetivo.
Es la variable que se busca predecir o investigar
¿Qué es un problema de clasificación?
Es un problema donde se busca predecir la clase a la que pertenece un vector de datos (información).
¿Qué significa evaluar un algoritmo de ML o IA?
Significa calificar los errores y aciertos que cometería en una muestra de datos.
Película de Terror
El Aro
¿Cómo se le llama a las variables que pueden afectar los resultados del experimento al no poder dejarlas constantes?
Extrañas
¿Qué gráfica se emplea para analizar la distribución de variables numéricas?
Histograma
¿Cómo funciona un árbol de decisión?
Va separando un grupo de datos en ramas, donde cada rama es cada vez más "pura", es decir, va separando los datos en sus diferentes clases.
¿Qué es una matriz de confusión?
Es una tabla donde se indican los errores y aciertos de las predicciones que realizó un modelo.
Película de Fantasía (infantil)
El Grinch
¿Qué significa "normalizar" una variable?
Es aplicarle una operación matemática para que su distribución se asemeje a una Gaussiana (campana).
¿Qué significa que una variable esté correlacionada con otra?
Que tienen muchas coincidencias. Que una variable ayuda a saber la información de la otra.
¿Por qué se dice que las computadoras no son "inteligentes"?
Porque sólo saben hacer operaciones matemáticas, carecen de sentido común e interpretación básica. Es necesario entregarle los datos procesados.
Porque algunos errores son más importantes que otros dependiendo el problema.
Película de Fantasía (infantil)
Detective Pikachu
¿Qué es un outlier o dato atípico? ¿Qué debe hacerse con ellos?
Es un dato fuera de rango, probablemente erróneo. deben eliminarse o sustituirse.
De las siguientes transformaciones de una variable, ¿cuál elegirías para hacer análisis de datos? ¿Por qué?
La segunda
¿Qué es una regresión logística?
Es un algoritmo que se usa en problemas de clasificación binaria tratando de separar los grupos por una función logit (con forma de "S" alargada)
¿Qué significa que una base de datos esté desbalanceada? Da un ejemplo
Significa que uno de los valores de la variable objetivo es muy superior a los otros valores. Ejemplo: Tener una base de datos con 100000 operaciones reales y 50 fraudulentas.
Película de Acción
Matrix
¿Qué significa "estandarizar" una variable?
Es un tipo de escalamiento donde la media es 0 y la desviación estándar es 1.
¿Ésta puede considerarse una buena variable de clasificación (según la gráfica)?
Verdadero
¿Cómo funciona el método de "Vecinos Cercanos" en un problema de clasificación?
El algoritmo revisa los "vecinos" que matemáticamente son más cercanos (parecidos) a lo que se quiere predecir y se clasifica según estos vecinos.
"Dime con quién andas y te diré quién eres"
Indica con un ejemplo los dos tipos de errores y los dos tipos de aciertos que puede haber en un algoritmo de decisión binaria.
Aciertos: Verdadero Positivo y Verdadero Negativo
Errores: Falso Positivo y Falso Negativo
Película Romática
Bajo la misma estrella
¿Por qué es importante eliminar "outliers"?
Porque son datos que pueden confundir a nuestra computadora desviando su atención de la mayoría. Porque a veces son datos erróneos.
¿Para qué se utilizan los cálculos de Información Mutua y Chi2?
Para determinar qué tanto ayudan las variables predictoras a predecir la variable objetivo.
¿Cuál es la ventaja de un Bosque Aleatorio sobre un Árbol de Decisión?
Los árboles pueden sesgarse, los bosques podrían tener árboles sesgados pero en conjunto ese sesgo se disipa.
¿Cuál es el riesgo que se corre con una base de datos desbalanceada y cómo se puede evitar?
Que la computadora prediga la clase mayoritaria (ignorando la minoría) porque matemáticamente alcanza una buena precisión.
Película de Acción
Búsqueda Implacable
¿Por qué es importante escalar los datos antes de utilizarlos en un algoritmo de ML o IA?
Porque nuestra computadora puede creer que las variables con escalas más grandes (salario) son más importantes que las de escala pequeña (edad).
¿Por qué es importante eliminar algunas variables de nuestra base de datos antes de utilizar un algoritmo de ML o IA?
Para "ahorrar" tiempo, es decir, ahorrarle cálculos a nuestra computadora.
¿Qué significa validación cruzada y por qué es útil?
Significa dividir la base de datos en K grupos y utilizar uno de ellos como muestra de evaluación y los demás como entrenamiento. Volver a hacer lo mismo pero ahora utilizando un grupo distinto como muestra de evaluación y así hasta acabar con todos los grupos.
Sirve para evitar tener buena o mala "suerte".
Película Secreta
Moneyball