¿Qué significa el término "pureza" en un árbol de decisión?
Indica qué tan separados están los datos que se quiere clasificar.
"Aprende" equivocándose muchas veces, haciendo pequeñas correcciones en cada repetición.
¿Para qué se usa una regresión lineal y para qué una regresión logística?
La regresión lineal predice (calcula) números, mientras que la logística clasifica.
¿Qué significa evaluar un algoritmo de ML o IA?
Significa calificar los errores y aciertos que cometería en una muestra de datos.
¿Qué significa correlación?
Es un número que indica la relación entre dos variables.
Comedia
Son como niños
¿Cómo funciona un árbol de decisión?
Va separando un grupo de datos en ramas, donde cada rama es cada vez más "pura", es decir, va separando los datos en sus diferentes clases.
Empleando el algoritmo de 3-Vecinos Cercanos, indica de qué colores tendrían que pintarse los círculos blancos.
De izquierda a derecha: amarillo, naranja, verde
En una regresión lineal, ¿qué significa el valor de la intercepción y?
Es la constante de la "humildad". Es como un valor promedio de todos los datos que es difícil considerar.
Porque algunos errores son más importantes que otros dependiendo el problema.
¿Qué significa optimizar los hiperparámetros de un modelo?
Buscar los valores que dan la máxima precisión (los mejores resultados).
Superhéroes
Spider-Man Home Coming
¿Cuál es la diferencia entre un árbol de decisión y un bosque aletaorio?
Un bosque aleatorio está conformado de múltiples árboles de decisión.
¿Cómo funciona el método de "Vecinos Cercanos" en un problema de clasificación?
El algoritmo revisa los "vecinos" que matemáticamente son más cercanos (parecidos) a lo que se quiere predecir y se clasifica según estos vecinos.
"Dime con quién andas y te diré quién eres"
¿Por qué a la regresión logística también se le llama "sigmoide"?
Por la forma de "S" que forma al graficarse
¿Cuáles son los dos tipos de errores y los dos tipos de aciertos que puede haber en un algoritmo de decisión binaria (dos clases)?
Aciertos: Verdadero Positivo y Verdadero Negativo
Errores: Falso Positivo y Falso Negativo
¿Cómo puedo utilizar la correlación para hacer un "filtro" de variables?
Se puede calcular la correlación entre cada variable predictora y la objetivo para ahcer un ranking y quedarnos con las más importantes.
Kung Fu Panda
¿Cómo hace un bosque aleatorio para tomar la decisión final en un problema de clasificación?
Toma los resultados de cada árbol que lo conforma y mediante una "votación" da como reusltado el más votado.
¿Cuáles son los tres tipos de capas que hay en una red neuronal MLP?
Entrada, Ocultas, Salida
En comparación con otros algoritmos de clasificación, menciona una desventaja de la regresión logística:
Sólo puede hacer clasificaciones binarias (dos grupos)
Da un ejemplo donde un falso positivo sea más importante que un falso negativo.
-
¿Cómo funciona el método de RFE (eliminación recursiva de variables) cuando buscamos obtener la selección óptima de variables?
Consiste en empezar con todas las variables disponibles y eliminar la menos importante (una por una) hasta obtener la máxima precisión.
Animada
Mi Villano Favorito
¿Cuál es la ventaja de un Bosque Aleatorio sobre un Árbol de Decisión?
Los árboles pueden sesgarse, los bosques podrían tener árboles sesgados pero en conjunto ese sesgo se disipa.
¿Por qué se dice que una red neuronal es una caja negra?
Porque los cálculos que hace en cada una de sus neuronas son tan numerosos y complejos que son prácticamente imposibles de entender por una persona.
Una de las ventajas más grandes de las regresiones lineal y logística es su "interpretabilidad", especialmente por los valores de sus "coeficientes". Explica a qué se refiere esto:
Los valores de los coeficientes son fáciles de interpretar porque entre mayor sea un coeficiente, significa que mayor es la importancia de la variable asociada a él.
Da un ejemplo donde un falso negativo sea más importante que un falso positivo.
-
¿Cómo podemos resolver el problema de los datos "desbalanceados" (ej. tener muchos positivos y pocos negativos)?
Se pueden crear más datos (muestras artificiales) o quitar datos del conjunto que tiene exceso (submuestreo).
Acción/Fantasía
Piratas del Caribe