En términos generales el proceso de construcción de un árbol de regresión
Dividir el espacio predictor en J regiones no superpuestas y calcular la media de los valores de respuesta para las observaciones de entrenamiento en cada región Rj.
En métodos como Bagging y Random Forest, ¿Cómo se estima la respuesta final del modelo global en clasificación?
Por la mayoría de votos de todos los árboles.
En métodos como Bagging y Random Forest, ¿Cómo se estima la respuesta final del modelo global en regresión?
Calculando el promedio de todos los resultados.
En un conjunto de datos con clases muy desbalanceadas el clasificador "predecirá" la clase más común y su tasa de accuracy será muy alta, aunque probablemente sea incorrecta.
Fútbol americano: ¿Cuántas oportunidades (downs) tiene la ofensiva para avanzar 10 yardas y conservar la posesión?
4 downs para avanzar 10 yardas.
En árboles de clasificación, la predicción de clase correspondiente a una región J es:
la proporción de clase en cada Región J
Explique el método de ensamble "bagging" y su relación con el concepto de "bootstraping"
El método de bagging toma muestras repetidas del conjunto de datos de entrenamiento.
Luego, entrenamos cada árbol sin podar con el conjunto de entrenamiento bootstrap para obtener
hat f_b
Finalmente promediamos o tomamos los votos mayoritarios de todas las predicciones para obtener
hat f_(bag)
¿En qué consiste el método bootstratp?
Es un método de remuestreo que usa la propia muestra de datos como "población" para estimar un estadístico, generando muchas muestras "nuevas" del mismo tamaño con reemplazo a partir de los datos observados.
¿En qué consisten las técnicas de Submuestreo y Sobremuestreo?
Consiste en eliminar muestras de la clase mayoritaria (submuestreo) o añadir más ejemplos de la clase minoritaria (sobremuestreo).
Voleibol: ¿Cuántos toques máximos puede dar un equipo antes de pasar el balón al otro lado?
3 toques
¿Cuál es la función de pérdida para podar árboles de decisión?
sum_(m=1)^|T| sum_(i \in R_m) (y_i- hat y_(R_m))^2 + alpha |T|
En el método Bagging, ¿Qué representa el "Out-of-Bag Error Estimation"?
En bagging las observaciones restantes del bootstrap (no utilizadas para ajustar un árbol) se utilizan para estimar el error en "test" de un modelo bagging.
¿Cuál es el principal hiperparametro en Bagging y Random Forest?
El número de árboles (estimadores) que se utilizarán para la regresión o clasificación.
¿En qué consiste el método de Tomek Links Undersampling?
Detectar pares de instancias muy cercanas pero de clases opuestas. Eliminar la instancia de la clase mayoritaria en cada par incrementa el margen entre clases para facilitar la clasificación.
Fútbol americano: ¿Cuántos jugadores por equipo pueden estar en el campo al inicio del partido?
11 jugadores por equipo.
¿Cuál es la función de pérdida en los árboles de regresión?
Residual Sum of Squares (RSS)
sum_(j=1)^J sum_(i \in R_i) (y_i- hat y_(R_i))^2
El método de Bagging puede dar como resultado el análisis de Variable Importance, ¿Cómo se interpreta este resultado?
Como la contribución de un predictor dado (feature) para la disminución total del RSS o la disminución total del índice de Gini.
El número de árboles (estimadores) que se utilizarán para la regresión o clasificación y la tasa de aprendizaje.
¿En qué consiste el método de Synthetic Minority Oversampling Technique (SMOTE)?
SMOTE selecciona aleatoriamente un punto de la clase minoritaria y calcula sus k-vecinos más cercanos generando puntos sintéticos al combinar el punto seleccionado y sus vecinos.
Tenis: ¿Qué ocurre cuando el marcador llega a 40-40 en un juego?
Deuce (iguales); se juega ventaja y luego game si hay diferencia de dos puntos.
¿Cuáles son las funciones de pérdida más utilizadas en árboles de clasificación?
Gini:
sum_(k=1)^K hat p_(mk) (1-hat p_(mk))
Entropía:
- sum_(k=1)^K hat p_(mk) log(hat p_(mk))
¿Cuál es la principal diferencia entre Bagging y Random Forest?
Bagging descorrelaciona al seleccionar diferentes muestras del conjunto de observaciones con bootstrap mientras que Random Forest selecciona un subconjunto de los predictores p de tamaño
p ~~ \sqrt m
¿Cúal es la estrategia que emplea Boosting?
En el boosting los árboles se desarrollan secuencialmente: cada árbol se desarrolla utilizando información del error de árboles previamente desarrollados.
¿En qué consiste el método de de submuestreo NearMiss?
En lugar de remuestrear la clase minoritaria, se utiliza la distancia para igualar la clase mayoritaria a la minoritaria.
En la NBA ¿cuánto tiempo tiene un equipo tiene para intentar un tiro una vez que obtiene la posesión del balón?
24 segundos