¿Qué es el etiquetado de datos?
Es el proceso de asignar una etiqueta o categoría a los datos para que un modelo de ML pueda aprender de ellos.
¿Qué es el aumento de datos?
Es la creación de nuevas muestras artificiales a partir de datos existentes.
Define generalización en ML.
Es la capacidad de un modelo para funcionar bien con datos nuevos y no vistos.
¿Qué significa el término overfitting?
Es cuando el modelo memoriza el entrenamiento y no generaliza bien a nuevos datos.
Explica cómo afecta la profundidad de un árbol de decisión al overfitting.
Es una técnica de evaluación que divide los datos en varios subconjuntos para entrenar y probar el modelo repetidamente.
¿Por qué es importante la calidad en el etiquetado?
Porque etiquetas erróneas generan modelos inexactos y sesgados.
¿Cómo ayuda a prevenir el overfitting?
Aumenta la diversidad de datos y reduce la posibilidad de que el modelo memorice el entrenamiento.
¿Qué es underfitting?
Cuando el modelo es demasiado simple y no logra capturar los patrones de los datos.
¿Qué diferencia de precisión entre train y test indica sobreajuste?
Alta precisión en entrenamiento pero baja en prueba.
¿Qué problema tiene usar solo un train/test split?
Puede dar una visión parcial, dependiendo de cómo se dividan los datos.
Da un ejemplo de etiquetado de regresión.
Asignar el precio de una casa en dólares como etiqueta a partir de sus características.
Menciona dos técnicas de aumento en imágenes.
Rotación y volteo de imágenes.
¿Qué es overfitting en el contexto de la generalización?
Cuando el modelo se ajusta demasiado al conjunto de entrenamiento y pierde rendimiento en datos nuevos.
Menciona una forma de detectar overfitting.
Comparar desempeño en train vs test; si hay gran diferencia, puede haber sobreajuste.
¿Qué significa K en K-Fold Cross-Validation?
El número de particiones o folds en que se divide el dataset.
¿Qué técnica convierte categorías en variables binarias 0/1?
One-Hot Encoding.
Explica qué es la retrotraducción (back-translation) en NLP.
Traducir un texto a otro idioma y luego volverlo a traducir al original para generar variaciones.
¿Qué técnica permite evaluar generalización usando múltiples subconjuntos de datos?
Validación cruzada (Cross-Validation).
Nombra dos técnicas para prevenir el overfitting.
Regularización y dropout (también early stopping o reducción de complejidad).
¿Qué beneficios trae promediar los resultados de varios folds?
Reduce la varianza en la evaluación y da una medida más confiable del rendimiento.
Explica la diferencia entre segmentación semántica y detección de objetos.
La segmentación semántica clasifica cada píxel de una imagen; la detección de objetos dibuja cajas delimitadoras alrededor de objetos.
¿Qué ventaja tiene el aumento de datos cuando hay datasets pequeños?
Permite entrenar modelos más robustos sin necesidad de recolectar grandes cantidades de datos reales.
Explica con tus palabras qué significa lograr un “buen ajuste” en un modelo.
Que el modelo aprende lo suficiente para capturar patrones reales sin memorizar el ruido de los datos.
Explica cómo afecta la profundidad de un árbol de decisión al overfitting.
A mayor profundidad, mayor riesgo de overfitting porque el árbol puede memorizar casos específicos.
Explica cómo la validación cruzada ayuda a detectar la variabilidad de un modelo.
Permite ver cómo cambia el rendimiento del modelo según diferentes divisiones de los datos, mostrando su estabilidad.