Jeopardy - ML/SVMs

🧠 Conceptos básicos

⚙️ Primal form

🔮 Dual Form

🌀 Kernel Tricks

💬 Interpretación y Análisis

100

Esta superficie geométrica separa el espacio de datos en dos regiones distintas, asignando clases diferentes a cada lado.

¿Qué es un hiperplano?

100

Esta función penaliza los puntos mal clasificados o demasiado cerca del margen, equilibrando precisión y robustez.

¿Qué es la pérdida hinge?

100

En la formulación dual de la SVM, estas variables aparecen como multiplicadores asociados a las restricciones del margen y determinan los vectores soporte.

¿Qué son los multiplicadores de Lagrange (alpha)?

100

Este método permite separar datos no linealmente separables proyectándolos implícitamente en un espacio de mayor dimensión, sin calcular la transformación explícitamente.

¿Qué es el kernel trick?

100

Este parámetro controla el equilibrio entre el ancho del margen y la penalización por errores, funcionando como una especie de ‘regularizador’.

¿Qué representa el parámetro C en una SVM?

Explicación:

C grande → penaliza mucho los errores, margen más pequeño, posible overfitting.
C pequeño → permite más errores, margen más ancho, mayor generalización.

200

En una SVM, este valor indica de qué lado del hiperplano se encuentra un punto y se usa para decidir su clase.

¿Qué es el signo de w⋅x+b?

200

Este parámetro controla el equilibrio entre el ancho del margen y la penalización por errores de clasificación.

¿Qué es el parámetro C en la forma primal de la SVM?

200

En la forma dual, este término define las interacciones entre pares de muestras, reemplazando los productos directos por su versión generalizada con kernels.

¿Qué es la matriz K=X X^T (matriz del kernel lineal)?

200

Estos son tres ejemplos comunes de funciones kernel:

lineal,
polinomial,
gaussiano (RBF).

Explica brevemente cómo difieren en la forma en que separan los datos.

¿Cuáles son las diferencias entre los kernels lineal, polinomial y RBF?

200

En una SVM entrenada, estos puntos determinan directamente la posición del hiperplano y los márgenes.

¿Qué son los vectores soporte?

300

Dado el hiperplano w=[2,1], b=−4, calcula el margen geométrico entre este hiperplano y el origen.

Sol.: ≈ 1.78885

Pregunta: ¿Qué es la distancia (margen geométrico) entre el hiperplano y el punto más cercano?

300

Dada la función de costo de una SVM en su forma primal:

L(w) = 1/2 * ||w||² + C * suma sobre i de [ max(0, 1 - y_i * (w·x_i + b)) ], deriva a mano la expresión del gradiente de L con respecto a w.

Sol.:

∂L/∂w = w - C * suma de (yᵢ * xᵢ) para todos los puntos donde yᵢ * (w·xᵢ + b) < 1

Pregunta: ¿Cuál es el gradiente de L respecto a w en la forma primal de la SVM?

300

En la forma dual de la SVM, las variables alfa(i) están sujetas a dos tipos de restricciones.

Escribe cuáles son esas restricciones y explica brevemente qué representan.

Sol.:

Restricciones de caja:
0 <= alfa(i) <= C
→ garantizan que los multiplicadores se mantengan dentro del rango permitido por la penalización C.
Restricción de igualdad:
sum_i alfa(i) * y(i) = 0
→ asegura que el hiperplano sea balanceado respecto a ambas clases.

Pregunta: ¿Cuáles son las restricciones que deben cumplir las variables alfa(i) en la forma dual de la SVM y qué significan?

300

Dadas las muestras x = [1, 2] y z = [2, 1]:

a) Calcula manualmente el valor del kernel lineal
k(x, z) = x·z

b) Calcula el kernel polinomial de grado 2:
k(x, z) = (1 + x·z)^2

c) Calcula el kernel RBF con gamma = 0.5:
k(x, z) = exp( -gamma * ||x - z||² )

Sol.:

x·z = 1*2 + 2*1 = 4
(1 + 4)^2 = 25
||x - z||² = (1-2)² + (2-1)² = 2 → exp(-0.5 * 2) = exp(-1) ≈ 0.3679

Pregunta: ¿Cuáles son los valores de los kernels lineal, polinomial y RBF para los vectores dados?

300

Supón dos SVM entrenadas sobre el mismo conjunto de datos:

Modelo A con C = 0.1
Modelo B con C = 100

a) ¿Cuál tendrá un margen más ancho?
b) ¿Cuál corre mayor riesgo de sobreajustar?
c) Explica brevemente por qué.

Sol.:

a) El modelo A (C pequeño) tiene un margen más ancho.
b) El modelo B (C grande) tiende al sobreajuste.
c) Porque un valor grande de C fuerza al modelo a clasificar correctamente casi todos los puntos, incluso si eso reduce el margen y lo hace más sensible al ruido.

400

Nombrar el principio que describe:

1. Inicializa w y b

2. Mientras existan puntos con y_i (w·x_i + b) < 1:

# zona de penalización (hinge)

w ← (1 - ηλ)·w + η·y_i·x_i

b ← b + η·y_i

En otro caso:

# solo regularización

w ← (1 - ηλ)·w

3. Devuelve w, b

¿Qué es la maximización del margen en una SVM (forma primal con pérdida hinge y regularización)?

400

Como definición el siguiente pseudocódigo:

1. Inicializa w = 0, b = 0

2. Para cada epoch:

Para cada (x_i, y_i):

si y_i (w·x_i + b) < 1:

w ← (1 - ηλ)·w + η·C·y_i·x_i

b ← b + η·C·y_i

si no:

w ← (1 - ηλ)·w

3. Devuelve w, b

¿Qué es el gradiente descendente para SVM (lineal) tipo Pegasos?

400

Definición del principio:

1. Construye matrices P, q, G, h, A, b:

P = (y_i y_j)(x_i·x_j)

q = -1

G = -I

h = 0

A = y^t

b = 0

2. Llama a un solver cuadrático (QP) para maximizar:

½ α^t P α - q^t α

3. Devuelve α*, los multiplicadores óptimos

¿Qué procedimiento resuelve la forma dual de la SVM? o ¿Qué es un solver de programación cuadrática (QP)?

400

Descripción de un proceso:

1. Construye la matriz K usando el kernel elegido:

K[i,j] = kernel(x_i, x_j)

2. Arma el problema dual:

max 1ᵗα - ½ α^t (Y Y^t K) α

s.a. 0 <= α_i <= C, sum(α_i y_i) = 0

3. Resuelve α con un solver QP

4. Calcula w implícito: no se forma directamente, se usa α y los vectores soporte para predecir

¿Qué es el entrenamiento de una SVM kernelizada en la forma dual?

400

Descripción de comparación:

1. Entrena una SVM usando la forma primal (gradiente descendente).

2. Entrena otra SVM con la forma dual (solver QP).

3. Calcula las predicciones y la exactitud de ambas.

4. Compara los vectores w y b obtenidos.

5. Concluye bajo qué condiciones ambas formas producen el mismo hiperplano.

¿Qué muestra la comparación entre las formas primal y dual de la SVM?